2 분 소요

Tree-KG: An Expandable Knowledge Graph Construction Framework for Knowledge-intensive Domains

논문 정보

  • Songjie Niu, Kaisen Yang, Rui Zhao, Yichao Liu, Zonglin Li, Hongning Wang, Wenguang Chen
  • ACL 2025: The 63rd Annual Meeting of the Association for Computational Linguistics
  • Tsinghua University, Tsinghua Shenzhen International Graudate School

Introduction

  • 과학 연구처럼 복잡하고 전문적인 분야의 지식을 체계적으로 정리하기 위해, Tree-KG라는 새로운 지식 그래프(Knowledge Graph, KG) 자동 구축 프레임워크를 제안
  • 인간이 교과서 목차처럼 지식을 계층적으로 구성하는 방식에서 영감을 얻어 이를 자동화 하는 것

핵심 문제

  • 과학, 의료, 법률 등 지식 집약적 분야에서는 방대한 데이터를 구조화하여 의사결정에 활용하는 것이 중요
  • 지식 그래프(KG)가 좋은 해결책지만, 이 분야들은 내용이 너무 복잡하고 빠르게 변해서 KG를 만드는 데 많은 수작업과 노력이 필요

기존 연구읜 한계점

  • 규칙 기반 시스템 (Rule-based systems)
    • 높은 정확도를 보여주나, 확장성과 일반화 능력이 부족, 새로운 상황에 취약
    • 반대로, DL 및 임베딩 기반은 확장성을 위한 별도의 모델 설계 혹은 유사도 연산을 통한 일반화 능력이 우수
  • 지도 학습 모델 (Supervised learning methods)
    • 고품질의 데이터셋을 만드는 데 많은 비용과 노력이 필요
    • 학습 데이터에 대한 의존도가 높아 적응성이 떨어짐
  • LLM 기반 방법
    • 자동화에 유용
    • 잘 정의된 지식 구조나 의미적 일관성이 부족 (hallucination이 그대로 반영된 KG를 구축)
    • 지식을 점진적으로 확장하는 자체 매커니즘이 없어 확장성에 한계가 존재

핵심 아이디어

  • 인간이 교과서 목차처럼 지식을 계층적으로 구성하는 방식에서 영감을 얻음
  • 실제 물리 교과서 데이터를 분석한 결과, 교과서상 가까운 위치에 있는 개념일수록 관계성이 강하다는 사실을 확인
  • 이를 바탕으로 교과서의 구조를 적극적으로 활용하는 ‘Tree-KG’ 프레임워크를 개발

  • Figure 1은 교과서의 각 section에 등장하는 entity 간의 관계성 점수(strength score)를 시각화한 결과
  • 자기 자신에 대한 관계성 점수가 가장 높게 나타나며
  • 주변 section의 entity와의 관계성 점수가 그 다음으로 높게 나타나는
  • 경향을 확인할 수 있음

figure_1

해결책: Tree-KG

  • Tree-KG는 이러한 문제를 해결하기 위해 아래 두 단계 접근 방식을 사용
    1. 초기 구축 (뼈대 만들기)
      • 먼저 교과서나 논문처럼 목차가 있는 구조화된 텍스트를 분석
      • 대형언어모델(LLMs)을 활용하여 이 목차 구조를 그대로 따라 트리(Tree) 형태의 기본 지식 그래프를 구축
      • 이는 마치 건물의 뼈대를 세우는 skeleton 구축 과정과 동일
    2. 반복적 확장 (살 붙이기)
      • 기본 뼈대가 만들어지면, 미리 정의된 유연한 규칙(operator)을 통해 숨겨진 관계를 찾아내어 그래프를 점진적으로 확장
      • 예를 들어, 다른 챕터에 있지만 서로 관련 있는 개념들을 찾아 연결하는 식
      • 이를 통해 뼈대에 살을 붙여 풍성하고 완성도 높은 지식 그래프를 구축

주요 결과 및 장점

  • 뛰어난 성능
    • 실험 결과, Tree-KG는 기존 다른 방법들보다 월등한 성능을 보임
    • F1 점수가 2위 그룹보다 12~16% 더 높았음
  • 높은 정보 추출 품질
    • 소스 텍스트에서 정보를 정확하게 추출하는 능력이 뛰어남
    • 특정 데이터셋에서는 0.81이라는 높은 F1 점수를 기록
  • 비용 효율성
    • 더 적은 LLM 토큰(비용)을 사용하면서도 강력한 결과를 도출
    • 비용 효율적이고 자원 친화적인 구축이 가능
  • 구조적 우수성
    • 교과서 구조를 기반으로 하여 생성한 KG는 논리적으로 잘 정렬되어 있음
    • 특정 전문 분야의 지식을 효과적으로 표현

댓글남기기