Skip to content

RAG vs Graph RAG — 뭐가 다르고, 언제 뭘 써야 하나

RAG(Retrieval-Augmented Generation)는 LLM 기반 서비스에서 가장 많이 쓰이는 패턴이다. 그런데 2024년에 Microsoft가 Graph RAG라는 걸 발표하면서 "기존 RAG보다 나은 건가?"라는 질문을 자주 접하게 됐다. 결론부터 말하면, 둘은 경쟁 관계가 아니라 서로 다른 상황에서 강점이 있는 상호 보완적인 접근이다.


RAG, 간단히 복습

RAG는 2020년 Meta가 제안한 기법이다. 원리는 단순하다. LLM이 답변을 생성하기 전에 외부 데이터에서 관련 정보를 검색해서 컨텍스트로 넘겨주는 것.

문서 → 청킹 → 임베딩 → 벡터 DB 저장
사용자 질문 → 질문 임베딩 → 유사도 검색 → 관련 청크 추출 → LLM에 전달 → 답변

간단하고 효과적이다. 그런데 한계도 있다. "이 데이터셋의 주요 주제는?"같은 전체 코퍼스에 대한 질의에는 약하고, 여러 문서에 분산된 정보를 연결하는 멀티홉 추론도 잘 못한다. 벡터 유사도 기반이다 보니, 의미적으로 가까운 청크를 가져올 뿐 정보 간의 관계를 이해하지는 못하기 때문이다.


Graph RAG는 뭐가 다른가

Graph RAG는 Microsoft Research가 2024년 발표한 접근법이다. 핵심 차이는 데이터를 벡터 대신 지식 그래프(Knowledge Graph)로 구조화한다는 것이다. 문서에서 엔티티(사람, 장소, 조직 등)와 그들 간의 관계를 LLM으로 추출하고, 이걸 노드와 엣지로 이루어진 그래프로 만든다.

문서 → LLM으로 엔티티/관계 추출 → 지식 그래프 구축 → Leiden 알고리즘으로 커뮤니티 탐지 → 커뮤니티별 요약 생성

검색할 때는 세 가지 모드가 있다. Global Search는 커뮤니티 요약을 활용해서 전체 코퍼스에 대한 질의를 처리하고, Local Search는 특정 엔티티와 인접 노드를 탐색하고, DRIFT Search는 둘을 결합한다.

직접 써보진 않았지만 논문이나 사례를 보면, 엔티티 간 관계를 명시적으로 표현하기 때문에 "A 회사와 B 회사의 관계는?"같은 질의에서 기존 RAG보다 확실히 나은 결과를 보인다.


성능은 어떻게 다를까

2025년 2월에 발표된 벤치마크 논문(RAG vs. GraphRAG: A Systematic Evaluation)의 결과가 꽤 흥미롭다.

단순한 사실 검색(싱글홉 질의)에서는 RAG가 더 나았다. 벡터 기반 검색이 직접적인 매칭에는 효율적이니까. 반면 여러 엔티티를 연결하는 멀티홉 추론에서는 Graph RAG가 우수했다. 그래프 순회가 이런 종류의 질의에 자연스럽게 맞는다.

요약 태스크에서도 비슷한 패턴이 나왔다. 세부 정보를 정확히 포착하는 건 RAG가 나았고(원본 텍스트 청크를 직접 전달하니까), 다양한 관점에서 다면적으로 요약하는 건 Graph RAG가 나았다.

그러니까 "어느 쪽이 더 좋다"가 아니라, 질의 유형에 따라 적합한 방식이 다른 거다.


비용과 운영 측면

여기서 현실적인 이야기를 좀 하자면, Graph RAG는 인덱싱 비용이 꽤 높다. RAG는 임베딩 API 호출만으로 인덱싱이 끝나지만, Graph RAG는 LLM으로 엔티티를 추출해야 하니까 API 비용이 훨씬 많이 든다. 인덱싱 시간도 더 길고, 그래프 파티셔닝이 복잡해서 수평 확장도 쉽지 않다.

쿼리 레이턴시도 Graph RAG가 상대적으로 높다. 데이터가 자주 업데이트되는 환경이면 이것도 고려해야 한다.


그래서 언제 뭘 쓸까

내 생각에는 이렇다.

RAG가 적합한 경우 — FAQ, 문서 검색 같은 단순 QA. 빠른 프로토타이핑이 필요할 때. 데이터가 자주 바뀌어서 실시간 인덱싱이 중요할 때. 인프라 비용을 최소화해야 할 때.

Graph RAG가 적합한 경우 — 공급망, 조직도, 법률 문서처럼 엔티티 간 관계가 핵심인 도메인. "전체 데이터의 주요 트렌드는?" 같은 글로벌 질의가 필요할 때. 여러 소스를 연결하는 복합 추론이 필요할 때.

실무에서는 둘을 결합하는 하이브리드 접근도 많다. 단순 사실 질의는 Vector RAG로 빠르게 처리하고, 복합 관계 질의는 Graph RAG로 정확하게 처리하는 식이다.

TIP

처음 시작한다면 일단 RAG부터 구축하는 걸 추천한다. Graph RAG는 기존 RAG로 해결이 안 되는 구체적인 문제가 있을 때 도입해도 늦지 않다. 솔직히 대부분의 유스케이스는 잘 튜닝된 RAG로 충분히 커버된다.


2025-2026 트렌드

요즘 눈에 띄는 움직임은 Agentic RAG다. RAG에 계획(Planning) 레이어와 도구 실행 능력을 추가해서 복합 추론을 처리하는 방식인데, 에이전트 시대에 맞는 자연스러운 진화인 것 같다. Microsoft도 GraphRAG에 DRIFT Search라는 새 검색 모드를 추가했고.

이 분야가 워낙 빠르게 움직이다 보니, 6개월 뒤에는 또 다른 접근법이 나올 수도 있다. 중요한 건 특정 기술에 올인하기보다, 각각의 장단점을 이해하고 상황에 맞게 선택할 줄 아는 거라고 생각한다.


참고 자료

삽질 테크 블로그