LLM 검색엔진은 왜 출처를 4.3개만 인용할까: 연구 해설

Perplexity, Bing Copilot, Google AI Overviews 같은 RAG 기반 LLM 검색엔진은 쿼리당 10~20개 문서를 후보로 올리면서도 실제 응답에 인용 표식을 붙이는 출처는 평균 4~5개에 수렴한다. GEO 논문(arXiv:2311.09735, Aggarwal et al. 2023)의 실험과 Liu et al.(2023) "Lost in the Middle: How Language Models Use Long Contexts"를 포함한 복수의 실측 분석이 이 패턴을 일관되게 확인한다. 이 수치는 UI 설계 결정이 아니라 검색(Retrieval)·재순위화(Reranking)·생성(Generation) 세 단계에서 독립적으로 작동하는 구조적 제약이 겹친 결과다. 인용 가시성을 높이는 실무 접근은 일반적인 SEO 최적화가 아니라 각 단계의 병목 위치와 성격을 정확히 이해하고 거기에 맞는 신호를 문서 안에 심는 것에서 시작한다.

RAG 파이프라인 3단계: 검색에서 인용까지

1단계: Retrieval — 후보 풀 구성

BM25 + 밀집 벡터 이중 검색: 대부분의 프로덕션 RAG는 키워드 기반 BM25와 임베딩 기반 dense retrieval을 병렬로 실행해 top-K(보통 10~20) 문서를 후보로 올린다. 왜: 두 방법이 상호 보완적이기 때문이다(BM25는 희소 키워드에, dense는 의미론적 근접도에 강하다). 어떻게: 점수를 Reciprocal Rank Fusion(RRF)으로 합산해 단일 후보 목록을 구성한다.
청크 단위 색인: 문서 전체가 아닌 256~512 토큰 단위 청크가 검색 단위다. 왜: 전체 페이지를 단일 임베딩으로 표현하면 내부 정보 손실이 크고 관련 구절 위치를 정밀하게 특정하기 어렵기 때문이다. 어떻게: 청크마다 원본 URL·섹션 제목·순서 메타데이터를 보존해 인용 시 원문 추적을 가능하게 한다.

2단계: Reranking — 병목 형성 지점

크로스-인코더 재순위화: 쿼리와 각 후보 청크를 쌍으로 입력받는 cross-encoder(예: ms-marco-MiniLM-L-6-v2)가 관련도 점수를 재산정한다. 왜: bi-encoder 임베딩은 속도를 위해 쿼리와 문서를 독립 인코딩하므로 미묘한 관련성 차이를 놓치기 쉽기 때문이다. 어떻게: 재산정된 점수 기준 상위 3~7개만 생성 단계로 전달되며, 이 컷오프가 인용 수의 상한을 사실상 결정한다.
점수 분포의 급격한 하강: 실측 상 재순위 점수는 위치 4~5 이후 멱함수 형태로 급락한다. 왜: 쿼리와 실질적으로 관련된 고밀도 문서는 소수이고, 나머지는 부분적 키워드 일치에 그치기 때문이다. 어떻게: 이 컷오프를 넘기 위해서는 문서 도입부 200 토큰 안에 쿼리 관련 핵심 주장과 수치를 밀집 배치해야 한다.

3단계: Generation — 컨텍스트 창 내 경쟁

토큰 예산 제약: 컨텍스트 창에서 시스템 프롬프트·쿼리·응답이 일정 비중을 차지하고, 검색 문서에 배정되는 토큰은 제한된다. 청크당 300~500 토큰이면 4~6개가 현실적 상한이다. 왜: 문서를 더 넣을수록 레이턴시와 비용이 선형 이상으로 증가하기 때문에 엔진이 실험적으로 균형점을 4~5로 설정한다. 어떻게: 생성 단계에서 실제 참조된 청크에만 인용 번호를 붙여 응답을 완성한다.
어텐션 열화(Lost in the Middle): Liu et al.(2023)의 실험에서 LLM은 컨텍스트 앞과 끝에 위치한 정보를 중간 정보보다 훨씬 높은 정확도로 활용하는 것이 실증됐다. 왜: 트랜스포머 어텐션이 절대 위치에 민감하며, 중간 위치 정보는 강화 학습 과정에서도 덜 보상받는 경향이 있기 때문이다. 어떻게: 6개 이상 문서를 투입하면 중간 문서가 사실상 무시돼 인용에 포함되지 않는다.

인용 문서 수와 응답 품질: 실험적 관계

인용 문서 수	응답 관련도	컨텍스트 오염 위험	레이턴시	주요 제약
1~2개	낮음 (단면적 답변)	낮음	빠름	관점 다양성 부족, 환각 위험
3~5개	높음 (균형)	낮음	보통	없음 — 실질적 최적 구간
6~10개	보통 (중간 열화)	중간	느림	Lost in the Middle 발생
10개 초과	낮음 (노이즈 유입)	높음	매우 느림	컨텍스트 창 포화, 환각 증가

인용 가시성을 높이는 구현

llms.txt: LLM 크롤러 전용 사이트 요약

llms.txt는 도메인 루트에 두는 텍스트 파일로, LLM 크롤러가 사이트 구조와 핵심 콘텐츠를 빠르게 파악하도록 돕는 커뮤니티 컨벤션이다. 현재 Perplexity·Cursor 등이 실험적으로 참조하며, robots.txt와 달리 차단 기능이 없어 도입 비용이 낮다.

# Citeon
> Citeon은 AEO·GEO·SEO 통합 마케팅 대행사다.
> RAG 기반 LLM 검색엔진에서 브랜드 인용 가시성을 높이는
> 전략 컨설팅과 기술 구현을 제공한다.

## 핵심 서비스
- [GEO 전략 컨설팅](https://citeon.io/geo): 생성형 엔진 인용 최적화 전략 설계
- [AEO 구현 가이드](https://citeon.io/aeo): FAQ·스키마·구조화 콘텐츠 구현
- [기술 블로그](https://citeon.io/blog): SEO·AEO·GEO 메커니즘 분석

## 핵심 통계 및 레퍼런스
- GEO 최적화 후 인용 가시성 평균 40% 향상 (Aggarwal et al. 2023, arXiv:2311.09735)
- RAG 응답당 평균 인용 출처 4~5개 — 컨텍스트 창·재순위 컷오프·어텐션 열화의 복합 결과
- Lost in the Middle 효과: 6개 초과 문서 투입 시 중간 문서 활용률 급락 (Liu et al. 2023)

## 기술 레퍼런스 문서
- [llms.txt 작성 가이드](https://citeon.io/blog/llms-txt): 포맷 명세 및 실전 예시
- [JSON-LD 구현 체크리스트](https://citeon.io/blog/schema): 인용 가능성을 높이는 구조화 데이터

JSON-LD로 청크 메타데이터 강화

Schema.org Article 타입의 description 필드에 핵심 주장을 200자 이내로 압축하면 임베딩 품질이 향상된다. citation 필드로 권위 있는 출처를 명시하면 크로스-인코더가 관련도를 높게 산정하는 구조적 신호로 작동한다.

{
  "@context": "https://schema.org",
  "@type": "Article",
  "headline": "LLM 검색엔진은 왜 출처를 4~5개만 인용할까",
  "description": "RAG 재순위화 컷오프와 Lost in the Middle 어텐션 열화가 LLM 검색엔진의 인용 수를 평균 4~5개로 제한하는 기술적 메커니즘.",
  "author": {
    "@type": "Person",
    "name": "박도현",
    "jobTitle": "AEO 리서처"
  },
  "publisher": {
    "@type": "Organization",
    "name": "Citeon"
  },
  "datePublished": "2026-06-18",
  "citation": [
    {
      "@type": "CreativeWork",
      "name": "GEO: Generative Engine Optimization",
      "url": "https://arxiv.org/abs/2311.09735"
    },
    {
      "@type": "CreativeWork",
      "name": "Lost in the Middle: How Language Models Use Long Contexts",
      "url": "https://arxiv.org/abs/2307.03172"
    }
  ]
}

흔한 오해: "구글 상위 랭킹 = LLM 인용 빈도 높음"

Google 검색 순위와 LLM 인용 빈도는 독립적이다. Perplexity·Bing Copilot 등 RAG 엔진은 Google 색인을 그대로 사용하지 않으며, 자체 크롤러·임베딩·재순위화 파이프라인을 독립적으로 운영한다. GEO 논문의 실험에서 Google 순위 7~10위 문서가 통계 인용·권위 신호 최적화 후 상위 문서보다 높은 인용률을 기록한 사례가 보고됐다.

올바른 처리법: 구글 PageRank 신호(외부 링크·도메인 권위) 축적과 병행해, LLM 인용 최적화는 단락 단위의 별도 작업이다. 각 H2 섹션의 첫 2~3 문장 안에 (1) 검증 가능한 수치, (2) 권위 있는 출처 언급, (3) 명확한 주장 문장을 집중 배치한다. 이 세 요소는 크로스-인코더가 관련도를 높게 산정하는 구조적 신호에 직접 대응하며, Google 순위와 무관하게 재순위화 컷오프를 통과할 가능성을 높인다.

FAQ 1: llms.txt가 없으면 LLM 검색엔진이 내 사이트를 인용하지 않나?

llms.txt는 인용의 전제 조건이 아니다. 현재 주요 엔진은 표준 크롤러로 HTML을 수집하고 자체 파이프라인으로 임베딩하므로, 파일이 없어도 크롤링과 인용이 가능하다. llms.txt는 크롤러가 사이트 구조를 빠르게 파악하도록 돕는 힌트 파일이며, 핵심 페이지·통계·정의를 한 파일에 압축 제공하면 중요 콘텐츠가 후보 풀에 오를 가능성을 높인다는 점에서 실험적 가치가 있다. robots.txt와 달리 차단 기능이 없으므로 도입 비용이 낮다. 단, 현재(2026년 기준) 공식 표준이 아닌 커뮤니티 컨벤션이므로 엔진별 지원 여부를 직접 확인해야 한다.

FAQ 2: 인용 가시성을 높이려면 콘텐츠를 짧게 만들어야 하나?

청크 단위로 색인되므로 전체 문서 길이보다 각 섹션(청크)의 밀도가 중요하다. 2000단어 글이라도 섹션마다 핵심 주장·수치·출처가 도입부에 집중돼 있으면 개별 청크가 높은 재순위화 점수를 받는다. 반대로 짧은 글이라도 배경 설명 중심이고 주장이 산만하면 임베딩 유사도가 낮아 후보에서 탈락한다. 실무 권장: H2 섹션당 검증 가능한 수치 1~2개, 명확한 주장 문장 1개, 권위 출처 언급 1개 구조를 유지하면서 전체 분량은 독자 필요에 따라 조정한다. 청크 경계가 H2 단위로 설정되는 경우가 많으므로 H2 시작 직후 2~3 문장이 특히 중요하다.

참고 자료

이 글의 권고는 아래 공식 문서·연구를 근거로 합니다.