AI 검색이 인용하는 출처는 어떻게 정해질까

ChatGPT·Perplexity·Gemini AI Overview 같은 생성형 검색 시스템이 응답과 함께 출처를 표시할 때, 그 선택은 임의적이지 않다. 이들 시스템의 대부분은 RAG(Retrieval-Augmented Generation) 구조를 기반으로 하며, 콘텐츠가 인용되기까지 크롤/색인·검색 선별·생성 인용의 세 단계를 독립적으로 통과해야 한다. 각 단계는 서로 다른 탈락 기준을 가지므로, 첫 번째 단계를 통과해도 나머지에서 걸러질 수 있다. 이 글은 그 메커니즘과 각 단계의 실전 대응을 정리한다.

RAG 파이프라인의 3단계 병목

AI 검색 시스템이 응답을 생성할 때 거치는 단계는 다음과 같다.

크롤·색인 (Crawl & Index) — 페이지가 AI 검색 시스템의 크롤러 또는 연동 검색 엔진에 의해 수집·색인되어야 한다. 왜: 색인되지 않으면 이후 단계 진입 자체가 불가능하다. 어떻게: robots.txt에서 GPTBot·PerplexityBot·anthropic-ai 등 AI 크롤러를 명시적으로 허용하고, sitemap.xml로 신선도를 관리한다.
검색 선별 (Retrieval) — 쿼리가 들어오면 시스템은 색인에서 후보 문서(통상 10~30개)를 벡터 유사도·BM25 키워드·PageRank 복합 점수로 추린다. 왜: 이 단계에서 탈락하면 LLM은 해당 페이지를 볼 수 없다. 어떻게: 도메인 권위와 함께, 쿼리 인텐트와 시맨틱하게 일치하는 헤드라인·메타 설명을 구조화한다.
인용 선택 (Citation Selection) — LLM이 선별된 문서 청크(chunk)를 읽고 응답을 생성하면서, 실제로 참조한 청크에 출처를 붙인다. 왜: LLM은 청크 내 주장이 응답 생성에 직접 기여했을 때만 인용한다. 검색 결과에 포함된 것만으로는 인용이 보장되지 않는다. 어떻게: 각 단락이 단일하고 명확한 팩트를 담도록 작성하고, 모호한 수식어를 제거한다.

검색 선별 단계 — 전통 랭킹 신호 vs. 시맨틱 매칭

Perplexity는 자체 크롤러와 Bing 색인을 병용하고, ChatGPT는 Bing API를, Google AI Overview는 Google 자체 색인을 사용한다. 세 시스템 모두 선별 단계에서 전통 SEO 신호와 임베딩 기반 시맨틱 유사도를 혼합한다.

신호	SEO (전통)	AI 검색 선별	AI 인용 선택
도메인 권위 (DA)	핵심 랭킹 요소	영향 있음 (신뢰도 가중치)	간접적 (선별 통과 여부로만)
키워드 일치 (BM25)	핵심	보조 (벡터와 혼합)	낮음 (LLM은 의미 해석)
벡터 시맨틱 유사도	미사용	핵심	핵심 (청크 선택 기준)
구조화 데이터 (JSON-LD)	리치 결과 획득	콘텐츠 유형 인식	간접 (청크 분리 품질 향상)
콘텐츠 직접성·밀도	낮음	보통	높음 (인용 결정의 핵심)
페이지 신선도	중간	높음 (실시간 쿼리)	중간

인용 선택 단계 — LLM이 청크를 고르는 방식

선별된 문서는 512~1024 토큰 단위 청크로 분할된 뒤 LLM 컨텍스트에 삽입된다. LLM은 이 청크들을 참조해 응답을 생성하고, 생성된 문장이 특정 청크에서 왔다고 판단하면 해당 청크의 URL을 출처로 표시한다. 인용 가능성을 높이는 요소는 다음과 같다.

원자적 주장 (Atomic Claims) — 한 단락에 하나의 명확한 팩트만 담는다. 왜: 청크에 여러 주장이 혼재하면 LLM이 어느 것을 쓸지 결정하기 어렵고 인용을 생략한다. 어떻게: "A는 B다. C는 D다."처럼 주어-술어가 명확한 단문 구조로 분리한다.
엔티티 밀도 (Entity Density) — 고유명사·수치·날짜·표준 명칭을 쿼리 인텐트와 일치하도록 포함한다. 왜: LLM 응답에 등장할 엔티티와 동일한 엔티티가 청크에 있으면 그 청크가 선택될 확률이 높다. 어떻게: "최신 프레임워크"보다 "React 18.3"처럼 버전·명칭 수준으로 명시한다.
직접 서술 (Declarative Tone) — "~일 수 있다", "상황에 따라 다르다"는 표현은 LLM이 불확실성 청크로 분류해 인용 우선순위를 낮춘다. 왜: AI 검색은 확정적으로 인용 가능한 사실을 응답에 포함시키도록 설계되어 있다. 어떻게: 실제로 불확실한 정보는 "추정" 또는 "~에 따르면"으로 명시하고, 그렇지 않은 정보는 능동·긍정 단정문으로 쓴다.

구현: 인용 가능성을 높이는 실전 설정

robots.txt — AI 크롤러 명시 허용

주요 AI 검색 크롤러 식별자를 명시적으로 허용해야 한다. User-agent: *로 전체 허용을 설정했더라도, 일부 시스템은 명시적 규칙을 우선 참조하며 부재 시 보수적으로 크롤을 제한한다.

# 주요 AI 검색 크롤러 허용
User-agent: GPTBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: anthropic-ai
Allow: /

User-agent: ClaudeBot
Allow: /

# Google AI (Gemini 학습·AI Overview 참조용)
User-agent: Google-Extended
Allow: /

# Meta AI
User-agent: meta-externalagent
Allow: /

# 크롤 예산 절약: 동적/비콘텐츠 경로 제외
User-agent: *
Disallow: /search?
Disallow: /api/
Disallow: /?utm_
Disallow: /cdn-cgi/

Sitemap: https://example.com/sitemap.xml

JSON-LD — Article + FAQPage 복합 스키마

Article 스키마는 LLM이 콘텐츠 유형을 식별하게 하고, FAQPage는 질문-답변 쌍을 명시적으로 청크화해 인용 단위를 최적화한다. 두 스키마를 @graph로 묶어 단일 블록에 선언하면 파서 오버헤드를 줄인다.

<script type="application/ld+json">
{
  "@context": "https://schema.org",
  "@graph": [
    {
      "@type": "Article",
      "headline": "AI 검색이 인용하는 출처는 어떻게 정해질까",
      "description": "RAG 파이프라인의 검색 선별·인용 선택 단계별 메커니즘과 실전 설정",
      "author": {
        "@type": "Person",
        "name": "이서연",
        "jobTitle": "GEO 전략 리드"
      },
      "publisher": {
        "@type": "Organization",
        "name": "Citeon",
        "url": "https://citeon.co.kr"
      },
      "datePublished": "2026-06-18",
      "dateModified": "2026-06-18",
      "mainEntityOfPage": {
        "@type": "WebPage",
        "@id": "https://citeon.co.kr/blog/ai-citation-mechanism"
      }
    },
    {
      "@type": "FAQPage",
      "mainEntity": [
        {
          "@type": "Question",
          "name": "AI 검색이 인용 출처를 결정하는 핵심 기준은 무엇인가?",
          "acceptedAnswer": {
            "@type": "Answer",
            "text": "크롤 가능성, 검색 선별 점수(벡터 유사도+BM25), 청크 내 원자적 팩트 밀도가 순서대로 작동한다. 최종 인용 여부는 세 번째 단계인 청크 품질이 결정한다."
          }
        }
      ]
    }
  ]
}
</script>

흔한 오해: "검색 상위 노출 = AI 인용 보장"

가장 빈번한 오해는 Google 검색 상위 노출이 곧 AI 인용을 의미한다는 가정이다. 검색 선별 단계와 인용 선택 단계는 서로 다른 기준으로 작동한다. 도메인 권위 80의 언론사 기사가 검색 선별을 통과했더라도, 그 기사가 "~로 전해졌다", "~는 주장했다" 같은 간접 인용 구조로만 채워져 있다면 LLM은 직접 팩트를 제공하는 도메인 권위 40의 전문 블로그 청크를 인용 선택할 수 있다. LLM은 도메인 권위가 아닌 청크 내 직접 팩트를 본다.

올바른 처리법: 검색 선별 최적화(SEO)와 인용 선택 최적화(GEO)를 별개 레이어로 설계한다. SEO는 도메인 신뢰도·링크·신선도로 선별 통과를 확보하고, GEO는 콘텐츠 구조 레벨에서 원자적 주장 단락과 명확한 H2/H3 계층으로 청크 품질을 관리한다. 두 작업이 분리될 때 인용률이 실질적으로 개선된다.

AI 검색 시스템이 인용 결정 알고리즘을 공개한 사례가 있는가?

2026년 중반 기준, 인용 결정 로직을 공식 문서화한 AI 검색 시스템은 없다. Perplexity·ChatGPT·Google AI Overview 모두 내부 구현을 비공개로 유지한다. 현재 알려진 내용은 REALM·RAG 원논문, 공개된 시스템 블로그 포스트, 그리고 역엔지니어링 실험을 통한 추정에 기반한다. 이 글에서 설명한 파이프라인 구조 역시 공개된 아키텍처 패턴과 실험적 관찰에서 도출한 합리적 추정임을 명시한다.

llms.txt를 설정하면 인용 가능성이 실제로 높아지는가?

llms.txt는 Anthropic이 제안한 사실상(de facto) 표준으로, 사이트의 AI 접근 정책과 주요 콘텐츠 경로를 LLM 에이전트에게 안내하는 파일이다. ChatGPT·Perplexity가 이 파일을 공식 지원한다는 확인된 문서는 현재 없으나, Claude 계열 AI 에이전트와 일부 자율 크롤러가 참조한다는 보고가 있다. 직접적인 인용률 향상보다는 크롤 우선순위 안내와 허용 콘텐츠 범위 명시 효과가 주된 역할이다. 설정 자체가 저비용이므로, 인용보다 크롤 효율 개선 목적으로 적용하는 것이 현실적인 기대치다.

참고 자료

이 글의 권고는 아래 공식 문서·연구를 근거로 합니다.