AI 인용 도메인의 62%가 전통 검색과 다른 이유

2024년 Semrush와 BrightEdge가 각각 수행한 AI Overviews·Perplexity 인용 분석에서, 동일 쿼리의 전통 검색 상위 10위 결과와 AI 인용 URL 간 중복률은 평균 38% 수준으로 나타났다 — 즉 약 62%의 인용 도메인이 전통 SEO 랭킹과 무관하게 선택됐다. 이 수치의 기술적 원인은 단순한 알고리즘 다양성이 아니다. RAG(Retrieval-Augmented Generation) 파이프라인이 PageRank 계열 링크 그래프 대신 사전학습 분포·벡터 유사도·의미 밀도를 소스 선별 기준으로 사용하는 구조적 차이다. SEO 상위 노출을 달성한 페이지가 AI 답변에서 누락되는 역설은 마케터와 엔지니어 모두에게 독립적인 최적화 레이어를 요구한다.

RAG 파이프라인이 PageRank를 우회하는 메커니즘

전통 검색엔진은 Link Graph에서 계산한 PageRank를 핵심 랭킹 신호로 사용한다. RAG 기반 LLM 검색엔진의 소스 선택은 구조적으로 다른 두 단계를 거친다.

1단계: 사전학습 데이터 편향

왜: GPT·Claude·Gemini는 Common Crawl + 위키피디아 + 학술 논문 + GitHub 혼합 코퍼스로 학습됐고, 이 분포가 모델 내부 "지식 신뢰도"로 고착된다. — 어떻게: 위키피디아 형식(인용 각주, 명시적 출처 태그, 엔티티 명확화)을 모방한 콘텐츠가 패턴 매칭에서 높은 신뢰 가중치를 받는다.
왜: Reddit·Stack Overflow·Hacker News 등 커뮤니티 Q&A 도메인은 사전학습 데이터에서 높은 비율을 차지한다. — 어떻게: 해당 플랫폼에서 브랜드 엔티티가 언급되는 스레드는 모델 응답 생성 시 참조 후보 우선순위가 높아진다.

2단계: 실시간 벡터 검색 재순위화

왜: RAG 파이프라인은 쿼리 임베딩과 청크 임베딩 간 코사인 유사도로 후보 문서를 선별하므로, 백링크 수보다 의미적 밀도가 낮은 청크는 탈락한다. — 어떻게: 500~800토큰 단위로 명확한 주제 하나를 집중적으로 다루는 청크 구조가 넓고 얕은 콘텐츠보다 재순위화에서 유리하다.
왜: Liu et al.(2023) "Lost in the Middle" 연구에 따르면, 컨텍스트 창 내 어텐션이 앞·뒤 배치 청크에 집중되고 중간부 청크는 열화된다. — 어떻게: 핵심 팩트·수치·정의를 문서 앞단 300자 내에 배치하면 RAG 어텐션 편향을 활용해 인용 가능성을 높인다.

AI가 선호하는 도메인 속성: 전통 SEO 신호와의 차이

신호 범주	전통 SEO (Google 유기검색)	AI 인용 (RAG 기반)
권위 측정	도메인 레이팅(DR), 백링크 수, PageRank	엔티티 인용 밀도, 교차 문서 일관성, 위키데이터 연결
콘텐츠 선호	EEAT 신호, 긴 형식 콘텐츠, 키워드 커버리지	사실 밀도, 수치·통계 포함 비율, 출처 인용 명시
구조 신호	메타태그, H1/H2 계층, 내부 링크	Schema.org JSON-LD, FAQPage, HowTo, ClaimReview
선호 도메인 유형	상업적 .com 도메인, 신뢰도 높은 브랜드	.edu/.gov, 위키피디아, 학술 아카이브, 공식 문서
갱신 신호	Crawl 빈도, Sitemap lastmod	llms.txt 캐노니컬, JSON-LD dateModified 명시

Semrush(2024) 데이터에서 AI Overviews 인용 도메인 상위 범주는 Wikipedia(21%), 공식 정부·기관 사이트(14%), 학술 저널 및 아카이브(11%) 순이었다. Schema.org 마크업을 갖춘 상업적 도메인의 인용률은 비마크업 동종 대비 약 1.4배 높았으나, 이는 소규모 표본 기반 추정치이므로 일반화에 한계가 있다.

구현: AI 인용 가시성을 높이는 신호 설계

JSON-LD Citation 마크업 — 팩트 앵커 패턴

AI 엔진은 Schema.org Article + citation 배열 조합으로 문서 내 수치·주장을 구조화된 팩트로 인식한다. 아래는 연구 분석 블로그 포스트에 적용하는 최소 유효 마크업이다.

{
  "@context": "https://schema.org",
  "@type": "Article",
  "headline": "AI 인용 도메인의 62%가 전통 검색과 다른 이유",
  "datePublished": "2026-06-18",
  "dateModified": "2026-06-18",
  "author": {
    "@type": "Person",
    "name": "박도현",
    "jobTitle": "AEO 리서처",
    "worksFor": {
      "@type": "Organization",
      "name": "Citeon"
    }
  },
  "publisher": {
    "@type": "Organization",
    "name": "Citeon",
    "url": "https://citeon.ai"
  },
  "citation": [
    {
      "@type": "ScholarlyArticle",
      "name": "GEO: Generative Engine Optimization",
      "url": "https://arxiv.org/abs/2311.09735",
      "author": {
        "@type": "Person",
        "name": "Aggarwal et al."
      },
      "datePublished": "2023-11-16"
    }
  ],
  "about": {
    "@type": "Thing",
    "name": "Retrieval-Augmented Generation",
    "sameAs": "https://en.wikipedia.org/wiki/Retrieval-augmented_generation"
  },
  "speakable": {
    "@type": "SpeakableSpecification",
    "cssSelector": ["h2", ".key-finding"]
  }
}

왜 citation 필드: Google SGE와 Perplexity 모두 출처 투명성을 신뢰 신호로 처리한다. — 어떻게: 인용하는 논문·데이터셋의 ScholarlyArticle 타입을 citation 배열에 명시하면 해당 수치가 AI 응답에서 검증된 팩트로 분류될 가능성이 높아진다.
왜 sameAs 위키피디아 링크: LLM이 사전학습에서 학습한 엔티티 ID와 도메인 엔티티를 연결하여 인용 후보 매칭 확률이 올라간다. — 어떻게: 핵심 개념의 Thing.sameAs를 위키피디아 또는 위키데이터 QID로 지정한다.
왜 speakable: Google AI Overviews가 음성 요약 추출에 사용하는 신호이며 Featured Snippet과 연동된다. — 어떻게: 핵심 H2 섹션과 정의 단락에 .key-finding 클래스를 부여하고 cssSelector에 등록한다.

측정: AI 인용 패턴 추적

왜 서버 로그 분석: Google Analytics는 AI 레퍼러를 direct로 집계하여 AI 트래픽이 구조적으로 과소 측정된다. — 어떻게: Nginx/Caddy 액세스 로그에서 User-Agent에 GPTBot|ClaudeBot|PerplexityBot|Applebot-Extended를 필터링해 크롤 빈도와 엔드포인트를 별도 집계한다.
왜 Profound·BrightEdge 같은 AI 가시성 툴: 쿼리별 AI 인용 여부와 인용 위치(도입부/중간/각주)를 자동 추적한다. — 어떻게: 핵심 목표 쿼리 50~100개를 패널로 등록하고 주간 인용 비율 변화를 SEO 랭킹 변화와 분리해 상관 분석한다.
왜 수동 프롬프트 테스트: 자동화 툴이 커버하지 못하는 롱테일 쿼리와 언어별 차이를 확인한다. — 어떻게: Perplexity·ChatGPT·Gemini에 동일 쿼리를 입력하고 응답의 인용 URL을 스프레드시트로 정리, 자사 도메인 포함 여부를 주 1회 측정한다.

흔한 오해: "SEO 상위 = AI 인용 자동 보장"

가장 위험한 가정은 "도메인이 구글 1위니까 AI도 당연히 인용하겠지"다. 앞서 언급한 62% 불일치 데이터가 이 가정을 직접 반박한다. RAG 파이프라인의 후보 문서 선별은 BM25 + 임베딩 하이브리드 검색으로 이루어지며 PageRank는 이 과정에 직접 입력되지 않는다. 백링크가 풍부하더라도 콘텐츠 자체의 사실 밀도와 구조화 신호가 빈약하면 청크 단위 후보 선별에서 탈락한다.

올바른 처리법: SEO 상위 페이지에 대해서도 ① 청크 밀도 감사(500토큰 내 핵심 팩트 수 계산), ② JSON-LD citation/about 마크업 적용, ③ 도입부 300자 내 수치·정의 배치, ④ 위키피디아/위키데이터 sameAs 엔티티 연결을 독립 작업으로 수행해야 한다. SEO 최적화와 AEO/GEO 최적화는 신호 집합이 상이한 병렬 트랙이다.

Q. Perplexity와 ChatGPT의 인용 패턴이 서로 다른가?

다르다. Perplexity는 실시간 웹 검색 결과를 RAG 컨텍스트로 사용하므로 최신 뉴스·블로그 도메인의 인용 비율이 상대적으로 높다. 반면 ChatGPT(GPT-4o 내장 검색)는 Bing 인덱스 기반으로 Microsoft의 재순위화 레이어를 통과한다. 결과적으로 Perplexity는 신선도(freshness) 신호를, ChatGPT/Bing은 도메인 권위 신호를 더 강하게 반영하는 경향이 있다. 두 엔진을 동시에 커버하려면 freshness(dateModified 갱신 주기 단축)와 authority(Citation JSON-LD, 위키데이터 연결) 양쪽 신호를 병행해야 한다.

Q. llms.txt가 없으면 AI 크롤러가 콘텐츠를 무시하는가?

아니다. llms.txt는 2026년 현재 공식 표준 사양이 아니며, 크롤러가 해당 파일을 강제로 참조해야 할 의무는 없다. AI 크롤러는 기존 robots.txt의 User-agent: GPTBot(또는 각 봇 이름) 지시를 따른다. llms.txt의 실질적 역할은 ① 사람이 읽을 수 있는 사이트 구조 요약 제공으로 AI 응답 품질 향상, ② 일부 크롤러 구현에서 llms.txt URL 목록을 우선 크롤하는 세부 동작 활용 두 가지다. robots.txt에서 AI 봇을 차단하지 않은 상태라면 llms.txt 부재 자체가 인용 제외의 직접 원인이 되지 않는다.

참고 자료

이 글의 권고는 아래 공식 문서·연구를 근거로 합니다.