Citeon
논문·연구 분석

AI 인용 도메인의 62%가 전통 검색과 다른 이유

박도현
박도현 · AEO 리서처

2024년 Semrush와 BrightEdge가 각각 수행한 AI Overviews·Perplexity 인용 분석에서, 동일 쿼리의 전통 검색 상위 10위 결과와 AI 인용 URL 간 중복률은 평균 38% 수준으로 나타났다 — 즉 약 62%의 인용 도메인이 전통 SEO 랭킹과 무관하게 선택됐다. 이 수치의 기술적 원인은 단순한 알고리즘 다양성이 아니다. RAG(Retrieval-Augmented Generation) 파이프라인이 PageRank 계열 링크 그래프 대신 사전학습 분포·벡터 유사도·의미 밀도를 소스 선별 기준으로 사용하는 구조적 차이다. SEO 상위 노출을 달성한 페이지가 AI 답변에서 누락되는 역설은 마케터와 엔지니어 모두에게 독립적인 최적화 레이어를 요구한다.

RAG 파이프라인이 PageRank를 우회하는 메커니즘

전통 검색엔진은 Link Graph에서 계산한 PageRank를 핵심 랭킹 신호로 사용한다. RAG 기반 LLM 검색엔진의 소스 선택은 구조적으로 다른 두 단계를 거친다.

1단계: 사전학습 데이터 편향

2단계: 실시간 벡터 검색 재순위화

AI가 선호하는 도메인 속성: 전통 SEO 신호와의 차이

신호 범주 전통 SEO (Google 유기검색) AI 인용 (RAG 기반)
권위 측정 도메인 레이팅(DR), 백링크 수, PageRank 엔티티 인용 밀도, 교차 문서 일관성, 위키데이터 연결
콘텐츠 선호 EEAT 신호, 긴 형식 콘텐츠, 키워드 커버리지 사실 밀도, 수치·통계 포함 비율, 출처 인용 명시
구조 신호 메타태그, H1/H2 계층, 내부 링크 Schema.org JSON-LD, FAQPage, HowTo, ClaimReview
선호 도메인 유형 상업적 .com 도메인, 신뢰도 높은 브랜드 .edu/.gov, 위키피디아, 학술 아카이브, 공식 문서
갱신 신호 Crawl 빈도, Sitemap lastmod llms.txt 캐노니컬, JSON-LD dateModified 명시

Semrush(2024) 데이터에서 AI Overviews 인용 도메인 상위 범주는 Wikipedia(21%), 공식 정부·기관 사이트(14%), 학술 저널 및 아카이브(11%) 순이었다. Schema.org 마크업을 갖춘 상업적 도메인의 인용률은 비마크업 동종 대비 약 1.4배 높았으나, 이는 소규모 표본 기반 추정치이므로 일반화에 한계가 있다.

구현: AI 인용 가시성을 높이는 신호 설계

JSON-LD Citation 마크업 — 팩트 앵커 패턴

AI 엔진은 Schema.org Article + citation 배열 조합으로 문서 내 수치·주장을 구조화된 팩트로 인식한다. 아래는 연구 분석 블로그 포스트에 적용하는 최소 유효 마크업이다.

{
  "@context": "https://schema.org",
  "@type": "Article",
  "headline": "AI 인용 도메인의 62%가 전통 검색과 다른 이유",
  "datePublished": "2026-06-18",
  "dateModified": "2026-06-18",
  "author": {
    "@type": "Person",
    "name": "박도현",
    "jobTitle": "AEO 리서처",
    "worksFor": {
      "@type": "Organization",
      "name": "Citeon"
    }
  },
  "publisher": {
    "@type": "Organization",
    "name": "Citeon",
    "url": "https://citeon.ai"
  },
  "citation": [
    {
      "@type": "ScholarlyArticle",
      "name": "GEO: Generative Engine Optimization",
      "url": "https://arxiv.org/abs/2311.09735",
      "author": {
        "@type": "Person",
        "name": "Aggarwal et al."
      },
      "datePublished": "2023-11-16"
    }
  ],
  "about": {
    "@type": "Thing",
    "name": "Retrieval-Augmented Generation",
    "sameAs": "https://en.wikipedia.org/wiki/Retrieval-augmented_generation"
  },
  "speakable": {
    "@type": "SpeakableSpecification",
    "cssSelector": ["h2", ".key-finding"]
  }
}

측정: AI 인용 패턴 추적

흔한 오해: "SEO 상위 = AI 인용 자동 보장"

가장 위험한 가정은 "도메인이 구글 1위니까 AI도 당연히 인용하겠지"다. 앞서 언급한 62% 불일치 데이터가 이 가정을 직접 반박한다. RAG 파이프라인의 후보 문서 선별은 BM25 + 임베딩 하이브리드 검색으로 이루어지며 PageRank는 이 과정에 직접 입력되지 않는다. 백링크가 풍부하더라도 콘텐츠 자체의 사실 밀도와 구조화 신호가 빈약하면 청크 단위 후보 선별에서 탈락한다.

올바른 처리법: SEO 상위 페이지에 대해서도 ① 청크 밀도 감사(500토큰 내 핵심 팩트 수 계산), ② JSON-LD citation/about 마크업 적용, ③ 도입부 300자 내 수치·정의 배치, ④ 위키피디아/위키데이터 sameAs 엔티티 연결을 독립 작업으로 수행해야 한다. SEO 최적화와 AEO/GEO 최적화는 신호 집합이 상이한 병렬 트랙이다.

Q. Perplexity와 ChatGPT의 인용 패턴이 서로 다른가?

다르다. Perplexity는 실시간 웹 검색 결과를 RAG 컨텍스트로 사용하므로 최신 뉴스·블로그 도메인의 인용 비율이 상대적으로 높다. 반면 ChatGPT(GPT-4o 내장 검색)는 Bing 인덱스 기반으로 Microsoft의 재순위화 레이어를 통과한다. 결과적으로 Perplexity는 신선도(freshness) 신호를, ChatGPT/Bing은 도메인 권위 신호를 더 강하게 반영하는 경향이 있다. 두 엔진을 동시에 커버하려면 freshness(dateModified 갱신 주기 단축)와 authority(Citation JSON-LD, 위키데이터 연결) 양쪽 신호를 병행해야 한다.

Q. llms.txt가 없으면 AI 크롤러가 콘텐츠를 무시하는가?

아니다. llms.txt는 2026년 현재 공식 표준 사양이 아니며, 크롤러가 해당 파일을 강제로 참조해야 할 의무는 없다. AI 크롤러는 기존 robots.txtUser-agent: GPTBot(또는 각 봇 이름) 지시를 따른다. llms.txt의 실질적 역할은 ① 사람이 읽을 수 있는 사이트 구조 요약 제공으로 AI 응답 품질 향상, ② 일부 크롤러 구현에서 llms.txt URL 목록을 우선 크롤하는 세부 동작 활용 두 가지다. robots.txt에서 AI 봇을 차단하지 않은 상태라면 llms.txt 부재 자체가 인용 제외의 직접 원인이 되지 않는다.

참고 자료

이 글의 권고는 아래 공식 문서·연구를 근거로 합니다.

박도현
박도현 · AEO 리서처

생성형 검색·LLM 인용에 관한 논문과 데이터를 읽고 실무 언어로 옮깁니다. 근거 없는 '카더라'를 싫어합니다.

내 사이트의 AI 검색 점수가 궁금하다면

30초 무료 진단으로 SEO·AEO·GEO 점수와 처방을 받아보세요.

무료 진단 시작
← 블로그 목록으로