왜 SEO 1등이 AI 답변 1등이 아닐까

Q: FAQ 1: AI 크롤러가 실제로 내 사이트를 방문하는지 어떻게 확인하나?

웹서버 액세스 로그에서 User-agent 문자열을 직접 필터링한다. Nginx 기준: grep -iE "GPTBot|PerplexityBot|ClaudeBot|Applebot" /var/log/nginx/access.log | tail -100. 방문 기록이 전혀 없다면 robots.txt 차단 여부를 먼저 확인하고, 이후 HTTPS 인증서 오류·5xx 비율 순으로 점검한다. Cloudflare를 사용하는 경우 Security > Bots 탭에서 알려진 AI 크롤러의 요청 카운트를 확인할 수 있다(Bot Management 구독 필요).

Google 검색 순위와 AI 생성 답변에서의 출처 인용은 독립된 두 개의 알고리즘 스택에서 결정된다. PageRank는 하이퍼링크 그래프의 전이 확률과 클릭 신호를 입력으로 하지만, Perplexity·ChatGPT Search·Google AI Overview는 쿼리 임베딩과 후보 청크 간 코사인 유사도, 사실 밀도(factual density), 구조화 데이터 파싱 가능성을 독립적으로 평가한다. 두 스택이 참조하는 신호 집합이 다르기 때문에, SEO 1위 페이지가 AI 응답에서 인용되지 않거나 SEO 하위 페이지가 정확하게 인용되는 결과는 구현 결함이 아니라 설계의 당연한 귀결이다.

검색 순위 신호 vs. AI 인용 선택 신호 비교

분류	Google 검색 순위 (SEO)	AI 인용 선택 (GEO/AEO)
평가 단위	URL(페이지 전체)	청크(chunk, ~512토큰)
핵심 신호	PageRank, E-E-A-T, Core Web Vitals, 클릭률	임베딩 코사인 유사도, 사실 밀도, 문장 완결성
링크 신호 의존도	매우 높음 (인바운드 링크·도메인 권위)	낮음 (일부 시스템에서 간접 참고 추정)
구조화 데이터 역할	리치 스니펫(SERP 가시성 향상)	청크 메타데이터 보강 → 재랭킹 우선순위
크롤러	Googlebot	GPTBot, PerplexityBot, ClaudeBot, Applebot 등
차단 시 결과	Google 색인 제외	해당 AI 시스템 색인에서 완전 제외

AI 인용 파이프라인의 3단계 필터

RAG 기반 AI 검색은 세 단계를 순서대로 통과한 청크만 최종 인용 후보가 된다. 각 단계는 독립 필터이며 하나라도 차단되면 이후 단계는 실행되지 않는다.

크롤 허용 단계(Fetch eligibility)
왜: AI 크롤러가 robots.txt 또는 HTTP 헤더로 차단되면 콘텐츠가 임베딩 색인 파이프라인에 진입 자체를 못 한다.
어떻게: User-agent별 Disallow 규칙을 검토하고, AI 크롤러를 명시적으로 허용하거나 전역 Allow: / 상태를 유지한다.
임베딩 유사도 필터(Retrieval)
왜: 쿼리 벡터와 청크 벡터 간 코사인 유사도가 임계값 미만이면 재랭킹 단계에 올라가지 않는다. 평가 단위가 URL이 아니라 ~512토큰 청크이므로 페이지 전체 품질이 아닌 청크별 집중도가 결정적이다.
어떻게: 단일 주제를 청크 단위로 밀도 있게 작성하고, 핵심 개념어를 동의어로 분산하기보다 일관되게 반복해 벡터 집중도를 높인다.
재랭킹 및 인용 판단(Reranking + Citation)
왜: 유사도 상위 후보 중에서도 생성 모델이 해당 청크에 인용 태그를 붙일지 별도로 판단한다. 이 단계는 사실적 구체성(수치, 날짜, 고유명사)과 문장 완결성을 평가한다.
어떻게: 문단 구조를 "정의 → 수치 → 예시" 순으로 구성하고, 검증 가능한 수치와 출처를 문장 단위로 포함한다.

SEO 1위가 AI에 무시당하는 4가지 기술적 원인

AI 크롤러 선택적 차단: Googlebot은 허용하고 GPTBot·PerplexityBot·ClaudeBot을 Disallow한 상태. 2023~2024년 AI 스크래핑 대응으로 도입된 차단 규칙이 정리되지 않아 AI 색인에서 완전 제외된다.
페이지 상단 마케팅 문구 집중: 브랜드 스토리·CTA 블록이 앞부분에 밀집되면 청크 분할 후 초기 청크의 사실 밀도가 낮아져 임베딩 유사도 점수가 하락한다.
JSON-LD 부재 또는 타입 오류: 구조화 데이터가 없거나 @type이 잘못 지정된 경우 AI 시스템이 콘텐츠 유형(FAQ, HowTo, TechArticle)을 파악하지 못해 청크 메타데이터 보강이 일어나지 않는다.
비정량적 표현 남용: "빠르다", "최고다" 같은 표현은 임베딩 벡터에서 구체적 수치·고유명사에 비해 변별력이 낮으며, 재랭킹 단계에서 인용 우선순위가 밀린다.

구현: AI 인용 가능성을 높이는 설정

1. robots.txt — AI 크롤러 명시 허용

# robots.txt — AI 크롤러 명시 허용 예시
User-agent: *
Disallow: /admin/
Disallow: /private/

# OpenAI
User-agent: GPTBot
Allow: /

# Perplexity
User-agent: PerplexityBot
Allow: /

# Anthropic
User-agent: ClaudeBot
Allow: /
User-agent: Claude-Web
Allow: /

# Apple
User-agent: Applebot
Allow: /

# Google (기존 설정 유지)
User-agent: Googlebot
Allow: /

Sitemap: https://yourdomain.com/sitemap.xml

적용 전 현재 상태 확인: curl -s https://yourdomain.com/robots.txt | grep -iE "gptbot|perplexitybot|claudebot|applebot"

2. TechArticle JSON-LD — 청크 메타데이터 보강

<script type="application/ld+json">
{
  "@context": "https://schema.org",
  "@type": "TechArticle",
  "headline": "왜 SEO 1등이 AI 답변 1등이 아닐까",
  "description": "Google PageRank 신호와 LLM RAG 파이프라인의 구조적 차이 분석",
  "datePublished": "2026-06-18",
  "dateModified": "2026-06-18",
  "author": {
    "@type": "Person",
    "name": "이서연",
    "jobTitle": "GEO 전략 리드"
  },
  "publisher": {
    "@type": "Organization",
    "name": "Citeon",
    "url": "https://citeon.io"
  },
  "mainEntity": {
    "@type": "FAQPage",
    "mainEntity": [
      {
        "@type": "Question",
        "name": "SEO 1위 페이지가 AI 인용에서 제외되는 이유는?",
        "acceptedAnswer": {
          "@type": "Answer",
          "text": "PageRank와 LLM RAG 파이프라인은 독립된 신호 집합을 사용한다. AI 크롤러 차단, 낮은 사실 밀도, JSON-LD 부재가 주요 원인이다."
        }
      }
    ]
  }
}
</script>

흔한 오해: "도메인 권위가 높으면 AI에서도 자동 인용된다"

PageRank는 하이퍼링크 그래프 신호이며, RAG 파이프라인의 임베딩 색인 단계는 이 신호를 직접 입력으로 사용하지 않는다. 실제 관찰 사례에서, 낮은 도메인 권위의 전문 기술 블로그가 쿼리 임베딩과 높은 코사인 유사도를 가진 경우 주요 언론 도메인보다 우선 인용된 패턴이 반복적으로 보고된다. 반대로 PageRank가 매우 높은 뉴스 도메인이 GPTBot을 robots.txt로 차단한 경우 ChatGPT Search 인용에서 완전히 제외된다.

올바른 처리법: 도메인 권위를 AI 인용의 충분조건으로 오해하지 말고, (1) AI 크롤러 허용 여부, (2) 쿼리별 청크 임베딩 유사도, (3) 청크 단위 사실 밀도를 각각 독립적으로 측정하고 개선해야 한다.

FAQ 1: AI 크롤러가 실제로 내 사이트를 방문하는지 어떻게 확인하나?

웹서버 액세스 로그에서 User-agent 문자열을 직접 필터링한다. Nginx 기준: grep -iE "GPTBot|PerplexityBot|ClaudeBot|Applebot" /var/log/nginx/access.log | tail -100. 방문 기록이 전혀 없다면 robots.txt 차단 여부를 먼저 확인하고, 이후 HTTPS 인증서 오류·5xx 비율 순으로 점검한다. Cloudflare를 사용하는 경우 Security > Bots 탭에서 알려진 AI 크롤러의 요청 카운트를 확인할 수 있다(Bot Management 구독 필요).

FAQ 2: Google AI Overview에 인용되는지 정량적으로 측정할 수 있나?

2026년 6월 현재 Google Search Console은 AI Overview 인용을 별도 측정 항목으로 제공하지 않는다. 간접 측정 방법은 두 가지다. 첫째, Search Console의 특정 쿼리에서 노출수는 유지되거나 증가하는데 클릭률이 급감하는 패턴은 AI Overview가 해당 쿼리를 점유한 신호로 해석할 수 있다. 둘째, 핵심 쿼리를 직접 검색해 AI Overview 영역의 출처 URL 목록에 자사 도메인이 포함되는지 수동 확인하는 방법이 현재로서는 가장 직접적이다. Semrush AI Toolkit, BrightEdge Generative Parser 등 서드파티 도구가 AI Overview 인용 추적 기능을 추가하고 있으나 샘플링 정확도는 사례에 따라 다름.

참고 자료

이 글의 권고는 아래 공식 문서·연구를 근거로 합니다.