AEO·GEO 전략에서 '플랫폼 공통 최적화'를 전제하면 실패한다. Google AI Overviews, Perplexity, ChatGPT Browse, Claude, Naver Cue: 는 각자 독립적인 크롤러, 색인 파이프라인, 랭킹 신호를 운영하며, 동일한 콘텐츠도 플랫폼마다 인용 여부가 달라진다. 크롤러 User-Agent 식별부터 인용 신호 우선순위까지 기술 레이어에서 각 플랫폼을 비교해야 전략의 실효성이 생긴다.
크롤러 체계: 학습 수집 봇과 실시간 검색 봇의 분리
플랫폼마다 학습 데이터 수집용 봇과 실시간 검색·인용용 봇이 분리되어 있다. robots.txt에서 이 둘을 혼동하면 원하지 않는 채널이 차단되거나 허용된다.
- Google: Googlebot vs Google-Extended — Googlebot은 일반 웹 색인 및 AI Overviews 후보 수집에 사용된다. Google-Extended는 Gemini 등 AI 모델 학습 데이터 수집 전용이다. AI Overviews 인용을 원한다면 Googlebot을 허용해야 하며, Google-Extended 차단은 학습 데이터 제공 여부에만 영향을 미친다.
- ChatGPT: GPTBot(학습) vs OAI-SearchBot(Browse 실시간) — GPTBot을 차단해도 ChatGPT Browse의 실시간 인용에는 영향이 없다. Browse가 페이지를 직접 페치할 때 OAI-SearchBot을 사용한다. 두 봇은 기능적으로 완전히 분리된다.
- Perplexity: PerplexityBot 단일 체계 — 자체 색인 구축과 실시간 검색 인용 모두 PerplexityBot 하나로 처리한다. Disallow 시 Perplexity 인용이 완전히 차단된다.
- Claude: ClaudeBot은 학습 전용 — Claude의 Search 툴이 활성화된 경우 Brave Search 등 외부 검색 엔진을 경유한다. ClaudeBot 허용 여부와 실시간 인용 가능성은 무관하다.
- Naver Cue:: Yeti(외부 웹) + 내부 파이프라인(블로그·카페) — 외부 웹문서는 Yeti가 수집한다. 블로그·지식iN 등 Naver 내부 콘텐츠는 별도 파이프라인으로 처리되어 Yeti 설정과 무관하다.
# robots.txt — 학습 봇과 검색 봇을 분리한 플랫폼별 설정 예시
# Google 일반 색인 + AI Overviews 인용 허용
User-agent: Googlebot
Allow: /
# Google AI 학습 데이터 제공 선택적 제외 (AI Overviews 색인에 영향 없음)
User-agent: Google-Extended
Disallow: /
# ChatGPT 학습 데이터 제외 (Browse 인용에 영향 없음)
User-agent: GPTBot
Disallow: /
# ChatGPT Browse 실시간 인용 허용 (OAI-SearchBot이 페이지를 직접 페치)
User-agent: OAI-SearchBot
Allow: /
# Perplexity 색인 + 인용 허용 (단일 봇)
User-agent: PerplexityBot
Allow: /
# Claude 학습 데이터 제외 (Search 툴 실시간 인용에 영향 없음)
User-agent: ClaudeBot
Disallow: /
# Naver 외부 웹문서 색인 허용
User-agent: Yeti
Allow: /
Sitemap: https://example.com/sitemap.xml
플랫폼별 인용 결정 신호 비교
크롤러가 페이지를 수집한 이후, 각 플랫폼은 서로 다른 신호로 인용 대상을 결정한다. 아래 표는 다섯 플랫폼의 핵심 차이를 기술 항목별로 정리한 것이다.
| 항목 | Google AI Overviews | Perplexity | ChatGPT Browse | Claude Search | Naver Cue: |
|---|---|---|---|---|---|
| 색인 갱신 주기 | 수 시간~수일 | 실시간 | Bing 갱신 주기 의존 | 외부 검색 엔진 경유 실시간 | 수일~수주 |
| 핵심 인용 신호 | E-E-A-T, PageRank, 구조화 데이터 | 검색 관련성, 직접 답변 밀도 | Bing 랭킹 신호 + 콘텐츠 관련성 | 콘텐츠 구조, 사실 밀도 | C-Rank, D.I.A+, HyperCLOVA X 유사도 |
| 구조화 데이터 효과 | 높음 (FAQPage, HowTo 직접 반영) | 낮음 (텍스트 직접 파싱) | 중간 (Bing 색인 경유) | 미확인 (공식 발표 없음) | 낮음 (내부 처리 우선) |
| llms.txt 지원 | 미지원 (공식) | 일부 반영 추정 | 미지원 (공식) | 반영 추정 (Anthropic 문서 부재) | 미지원 |
| 학습 데이터 봇 | Google-Extended | 없음(공식 미확인) | GPTBot | ClaudeBot | 없음(공식 미확인) |
구조화 데이터와 콘텐츠 형식의 플랫폼별 효과 차이
Google AI Overviews는 JSON-LD 기반 FAQPage·HowTo·Article 스키마를 직접 파싱해 인용 후보 결정에 반영한다. Perplexity와 Claude는 구조화 데이터보다 페이지 내 텍스트의 직접 답변 밀도를 우선한다. 이 차이가 콘텐츠 전략의 분기점을 만든다.
- Google AI Overviews: FAQPage JSON-LD를 H2 단위 직접 답변과 병행 — 스키마가 검색 결과 리치 스니펫으로 노출되면 AI Overviews 인용 후보에도 포함될 확률이 높아진다. 스키마만으로는 부족하며, 페이지 내 텍스트가 질문에 직접 대응해야 한다.
- Perplexity: 직접 답변 밀도가 유일한 레버 — 페이지 첫 단락에서 질문을 명시적으로 언급하고 2~3문장 이내에 핵심 답을 제시하는 구조가 유효하다. 구조화 데이터 효과는 낮으므로 텍스트 최적화에 집중한다.
- ChatGPT Browse: Bing 색인 최적화가 선행 조건 — Bing Webmaster Tools에 사이트맵을 제출하고, IndexNow 프로토콜로 콘텐츠 갱신을 즉시 통지하면 ChatGPT Browse 인용 가능성이 높아진다. Bing이 페이지를 색인하지 않으면 ChatGPT Browse 인용 경로가 사실상 없다.
- Naver Cue:: 블로그와 웹문서 파이프라인 별도 관리 — 블로그는 C-Rank(신뢰도·공감·댓글)와 D.I.A+(정보성·독창성)가 인용 후보 결정에 개입한다. 외부 웹문서는 Yeti 크롤 이후 HyperCLOVA X 유사도 기반으로 합성 후보를 선정한다.
흔한 오해: GPTBot 차단이 ChatGPT 인용을 막는다
GPTBot을 robots.txt로 차단하면 ChatGPT가 자신의 콘텐츠를 인용하지 못할 것이라고 판단하는 실무자가 많다. 이는 봇 역할을 혼동한 오해다.
- GPTBot의 실제 역할: 학습 데이터 수집 — GPTBot이 수집한 콘텐츠는 GPT 모델의 다음 훈련 사이클에 반영된다. 이미 배포된 모델의 응답에는 영향을 미치지 않는다.
- ChatGPT Browse의 실제 경로: OAI-SearchBot + Bing 인덱스 — 사용자가 Browse 기능을 활성화하면 ChatGPT는 Bing Search API를 호출하고, OAI-SearchBot으로 특정 페이지를 직접 페치해 답변을 생성한다. 이 경로는 GPTBot과 완전히 독립적이다.
- 올바른 처리법 — 학습 데이터 제공을 원하지 않는다면 GPTBot을 차단한다. Browse 실시간 인용을 차단하려면 OAI-SearchBot을 Disallow한다. 둘 다 허용하면서 인용 가능성만 높이려면 Bing 색인 최적화(IndexNow 제출, 사이트맵 등록)를 병행한다.
Google AI Overviews와 Featured Snippet은 같은 콘텐츠를 사용하나요?
완전히 동일하지 않다. Featured Snippet은 검색 결과 상단에 특정 페이지의 텍스트를 그대로 발췌해 노출한다. AI Overviews는 여러 페이지를 합성해 답변을 생성하며, 인용 출처로 해당 페이지 링크를 병기한다. 두 기능이 공유하는 신호(E-E-A-T, 직접 답변 구조, FAQPage 스키마)는 상당 부분 겹치므로 Featured Snippet 최적화가 AI Overviews 인용 가능성을 높이는 간접 경로가 되지만, 인과 관계는 아직 실증되지 않았다. Featured Snippet을 확보한 페이지가 AI Overviews에서 누락되는 사례도 관찰된다.
llms.txt를 작성하면 다섯 플랫폼 모두에 효과가 있나요?
현재(2026년 6월 기준) 공식적으로 llms.txt를 색인·인용 파이프라인에 반영한다고 발표한 플랫폼은 없다. Perplexity와 Claude는 크롤러가 llms.txt를 읽는다는 비공식 보고가 있으나, 인용 확률에 직접 영향을 미치는지는 확인되지 않았다. Google, ChatGPT, Naver Cue:는 공식 지원을 발표하지 않았다. llms.txt는 콘텐츠 요약과 AI 접근 경로를 기술하는 관례적 파일로 현재는 '준비 신호' 수준이며, robots.txt·사이트맵·구조화 데이터보다 우선순위가 낮다.
참고 자료
이 글의 권고는 아래 공식 문서·연구를 근거로 합니다.