2025년 말부터 ChatGPT Search, Perplexity, Google AI Overviews가 전통 웹 검색 쿼리 점유율을 잠식하면서, SERP 1위 랭크와 AI 답변 인용은 완전히 다른 최적화 목표임이 명확해졌다. AI 검색 시스템은 BM25 키워드 매칭 대신 RAG(Retrieval-Augmented Generation) 파이프라인으로 작동한다. 쿼리가 들어오면 사전 색인된 벡터 인덱스에서 코사인 유사도 기준 상위 N개 청크를 검색하고, LLM이 그 청크들을 조합해 답변을 생성한다. 2026년 기준 AI 검색 최적화의 핵심은 크롤러 접근성 보장, 청킹 단위에 맞는 콘텐츠 구조, 인용 신뢰도 신호 세 축으로 수렴한다.
AI 크롤러 접근 제어 — robots.txt와 llms.txt
작동 원리
2026년 주요 AI 검색 엔진은 자체 User-agent를 운영한다. ChatGPT Search는 GPTBot, Perplexity는 PerplexityBot, Anthropic은 ClaudeBot, Google AI Overviews 인덱싱 크롤러는 Google-Extended를 사용한다. 이 크롤러들은 표준 robots.txt를 준수하므로, 차단 시 해당 AI 시스템의 인덱스에 진입하지 못한다.
구현 방법
robots.txt에서 AI 크롤러별 접근 정책을 명시하고, llms.txt를 도메인 루트(/llms.txt)에 배치해 LLM이 사이트 구조를 파악하는 데 필요한 맥락을 제공한다. llms.txt는 2024년 Jeremy Howard(fast.ai)가 제안한 비공식 표준이며, 2026년 현재 일부 AI 검색 시스템이 참조하는 것으로 보고되고 있다(공식 채택 여부는 플랫폼별로 상이).
# /robots.txt — AI 크롤러별 접근 제어 예시
User-agent: GPTBot
Allow: /blog/
Allow: /docs/
Disallow: /admin/
Disallow: /api/
User-agent: PerplexityBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: Google-Extended
Allow: /
# 학습 데이터 수집 크롤러는 별도 차단 (인덱싱 크롤러와 구분)
User-agent: CCBot
Disallow: /
User-agent: Diffbot
Disallow: /
# /llms.txt — 도메인 루트 배치, LLM이 사이트 맥락 파악에 활용
# Citeon
> AI 마케팅 대행 Citeon의 기술 블로그. AEO·GEO·SEO 구현 가이드 수록.
## 핵심 가이드
- [AI 인용 점유율 높이는 법](/blog/ai-citation-strategy): RAG 청킹·쿼리 커버리지 설계
- [리뷰를 AI 인용 자산으로](/blog/review-as-ai-asset): JSON-LD·UGC 구조화
## Optional
- [전체 글 목록](/sitemap.xml)
JSON-LD 구조화 데이터 — AI 인용 신뢰도 신호
작동 원리
AI 검색의 RAG 파이프라인은 청크 검색 시 출처 신뢰도를 가중치로 사용한다. JSON-LD로 마크업된 Article, FAQPage, HowTo 스키마는 크롤러가 콘텐츠 유형·저자·날짜·주제를 구조화된 방식으로 파싱하게 한다. 이는 벡터 임베딩 시 메타데이터 필터링 정확도를 높이고, E-E-A-T 신호를 AI 시스템에 전달한다.
구현 방법
- Article 스키마 —
author.sameAs연결: 왜 — AI 시스템이 저자 권위(E-E-A-T)를 파악하는 핵심 신호이기 때문. 어떻게 —author.sameAs에 LinkedIn·GitHub URL을 연결해 저자 권위를 명시하고,dateModified는 실제 콘텐츠 갱신 시점과 동기화한다. - FAQPage 스키마 — 질문-답변 쌍 구조화: 왜 — FAQ 형식은 RAG 청킹 경계와 자연스럽게 일치해 청크 단위 인용 가능성이 높기 때문. 어떻게 — 질문은 실제 사용자 검색 의도에서 도출하고, 답변은 100~300자 내 완결 구조로 작성한다.
- BreadcrumbList 스키마 — 콘텐츠 계층 명시: 왜 — AI 시스템이 특정 청크가 사이트 내 어느 카테고리에 속하는지 맥락을 파악하기 때문. 어떻게 — 모든 블로그 포스트에 카테고리 계층을
BreadcrumbList로 마크업한다.
<script type="application/ld+json">
{
"@context": "https://schema.org",
"@type": "Article",
"headline": "2026년 AI 검색 최적화, 무엇이 달라졌나",
"datePublished": "2026-06-18",
"dateModified": "2026-06-18",
"author": {
"@type": "Person",
"name": "박도현",
"sameAs": "https://linkedin.com/in/dohyun-park"
},
"publisher": {
"@type": "Organization",
"name": "Citeon",
"url": "https://citeon.co.kr"
},
"mainEntityOfPage": {
"@type": "WebPage",
"@id": "https://citeon.co.kr/blog/ai-search-2026"
}
}
</script>
SEO · AEO · GEO 항목별 비교 — 2026년 기준
| 항목 | SEO | AEO (답변엔진최적화) | GEO (생성형엔진최적화) |
|---|---|---|---|
| 목표 시스템 | Google/Bing SERP | Featured Snippet, Voice Search | ChatGPT Search, Perplexity, AI Overviews |
| 랭킹 신호 | 백링크, Core Web Vitals, E-E-A-T | 정확한 Q&A 구조, 간결한 답변 단락 | 청크 관련성(코사인 유사도), 출처 신뢰도, 인용 다양성 |
| 콘텐츠 단위 | 페이지 전체 | 단락(Paragraph) 수준 | 청크(200~500 토큰) 수준 |
| 핵심 마크업 | Title, Meta Description, H1 | FAQPage, HowTo JSON-LD | Article JSON-LD, llms.txt, AI 크롤러 허용 |
| 측정 지표 | CTR, 페이지 순위, 유입 트래픽 | Featured Snippet 점유율 | AI 인용 점유율(Citation Share), AI 유입 referrer |
| 크롤러 에이전트 | Googlebot, Bingbot | Googlebot (동일) | GPTBot, PerplexityBot, ClaudeBot, Google-Extended |
흔한 오해 — "AI 크롤러를 전면 차단해야 저작권이 보호된다"
일부 실무자는 AI 크롤러를 robots.txt로 차단하면 콘텐츠가 AI 학습 데이터에 포함되지 않아 저작권상 유리하다고 판단한다. 이는 인덱싱 크롤러(검색용)와 학습 데이터 크롤러(파인튜닝용)를 혼동한 오해다.
- ChatGPT Search의
GPTBot은 실시간 검색 인덱싱용이며, GPT-4 등의 파인튜닝 학습 데이터 수집과는 별개다. GPTBot 차단 시 ChatGPT Search 인용에서만 제외되고, 기존 학습 데이터에는 영향이 없다. - Google의
Google-Extended는 Gemini 모델 학습용이며, 일반 검색 인덱싱용Googlebot과 구분된다. Google-Extended만 차단해도 일반 검색 노출에는 영향을 주지 않는다. - 올바른 처리법: AI 검색 인용 점유율을 키우려면
GPTBot·PerplexityBot·ClaudeBot·Google-Extended는 허용하되, Common Crawl 기반 학습 수집 크롤러(CCBot)와 상업적 데이터 마이닝 크롤러(Diffbot)는 별도 정책으로 관리한다. 두 목적을 하나의 차단으로 해결하려는 시도는 인덱싱 기회를 포기하면서 학습 데이터 보호도 불완전하게 달성하는 결과를 낳는다.
AI 인용 점유율 측정
작동 원리
인용 점유율(Citation Share)은 특정 쿼리 집합에 대해 AI 답변이 자사 콘텐츠를 출처로 포함하는 비율이다. Brandwatch AI Tracker, Semrush AI Toolkit 등 전용 도구가 등장하고 있으나, 정확도는 플랫폼·쿼리 샘플링 방식에 따라 편차가 크다.
구현 방법
- 쿼리 샘플 정의: 왜 — 전체 검색 공간 측정은 불가능하므로 대표 샘플이 필요하다. 어떻게 — Google Search Console 상위 노출 쿼리와 전환율 높은 랜딩 페이지 키워드에서 30~50개를 추출한다.
- 수동 벤치마크 (주 1회): 왜 — 자동화 도구 신뢰도가 낮은 경우 직접 측정이 가장 정확하다. 어떻게 — ChatGPT Search, Perplexity에서 샘플 쿼리를 실행하고 인용된 URL을 스프레드시트에 기록해 주차별 변화를 추적한다.
- 서버 로그 기반 간접 측정: 왜 — AI 검색 유입은 HTTP Referrer에 플랫폼 도메인이 기록된다. 어떻게 — GA4 또는 서버 로그에서
referrer필드를perplexity.ai,chat.openai.com,you.com으로 필터링해 유입 추세를 모니터링한다.
Q. llms.txt가 비공식 표준인데 실제로 AI 시스템이 이를 참조하나요?
llms.txt는 2024년 Jeremy Howard(fast.ai 공동 창업자)가 제안한 비공식 규격으로, 2026년 현재 특정 AI 시스템이 이를 공식 인덱싱 신호로 채택했다는 공개 확인은 없다. Perplexity, You.com 등 일부 AI 검색 엔진이 사이트 구조 파악 목적으로 참조한다는 사례 보고는 있으나 공식 문서로 검증되지 않았다. 배치 비용이 낮고 AI 크롤러가 사이트 맥락을 더 정확히 파악하는 데 도움이 되는 것으로 추정되므로 도입을 권장하되, 핵심 인용 신호는 JSON-LD 구조화 데이터와 콘텐츠 청킹 구조 최적화에 우선 집중하는 것이 합리적이다.
Q. H2/H3 헤딩 구조와 단락 길이가 AI 인용에 실제로 영향을 주나요?
AI 검색의 RAG 파이프라인은 콘텐츠를 일정 토큰 단위(통상 200~512 토큰)로 청킹한다. HTML 헤딩(H2/H3) 경계가 청킹 경계와 일치하도록 설계하면 청크가 하나의 완결된 개념 단위를 담게 되어 쿼리 관련성이 높아진다. 단락 길이가 600 토큰을 초과하면 하나의 청크에 복수 개념이 혼재해 코사인 유사도가 희석된다. 반대로 50 토큰 미만이면 맥락 정보가 부족해 RAG 검색에서 낮은 순위를 받는다. 200~400 토큰 내외의 단락을 H2/H3 헤딩으로 명확히 분절하는 구조가 실무에서 안정적으로 작동한다.
참고 자료
이 글의 권고는 아래 공식 문서·연구를 근거로 합니다.