Citeon
트렌드 해설

2026년 AI 검색 최적화, 무엇이 달라졌나

박도현
박도현 · AEO 리서처

2025년 말부터 ChatGPT Search, Perplexity, Google AI Overviews가 전통 웹 검색 쿼리 점유율을 잠식하면서, SERP 1위 랭크와 AI 답변 인용은 완전히 다른 최적화 목표임이 명확해졌다. AI 검색 시스템은 BM25 키워드 매칭 대신 RAG(Retrieval-Augmented Generation) 파이프라인으로 작동한다. 쿼리가 들어오면 사전 색인된 벡터 인덱스에서 코사인 유사도 기준 상위 N개 청크를 검색하고, LLM이 그 청크들을 조합해 답변을 생성한다. 2026년 기준 AI 검색 최적화의 핵심은 크롤러 접근성 보장, 청킹 단위에 맞는 콘텐츠 구조, 인용 신뢰도 신호 세 축으로 수렴한다.

AI 크롤러 접근 제어 — robots.txt와 llms.txt

작동 원리

2026년 주요 AI 검색 엔진은 자체 User-agent를 운영한다. ChatGPT Search는 GPTBot, Perplexity는 PerplexityBot, Anthropic은 ClaudeBot, Google AI Overviews 인덱싱 크롤러는 Google-Extended를 사용한다. 이 크롤러들은 표준 robots.txt를 준수하므로, 차단 시 해당 AI 시스템의 인덱스에 진입하지 못한다.

구현 방법

robots.txt에서 AI 크롤러별 접근 정책을 명시하고, llms.txt를 도메인 루트(/llms.txt)에 배치해 LLM이 사이트 구조를 파악하는 데 필요한 맥락을 제공한다. llms.txt는 2024년 Jeremy Howard(fast.ai)가 제안한 비공식 표준이며, 2026년 현재 일부 AI 검색 시스템이 참조하는 것으로 보고되고 있다(공식 채택 여부는 플랫폼별로 상이).

# /robots.txt — AI 크롤러별 접근 제어 예시
User-agent: GPTBot
Allow: /blog/
Allow: /docs/
Disallow: /admin/
Disallow: /api/

User-agent: PerplexityBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: Google-Extended
Allow: /

# 학습 데이터 수집 크롤러는 별도 차단 (인덱싱 크롤러와 구분)
User-agent: CCBot
Disallow: /

User-agent: Diffbot
Disallow: /
# /llms.txt — 도메인 루트 배치, LLM이 사이트 맥락 파악에 활용
# Citeon

> AI 마케팅 대행 Citeon의 기술 블로그. AEO·GEO·SEO 구현 가이드 수록.

## 핵심 가이드
- [AI 인용 점유율 높이는 법](/blog/ai-citation-strategy): RAG 청킹·쿼리 커버리지 설계
- [리뷰를 AI 인용 자산으로](/blog/review-as-ai-asset): JSON-LD·UGC 구조화

## Optional
- [전체 글 목록](/sitemap.xml)

JSON-LD 구조화 데이터 — AI 인용 신뢰도 신호

작동 원리

AI 검색의 RAG 파이프라인은 청크 검색 시 출처 신뢰도를 가중치로 사용한다. JSON-LD로 마크업된 Article, FAQPage, HowTo 스키마는 크롤러가 콘텐츠 유형·저자·날짜·주제를 구조화된 방식으로 파싱하게 한다. 이는 벡터 임베딩 시 메타데이터 필터링 정확도를 높이고, E-E-A-T 신호를 AI 시스템에 전달한다.

구현 방법

<script type="application/ld+json">
{
  "@context": "https://schema.org",
  "@type": "Article",
  "headline": "2026년 AI 검색 최적화, 무엇이 달라졌나",
  "datePublished": "2026-06-18",
  "dateModified": "2026-06-18",
  "author": {
    "@type": "Person",
    "name": "박도현",
    "sameAs": "https://linkedin.com/in/dohyun-park"
  },
  "publisher": {
    "@type": "Organization",
    "name": "Citeon",
    "url": "https://citeon.co.kr"
  },
  "mainEntityOfPage": {
    "@type": "WebPage",
    "@id": "https://citeon.co.kr/blog/ai-search-2026"
  }
}
</script>

SEO · AEO · GEO 항목별 비교 — 2026년 기준

항목 SEO AEO (답변엔진최적화) GEO (생성형엔진최적화)
목표 시스템 Google/Bing SERP Featured Snippet, Voice Search ChatGPT Search, Perplexity, AI Overviews
랭킹 신호 백링크, Core Web Vitals, E-E-A-T 정확한 Q&A 구조, 간결한 답변 단락 청크 관련성(코사인 유사도), 출처 신뢰도, 인용 다양성
콘텐츠 단위 페이지 전체 단락(Paragraph) 수준 청크(200~500 토큰) 수준
핵심 마크업 Title, Meta Description, H1 FAQPage, HowTo JSON-LD Article JSON-LD, llms.txt, AI 크롤러 허용
측정 지표 CTR, 페이지 순위, 유입 트래픽 Featured Snippet 점유율 AI 인용 점유율(Citation Share), AI 유입 referrer
크롤러 에이전트 Googlebot, Bingbot Googlebot (동일) GPTBot, PerplexityBot, ClaudeBot, Google-Extended

흔한 오해 — "AI 크롤러를 전면 차단해야 저작권이 보호된다"

일부 실무자는 AI 크롤러를 robots.txt로 차단하면 콘텐츠가 AI 학습 데이터에 포함되지 않아 저작권상 유리하다고 판단한다. 이는 인덱싱 크롤러(검색용)와 학습 데이터 크롤러(파인튜닝용)를 혼동한 오해다.

AI 인용 점유율 측정

작동 원리

인용 점유율(Citation Share)은 특정 쿼리 집합에 대해 AI 답변이 자사 콘텐츠를 출처로 포함하는 비율이다. Brandwatch AI Tracker, Semrush AI Toolkit 등 전용 도구가 등장하고 있으나, 정확도는 플랫폼·쿼리 샘플링 방식에 따라 편차가 크다.

구현 방법

  1. 쿼리 샘플 정의: 왜 — 전체 검색 공간 측정은 불가능하므로 대표 샘플이 필요하다. 어떻게 — Google Search Console 상위 노출 쿼리와 전환율 높은 랜딩 페이지 키워드에서 30~50개를 추출한다.
  2. 수동 벤치마크 (주 1회): 왜 — 자동화 도구 신뢰도가 낮은 경우 직접 측정이 가장 정확하다. 어떻게 — ChatGPT Search, Perplexity에서 샘플 쿼리를 실행하고 인용된 URL을 스프레드시트에 기록해 주차별 변화를 추적한다.
  3. 서버 로그 기반 간접 측정: 왜 — AI 검색 유입은 HTTP Referrer에 플랫폼 도메인이 기록된다. 어떻게 — GA4 또는 서버 로그에서 referrer 필드를 perplexity.ai, chat.openai.com, you.com으로 필터링해 유입 추세를 모니터링한다.
Q. llms.txt가 비공식 표준인데 실제로 AI 시스템이 이를 참조하나요?

llms.txt는 2024년 Jeremy Howard(fast.ai 공동 창업자)가 제안한 비공식 규격으로, 2026년 현재 특정 AI 시스템이 이를 공식 인덱싱 신호로 채택했다는 공개 확인은 없다. Perplexity, You.com 등 일부 AI 검색 엔진이 사이트 구조 파악 목적으로 참조한다는 사례 보고는 있으나 공식 문서로 검증되지 않았다. 배치 비용이 낮고 AI 크롤러가 사이트 맥락을 더 정확히 파악하는 데 도움이 되는 것으로 추정되므로 도입을 권장하되, 핵심 인용 신호는 JSON-LD 구조화 데이터와 콘텐츠 청킹 구조 최적화에 우선 집중하는 것이 합리적이다.

Q. H2/H3 헤딩 구조와 단락 길이가 AI 인용에 실제로 영향을 주나요?

AI 검색의 RAG 파이프라인은 콘텐츠를 일정 토큰 단위(통상 200~512 토큰)로 청킹한다. HTML 헤딩(H2/H3) 경계가 청킹 경계와 일치하도록 설계하면 청크가 하나의 완결된 개념 단위를 담게 되어 쿼리 관련성이 높아진다. 단락 길이가 600 토큰을 초과하면 하나의 청크에 복수 개념이 혼재해 코사인 유사도가 희석된다. 반대로 50 토큰 미만이면 맥락 정보가 부족해 RAG 검색에서 낮은 순위를 받는다. 200~400 토큰 내외의 단락을 H2/H3 헤딩으로 명확히 분절하는 구조가 실무에서 안정적으로 작동한다.

참고 자료

이 글의 권고는 아래 공식 문서·연구를 근거로 합니다.

박도현
박도현 · AEO 리서처

생성형 검색·LLM 인용에 관한 논문과 데이터를 읽고 실무 언어로 옮깁니다. 근거 없는 '카더라'를 싫어합니다.

내 사이트의 AI 검색 점수가 궁금하다면

30초 무료 진단으로 SEO·AEO·GEO 점수와 처방을 받아보세요.

무료 진단 시작
← 블로그 목록으로