Google AI Overviews·ChatGPT Search·Perplexity가 정보성 쿼리에 직접 합성 답변을 제공하면서, 전통 검색 퍼널의 핵심 전제("사용자가 SERP를 클릭한다")가 흔들리고 있다. Similarweb·SparkToro의 복수 데이터셋(2025년 말 기준 추정)은 정보성 쿼리의 zero-click 비율이 지속 상승 중임을 시사한다. 문제는 트래픽 감소 자체보다 구조적 단절이다. 기존 SEO 지표(오가닉 세션·CTR·SERP 순위)로는 AI 채널에서의 브랜드 인용 빈도를 측정조차 할 수 없다. 콘텐츠 팀이 바꿔야 할 것은 키워드 전략이 아니라, 콘텐츠의 인용 가능성 설계 방식과 측정 체계다.
AI 검색이 클릭을 가로채는 메커니즘
AI 검색 시스템은 전통 SERP와 다른 두 단계를 거친다.
- 쿼리 의도 분류(Intent Classification) — 시스템이 쿼리를 "직접 답변 가능"으로 판정하면 RAG 파이프라인이 활성화된다. 왜: 단순 정의·절차·비교 쿼리는 합성 응답의 사용자 만족도가 클릭 유도보다 높기 때문. 어떻게: Googlebot이 수집한 페이지를 Knowledge Graph 엔티티 해석과 결합해 쿼리 의도를 labeling한 뒤 AI Overview 활성화 여부 결정.
- 청크 추출 및 재랭킹 — 인덱스된 문서에서 768~1024 토큰 단위 청크를 추출한 뒤 임베딩 유사도 + BM25 하이브리드 스코어로 상위 5~10개 소스를 선정한다. 왜: 문서 전체를 LLM context에 넣는 비용 대신 관련성 높은 청크만 주입. 어떻게: H2 직후 2~3문장 요약 단락이 청크 경계와 일치할 때 인용 확률이 높아진다(플랫폼마다 편차 있음).
- 출처 귀속(Attribution) — 합성 답변에 출처 링크가 붙는다. 페이지 클릭은 없어도 브랜드 노출은 발생한다. 왜: 플랫폼이 사용자 신뢰를 위해 근거 문서를 제시. 어떻게: 인용 횟수가 GEO(생성형엔진최적화)의 핵심 성과 지표가 된다.
인용 가능한 콘텐츠 구조 설계
답변 밀도 최적화
- 명제형 리드 단락(Answer-First Paragraph) — H2 직후 첫 1~2문장에 질문의 핵심 답을 완결된 문장으로 배치한다. 왜: RAG 추출기가 섹션 상단 텍스트를 대표 청크로 우선 선택하는 경향. 어떻게: "X는 Y다. 이유는 Z이기 때문이다." 구조로 단락 시작.
- 엔티티 명시성(Entity Salience) — 브랜드명·제품명·기술 용어를 문서 내 일관되게 표기한다. 왜: 지식 그래프 엔티티 연결 품질이 인용 신뢰도에 영향. 어떻게: 동의어 사용 최소화, 공식 표기(예: "LLM" vs "대규모 언어 모델") 일관성 유지.
JSON-LD 스키마 마크업
AI 크롤러는 HTML 텍스트뿐 아니라 구조화 데이터를 파싱해 엔티티 관계를 추론한다. 기술 블로그에 삽입해야 할 최소 스키마는 다음과 같다.
{
"@context": "https://schema.org",
"@type": "TechArticle",
"headline": "검색 트래픽 감소 시대의 콘텐츠 전략",
"description": "AI 검색 RAG 인용 구조와 GEO 지표 전환 실무 가이드",
"datePublished": "2026-06-18",
"dateModified": "2026-06-18",
"author": {
"@type": "Person",
"name": "박도현",
"jobTitle": "AEO Researcher"
},
"publisher": {
"@type": "Organization",
"name": "Citeon",
"url": "https://citeon.io"
},
"about": [
{
"@type": "Thing",
"name": "Generative Engine Optimization"
},
{
"@type": "Thing",
"name": "Retrieval-Augmented Generation",
"description": "AI 검색 시스템의 문서 청크 추출·합성 파이프라인"
}
],
"mainEntityOfPage": {
"@type": "WebPage",
"@id": "https://citeon.io/blog/search-traffic-decline-content-strategy"
}
}
클릭 의존 지표에서 GEO 측정 체계로
기존 SEO 대시보드로는 AI 검색 채널 성과를 볼 수 없다. 아래 표는 최적화 레이어별 차이를 정리한다.
| 구분 | 전통 SEO | AEO (답변엔진최적화) | GEO (생성형엔진최적화) |
|---|---|---|---|
| 최적화 목표 | SERP 순위·CTR | Featured Snippet 점유 | LLM 응답 내 인용 빈도 |
| 핵심 신호 | 백링크·E-E-A-T·Core Web Vitals | 질문-답변 구조·FAQ 스키마 | 청크 관련성·엔티티 명시성·출처 신뢰도 |
| 측정 도구 | Google Search Console, Ahrefs | SEMrush Position Tracking, SerpApi | 수동 프롬프트 감사, Brandwatch AI mention(베타) |
| 클릭 의존성 | 높음 | 중간 | 낮음 (브랜드 노출 = 인용 자체) |
| 최적 콘텐츠 형식 | 긴 글·키워드 밀도 | 짧고 명확한 답변 단락 | 구조화 + 사실 밀도 높은 단락 |
GEO 측정 실무 절차
- 프롬프트 감사(Prompt Audit) — 핵심 쿼리 20~30개를 ChatGPT·Perplexity·Gemini에 수동 입력해 브랜드·콘텐츠 인용 여부를 쿼리/날짜/플랫폼/인용 구문 컬럼으로 기록한다. 왜: 상용 GEO 분석 도구가 아직 완전하지 않아 수동 감사가 현실적 기준선. 어떻게: 주 1회 주기로 동일 쿼리셋을 반복해 인용 변동을 추적.
- AI 크롤러 로그 분석 — Nginx/Caddy 로그에서 AI 크롤러 User-Agent를 필터링해 크롤 빈도와 대상 URL을 파악한다. 왜: 크롤되지 않은 페이지는 인용될 수 없음. 어떻게:
grep -E "GPTBot|ClaudeBot|PerplexityBot|GoogleOther" /var/log/nginx/access.log | awk '{print $7}' | sort | uniq -c | sort -rn | head -30
직접 채널 강화와 AI 크롤러 접근 제어
- 뉴스레터 구독 전환 CTA 삽입 — 콘텐츠 중간(30% 지점)과 말미에 구독 폼을 배치한다. 왜: AI 검색으로 오가닉 유입이 줄어도 구독자에게는 직접 도달 가능. 어떻게: 구독 문구를 "이메일 업데이트"가 아닌 "이 주제의 다음 리포트를 받으려면"처럼 콘텐츠 가치와 연결.
- robots.txt AI 크롤러 선택적 제어 — 학습 데이터 제공 거부와 검색 인용 허용을 분리 설정한다. 왜: GPTBot(학습)과 ChatGPT Browse(검색 인용)는 일부 분리 운용될 수 있음. 어떻게:
# robots.txt — AI 크롤러 선택적 허용 예시
User-agent: GPTBot
Disallow: /private/
Allow: /blog/
Allow: /guides/
# Gemini 학습 데이터 수집 거부 (AI Overviews 인용은 Googlebot이 담당)
User-agent: Google-Extended
Disallow: /
User-agent: ClaudeBot
Allow: /
User-agent: PerplexityBot
Allow: /
- llms.txt 배치 — 사이트 루트에
/llms.txt를 두어 LLM 크롤러에게 콘텐츠 허용 범위를 명시한다. 왜: 비공식 표준이지만 일부 크롤러가 이미 참고하고 있으며 향후 표준화 가능성 있음. 어떻게:
# llms.txt — LLM Crawler Access Policy
## Allow (inference & citation)
/blog/
/guides/
/docs/
## Restrict (crawl not recommended)
/drafts/
/internal/
## Contact
ai-policy: [email protected]
흔한 오해: "글이 길수록 GEO에 유리하다"
오해: SEO에서 긴 글이 E-E-A-T 신호에 유리하다는 통념을 GEO에 적용해, AI 인용 최적화를 위해 2000자 이상의 포괄적 글을 작성한다.
실제 메커니즘: RAG 파이프라인은 문서 전체를 LLM context에 넣지 않는다. 768~1024 토큰 단위로 청크를 추출하므로, 핵심 답변이 문서 깊숙한 곳에 매몰되면 청크 재랭킹에서 밀린다. 긴 글은 청크 수가 늘어나지만 각 청크의 관련성 밀도가 낮으면 인용 확률이 오히려 감소한다.
올바른 처리법:
- H2 섹션마다 첫 1~2문장에 해당 섹션의 핵심 답변을 완결된 형태로 배치.
- 섹션 길이를 한국어 기준 300~600자 내외로 유지해 청크 경계 내에 핵심 정보가 수용되도록 설계.
- 추가 설명이 필요하면 H3로 세분화해 각 하위 섹션도 독립적으로 인용 가능하게.
Q. Google Search Console에서 AI Overviews 인용을 별도로 추적할 수 있나요?
2026년 현재, Google Search Console은 AI Overviews 인용을 일반 오가닉 클릭과 분리해 공식 제공하지 않는다(일부 베타 계정에서 테스트 중이라는 비공식 보고가 있으나 GA 기준 없음). 실무적으로는 (1) 수동 프롬프트 감사, (2) Search Console에서 CTR이 낮은데 노출이 높은 쿼리 추적(AI Overview 인터셉트 추정 신호), (3) Semrush·Ahrefs의 AI Overviews 트래커(베타)를 병행하는 것이 현실적이다. 직접적 측정보다 간접 신호 조합으로 추정해야 하는 한계가 있다.
Q. robots.txt로 GPTBot을 전면 차단하면 ChatGPT Search 인용에서도 빠지나요?
OpenAI는 GPTBot의 역할을 공식적으로 "학습 데이터 수집 크롤러"로만 문서화하고 있으며, ChatGPT Search(Browse) 기능이 별도 User-Agent를 사용하는지 2026년 6월 기준 명확히 밝히지 않았다. 따라서 User-agent: GPTBot / Disallow: /가 ChatGPT Search 인용까지 차단하는지는 불확실하다. 학습 데이터 제공만 거부하고 인용 노출은 유지하려면 전면 차단보다 민감한 경로만 Disallow하는 선택적 설정이 안전하다.
참고 자료
이 글의 권고는 아래 공식 문서·연구를 근거로 합니다.