한국에서 AI 검색 최적화는 독립된 두 RAG 파이프라인을 동시에 상대하는 작업이다. Google AI Overviews는 Gemini 모델이 공개 웹 전체를 색인한 코퍼스에서 청크를 검색·합성하고, 네이버 큐:는 HyperCLOVA X가 네이버 자체 색인(블로그·카페·지식iN·포스트)을 우선 참조한다. 두 시스템은 크롤러 식별자, 색인 신호의 가중치 구조, 구조화 데이터 파싱 방식이 모두 달라, 동일 콘텐츠가 한 엔진에 인용되더라도 다른 엔진에서는 완전히 무시될 수 있다. 네이버의 국내 모바일 검색 점유율이 과반을 유지하는 상황에서 구글 중심 전략만으로는 한국 시장을 절반 이상 커버하지 못한다.
두 AI 검색 엔진의 RAG 파이프라인 비교
Retrieval 단계가 참조하는 코퍼스 소스와 합성 모델이 다르기 때문에 최적화 신호의 방향성도 분리해 설계해야 한다.
- Google AI Overviews: Gemini가 BM25+벡터 하이브리드 검색으로 공개 웹 코퍼스에서 후보 청크를 추출하고 합성한다. 왜: PageRank 계열 권위 신호와 E-E-A-T가 Retrieval 필터 역할을 하므로, 외부 링크 획득과 저자 신뢰도가 인용 가능성에 직접 영향을 준다. 어떻게: 구조화 데이터(Article/FAQ/HowTo 스키마)로 청크 경계를 명확히 하고, 저자 프로필 페이지에
Person스키마를 추가한다. - 네이버 큐:: HyperCLOVA X가 Yeti 크롤러로 수집한 외부 문서와 네이버 네이티브 콘텐츠를 함께 참조하되, 네이티브 출처의 신뢰도 가중치가 높은 것으로 추정된다. 왜: 외부 도메인만 운영하면 큐:의 Retrieval 후보 풀 진입 자체가 불리해진다. 어떻게: 외부 사이트와 병행해 네이버 블로그·포스트 채널을 공식 콘텐츠 배포 경로로 운영한다.
| 항목 | Google AI Overviews | 네이버 큐: |
|---|---|---|
| AI 모델 | Gemini | HyperCLOVA X |
| 주 크롤러 | Googlebot / Google-Extended | Yeti / NaverBot |
| 우선 색인 소스 | 공개 웹 전체 | 네이버 네이티브 + 외부 웹 |
| 구조화 데이터 | JSON-LD (Article/FAQ/HowTo) | Open Graph + JSON-LD 병행 |
| AI 봇 opt-out | Google-Extended Disallow | 공식 opt-out 정책 미공개 (2026.06 기준) |
| 검증 도구 | Google Search Console | 네이버 서치어드바이저 |
| 핵심 품질 신호 | E-E-A-T, freshness, 외부 링크 | 출처 신뢰도, 네이티브 플랫폼 활동, 최신성 |
| 인용 측정 | GSC AI Overviews 필터 | 수동 쿼리 모니터링 (전용 도구 미제공) |
크롤러 식별자와 robots.txt 정책
두 엔진의 크롤러를 명확히 구분해 허용·차단 정책을 별도로 설계해야 한다. Google은 AI 학습 목적 크롤러를 Google-Extended로 분리했고, 네이버 주 크롤러는 Yeti다.
# robots.txt — Google + Naver AI 검색 크롤러 제어 예시
# Googlebot: 일반 검색 색인 허용
User-agent: Googlebot
Allow: /
Disallow: /admin/
Disallow: /api/
# Google-Extended: AI Overviews 합성 및 Gemini 학습 크롤러
# 차단 시 AI Overviews 인용 가능성 저하 (Google 공식 확인)
User-agent: Google-Extended
Allow: /
# Yeti: 네이버 주 크롤러 (큐: 색인 포함)
User-agent: Yeti
Allow: /
Disallow: /admin/
Disallow: /api/
# NaverBot: 네이버 보조 크롤러
User-agent: NaverBot
Allow: /
Sitemap: https://example.com/sitemap.xml
Sitemap: https://example.com/sitemap-news.xml
- Google-Extended 허용 여부 결정:
Disallow: /로 차단하면 AI Overviews 인용 가능성이 낮아진다. 왜: Google은 학습 크롤링과 AI 합성 참조를 동일 봇으로 처리하며, 차단 설정이 AI Overviews 노출에 직접 영향을 준다고 공식 확인했다. 어떻게: 인용 노출을 원하면Allow: /를 유지하고, 학습 데이터 제공 거부만 원할 때는 다른 메커니즘(향후 공개 예정 opt-out API)을 검토한다. - Yeti 차단 금지: Yeti를 차단하면 큐: 색인 자체가 끊긴다. 왜: 네이버 서치어드바이저에서 Yeti 크롤링 허용 여부가 색인 상태와 직결된다. 어떻게: 서치어드바이저 크롤링 현황 탭에서 Yeti의 최근 크롤링 시각과 오류율을 주 1회 이상 점검한다.
구조화 데이터와 콘텐츠 형식 최적화
두 엔진 모두 JSON-LD Article 스키마를 파싱한다. 네이버는 Open Graph 태그를 병행해 출처 신뢰도를 판단하므로 두 소스를 동기화해야 한다.
<!-- JSON-LD: Article 스키마 — Google AI Overviews + 네이버 큐: 공통 적용 -->
<script type="application/ld+json">
{
"@context": "https://schema.org",
"@type": "Article",
"headline": "2025년 국내 전기차 충전 인프라 현황",
"datePublished": "2025-06-18T09:00:00+09:00",
"dateModified": "2025-06-18T09:00:00+09:00",
"author": {
"@type": "Person",
"name": "이서연",
"url": "https://example.com/authors/lee-seoyeon",
"jobTitle": "GEO 전략 리드"
},
"publisher": {
"@type": "Organization",
"name": "Citeon",
"logo": {
"@type": "ImageObject",
"url": "https://example.com/logo.png",
"width": 300,
"height": 60
}
},
"mainEntityOfPage": {
"@type": "WebPage",
"@id": "https://example.com/ev-charging-2025"
},
"description": "국내 전기차 충전소 분포, 유형별 속도, 정책 변화를 데이터 기반으로 정리한다.",
"inLanguage": "ko"
}
</script>
- dateModified 갱신 자동화: 콘텐츠를 실질적으로 수정할 때마다
dateModified를 현재 시각(ISO 8601, +09:00 오프셋)으로 갱신해야 한다. 왜: Google AI Overviews는 freshness를 Retrieval 필터 신호로 사용하며, 오래된dateModified의 문서는 최신 쿼리 답변 합성에서 낮은 순위를 받는다. 어떻게: CMS 저장 훅에서 변경 감지 시 자동으로 해당 필드를 업데이트하고, 단순 오타 수정과 실질 업데이트를 구분해 불필요한 갱신을 방지한다. - 네이버 Open Graph 병행:
og:title·og:description·article:author를 JSON-LD의headline·description·author.name과 동일한 값으로 설정해야 한다. 왜: 네이버 큐:가 OG 태그를 직접 파싱해 출처 신뢰도를 판단하며, JSON-LD와 OG 태그가 불일치하면 신호 혼란으로 인용 우선순위가 낮아질 수 있다(추정). 어떻게: 두 소스를 단일 메타데이터 오브젝트에서 자동 생성해 값 불일치를 구조적으로 차단한다. - FAQPage 스키마 추가: 질문형 쿼리를 타겟팅할 때
FAQPage스키마를 Article과 병렬로 삽입해야 한다. 왜: Google AI Overviews는 FAQ 스키마로 마크업된 Q&A 구조 청크를 우선 참조하는 패턴이 관찰된다. 어떻게: 본문 내 "자주 묻는 질문" 섹션을FAQPage > mainEntity > Question/acceptedAnswer구조로 마크업한다.
검증·측정 방법
- Google Search Console AI Overviews 필터: Search Appearance 필터에서 AI Overviews 노출 지표를 별도로 확인한다(2024년 하반기부터 제공). 왜: 클릭률이 아닌 노출 수를 추적해야 인용 여부를 정확히 파악할 수 있다. 어떻게: 쿼리별 Search Type을 "Web"으로 필터하고 AI Overviews 체크박스를 활성화해 인용 쿼리 목록을 주기적으로 추출한다.
- 네이버 서치어드바이저:
searchadvisor.naver.com에서 Yeti 크롤링 현황, 사이트맵 제출 상태, 색인 페이지 수를 확인한다. 왜: 큐: 인용은 색인이 선행되어야 하며, 사이트맵 미제출 시 크롤링 주기가 불규칙해진다. 어떻게: 신규 콘텐츠 발행 후 서치어드바이저 URL 제출 기능으로 즉시 색인을 요청하고, 크롤링 오류 탭에서 4xx·5xx 빈도를 모니터링한다. - 큐: 인용 수동 모니터링: 네이버는 큐: 인용 쿼리를 서치어드바이저에서 별도 분리해 제공하지 않는다(2026년 6월 기준). 왜: 인용 여부를 파악하지 않으면 어떤 콘텐츠가 효과를 내는지 알 수 없다. 어떻게: 주요 타겟 쿼리 20~30개를 weekly 주기로 직접 검색해 큐: 답변 블록의 출처 링크에서 자사 도메인 노출율을 스프레드시트로 추적한다.
함정: "구글 최적화를 하면 네이버도 따라온다"
구글 AEO를 적용한 사이트가 Google AI Overviews에 인용되더라도 네이버 큐:에서 완전히 무시되는 경우가 빈번하다. 원인은 두 가지다.
- 코퍼스 소스의 구조적 차이: 구글은 공개 웹 전체를 색인하지만, 네이버 큐:는 네이버 네이티브 플랫폼 콘텐츠를 우선 참조한다. 외부 도메인만 운영하면 큐:의 Retrieval 후보 풀 진입 자체가 경쟁적으로 불리하다. 올바른 처리법: 외부 사이트의 핵심 콘텐츠를 네이버 블로그 또는 포스트에 요약·링크 형태로 병행 발행하고, 검색 노출 목적의 네이티브 채널을 별도로 운영한다.
- 구조화 데이터 파싱 우선순위 차이: 네이버는 JSON-LD보다 Open Graph 메타 태그를 더 직접적으로 파싱하는 패턴이 있다. 구글용 JSON-LD만 있고 OG 태그가 누락되거나 값이 불일치하면 네이버 색인 품질이 낮아진다. 올바른 처리법: JSON-LD와 Open Graph 태그를 CMS 레벨의 단일 데이터 소스에서 자동 생성해 항상 동기화 상태를 유지한다.
네이버 큐:에 인용되려면 네이버 블로그 채널이 반드시 필요한가?
네이버 블로그가 필수는 아니다. Yeti가 외부 도메인도 크롤링하며 큐: 색인에 포함시킨다. 그러나 네이버 네이티브 콘텐츠(블로그·포스트·지식iN)는 큐: Retrieval 단계에서 출처 신뢰도 가중치가 외부 도메인보다 높은 것으로 추정된다. 외부 사이트만 운영하는 경우, robots.txt에서 Yeti를 명시적으로 허용하고, 서치어드바이저에 사이트맵을 제출하고, 페이지별 메타 태그(title·description·OG)를 정확하게 설정하는 것이 최소 조건이다. 경쟁이 치열한 주제에서는 네이티브 채널 병행이 실질적으로 필요하다.
Google-Extended를 차단하면 일반 Google 검색 랭킹에도 영향이 생기는가?
Google은 Google-Extended 차단이 일반 Google Search 랭킹에 영향을 주지 않는다고 공식 발표했다. Google-Extended는 Gemini 모델 학습 및 AI Overviews 합성에 사용되는 별도 크롤러로, Googlebot의 페이지 랭킹 크롤링과 완전히 분리되어 있다. 따라서 Google-Extended를 Disallow: /로 처리해도 기존 SEO 순위에는 변화가 없다. 단, AI Overviews에서 해당 콘텐츠가 인용될 가능성은 낮아지므로, AI 검색 노출을 원한다면 Allow: / 상태를 유지해야 한다.
참고 자료
이 글의 권고는 아래 공식 문서·연구를 근거로 합니다.