Citeon
구글·네이버 가이드 분석

구글이 '안 해도 된다'고 말한 5가지, 진짜일까

이서연
이서연 · GEO 전략 리드

Google Search Central의 공식 발표는 대부분 Googlebot + 전통 랭킹 알고리즘을 전제로 작성된다. 그러나 현재 검색 환경에는 GPTBot·Google-Extended·PerplexityBot·ClaudeBot 등 AI 학습·RAG 파이프라인용 크롤러가 병존하며, 이들의 파싱 우선순위와 신호 처리 방식은 Googlebot 사양과 다르다. Google이 "안 해도 된다"고 밝힌 관행을 맥락 없이 전체 검색 환경에 적용하면 AI 검색 노출에서 불필요한 손실이 발생할 수 있다. 아래 5가지 항목을 전통 SEO와 GEO·AEO 두 레이어로 분리해 검증한다.

1. 메타 키워드 태그 — "Google은 완전히 무시한다"

작동 원리

2009년 9월 Matt Cutts의 공식 포스트에서 Google은 <meta name="keywords">를 랭킹 신호로 사용하지 않는다고 선언했다. Bing도 2011년 동일 선언. 이유는 스팸 남용이었다: 무관한 수천 개 키워드를 삽입해 색인을 오염시키는 패턴이 만연했기 때문이다.

재검증: 전통 SEO vs AI 파이프라인

판정: 메타 키워드는 SEO·GEO 모두 불필요 — Google 발표 그대로 유효하다.meta description과 Open Graph og:description은 별개이며 여전히 유효하다.

2. H1 단 하나만 써야 한다 — "여럿 써도 랭킹에 무관하다"

작동 원리

John Mueller는 2020년 공개 Q&A에서 "페이지에 H1이 여러 개 있어도 문제없다"고 명시했다. Googlebot은 HTML5 아웃라인 모델 기준으로 제목 계층을 파악하며 H1 개수를 패널티 신호로 처리하지 않는다.

재검증: 전통 SEO vs AI 파이프라인

판정: 다중 H1은 Google 랭킹 패널티 없음 — 발표 사실. 그러나 GEO·AEO 파이프라인에서는 논리적 계층 붕괴로 인용 정확도가 실질적으로 저하된다. 단일 H1 유지가 안전하다.

3. 키워드 밀도 규칙 — "2~3% 같은 공식은 존재하지 않는다"

작동 원리

Google은 키워드 밀도(keyword density)를 공식 랭킹 신호로 공개한 적이 없다. 2013년 Hummingbird 이후 RankBrain과 BERT가 시맨틱 매핑을 처리하므로 단어 반복 계산은 SEO 의미가 없다.

재검증: 전통 SEO vs AI 파이프라인

판정: 전통적 키워드 밀도 규칙 — 여전히 무의미. 그러나 GEO에서 엔티티 공출현 밀도는 청크 인용 선택에 실제로 영향을 미친다. 목표가 달라졌을 뿐 "쓸 것을 정해서 집중해야 한다"는 원칙은 유효하다.

4. 사이트맵 제출 — "Googlebot은 알아서 찾는다"

작동 원리

Google Search Central 문서는 "양호한 내부 링크 구조가 있으면 사이트맵 없이도 크롤이 된다"고 명시한다. 특히 500페이지 이하 소규모 사이트에서는 사이트맵이 없어도 완전한 색인이 가능하다고 설명한다.

재검증: 전통 SEO vs AI 파이프라인

<!-- sitemap.xml: lastmod 는 실제 콘텐츠 수정 시각과 동기화 -->
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://example.com/guides/aeo-basics</loc>
    <lastmod>2026-06-15</lastmod>
    <changefreq>weekly</changefreq>
    <priority>0.9</priority>
  </url>
</urlset>

# llms.txt — AI 크롤러 전용 콘텐츠 맵 (루트에 배치)
# https://example.com/llms.txt

# Site: Example Tech Blog
# Preferred-crawl: /sitemap.xml
# Last-updated: 2026-06-15

## High-value for AI citation
- [AEO Basics](/guides/aeo-basics): Answer Engine Optimization 구현 원리
- [GEO Implementation](/guides/geo-impl): 구조화 데이터와 엔티티 신호
- [JSON-LD Reference](/guides/jsonld): 스키마 마크업 실전 예시

## Excluded
- /admin/*
- /drafts/*
- /internal/*

판정: Googlebot 대상으로는 사이트맵이 선택적 — 발표 사실. 그러나 AI 크롤러 대상으로 lastmod 정확성과 llms.txt 병용은 콘텐츠가 AI 학습 파이프라인에 포함되는 빈도에 실질적 영향을 미친다.

5. robots.txt 부재 — "없으면 기본으로 전부 허용된다"

작동 원리

Robots Exclusion Protocol(RFC 9309) 사양에 따라 robots.txt가 없으면 모든 크롤러는 전체 크롤을 허용으로 간주한다. Google은 이 기본 동작을 공식적으로 확인했다.

재검증: 전통 SEO vs AI 파이프라인

# robots.txt — AI 크롤러 분리 제어 예시

# 검색 색인 크롤러: 전체 허용
User-agent: Googlebot
Disallow:

User-agent: Bingbot
Disallow:

# AI 학습 데이터 크롤러: 선택적 제어
User-agent: GPTBot
Disallow: /          # OpenAI 학습 데이터 전체 차단

User-agent: Google-Extended
Allow: /guides/      # AI Overviews 인용 허용 섹션
Allow: /blog/
Disallow: /          # 나머지 학습 데이터 제한

User-agent: Claude-Web
Disallow: /internal/
Allow: /

# Common Crawl (다수 LLM 학습 원천)
User-agent: CCBot
Disallow: /

판정: robots.txt 부재 = 전체 허용 — 발표 사실. 그러나 AI 크롤러 분리 제어가 필요한 현재, robots.txt 부재는 "선택"이 아니라 "의도하지 않은 전체 허용" 상태다. 명시적 의사결정이 필요하다.

항목별 SEO·AEO·GEO 영향도 비교

항목 Google 공식 발표 전통 SEO 실제 영향 AEO 실제 영향 GEO 실제 영향
메타 키워드 태그 무시 없음 없음 없음 (meta description은 유효)
H1 다중 사용 패널티 없음 랭킹 무관 Featured Snippet 컨테이너 탐지 저하 청크 분할 경계 붕괴 → 인용 정확도 저하
키워드 밀도 규칙 공식 기준 없음 영향 없음 엔티티 명확성이 대체 신호 엔티티 공출현 밀도가 청크 인용 선택 요소
사이트맵 선택적 대형 사이트 권장 크롤 빈도 영향 llms.txt 병용 시 AI 크롤러 우선순위 신호로 기능
robots.txt 없으면 전체 허용 선택적 차단 도구 AI Overviews 노출 제어 레버 LLM 학습 데이터 포함 여부를 결정하는 핵심 제어 지점

흔한 오해와 올바른 처리법

오해: "Google이 안 해도 된다고 했으니 GEO에서도 불필요하다."

이 오해의 근본은 Google의 가이드라인이 Googlebot + 전통 랭킹 알고리즘을 전제로 작성된다는 사실을 구분하지 못하는 데 있다. GPTBot·Google-Extended·PerplexityBot은 별도 크롤러이며, 이들의 파싱 정책은 Google Search Quality Evaluator Guidelines가 아니라 각 AI 시스템 내부 RAG 파이프라인 설계에 따른다.

올바른 처리법: Google 공식 발표를 읽을 때 "이것이 Googlebot에 한정된 이야기인가, 아니면 RFC/HTTP 표준처럼 모든 크롤러에 적용되는가"를 먼저 구분한다. Robots Exclusion Protocol·HTTP 응답 코드·Canonical URL은 대부분의 크롤러에 적용된다. 반면 랭킹 신호·Featured Snippet 선택·크롤 우선순위 관련 발표는 Googlebot에만 해당하므로, AI 크롤러 환경에서는 별도로 검증해야 한다.

기술적 FAQ

Google-Extended를 차단하면 AI Overviews 노출이 완전히 차단되나요?

Google Search Central(2023-08) 공식 문서에 따르면 Google-Extended는 Bard(현 Gemini) 및 Vertex AI 학습 데이터 수집에 사용된다. AI Overviews(구 SGE)는 Googlebot이 수집한 기존 색인 데이터를 기반으로 생성 답변을 구성한다. 따라서 Google-Extended 차단이 AI Overviews 인용을 즉시·완전히 차단하지는 않는다. 단, Google이 향후 AI Overviews 소스 선택 파이프라인을 Google-Extended 수집 데이터로 전환할 경우 영향이 발생할 수 있다. 현재로서는 Google-Extended 차단은 Gemini 답변 생성용 학습 데이터 수집을 제한하는 것으로, AI Overviews 노출 자체를 차단하는 것과 동일하지 않다.

robots.txt로 GPTBot을 차단해도 이미 학습된 데이터에서 내 콘텐츠가 제거되나요?

아니다. robots.txt는 미래의 크롤링을 제한하는 지시자이며, 이미 수집되어 LLM 학습에 사용된 데이터를 소급 삭제하지 않는다. OpenAI는 기존 학습 데이터에서의 콘텐츠 제거 요청을 별도 프로세스로 처리하며 수용 여부는 케이스별로 다르다. Google은 공개 수집 데이터의 사후 삭제 프로세스를 명확히 공개하지 않았다. 현실적 접근은 robots.txt 지시로 신규 크롤링을 차단하되, 비공개 처리가 필요한 정보는 애초에 공개 URL에 노출하지 않는 것이다. 이미 노출된 민감 정보는 404 처리 + Bing Webmaster Tools / Google Search Console의 URL 제거 도구로 색인에서 삭제 요청하는 것이 현재로서 가능한 최선이다.

참고 자료

이 글의 권고는 아래 공식 문서·연구를 근거로 합니다.

이서연
이서연 · GEO 전략 리드

AI 검색(AEO·GEO) 전략과 구글·네이버 공식 가이드 해석을 담당합니다. 측정에서 매출까지 잇는 풀퍼널 관점으로 글을 씁니다.

내 사이트의 AI 검색 점수가 궁금하다면

30초 무료 진단으로 SEO·AEO·GEO 점수와 처방을 받아보세요.

무료 진단 시작
← 블로그 목록으로