Citeon
실무 체크리스트

robots.txt로 AI 크롤러를 막아도 될까

정유진
정유진 · 콘텐츠·SEO 에디터

robots.txt는 2022년 RFC 9309로 표준화된 크롤러 접근 제어 힌트 파일이다. 핵심은 기술적 강제력이 없다는 점이다. 서버가 HTTP 200으로 파일을 제공하면 크롤러가 자발적으로 읽고 따를 뿐이며, 이를 무시하는 봇은 아무 제약 없이 콘텐츠를 수집한다. 2024~2025년 ChatGPT Search·Perplexity·Gemini AI Overviews가 실시간 웹 페치를 본격 운용하면서 "AI 크롤러를 막을지 말지"는 SEO 트래픽과 AI 답변 엔진 인용 가시성을 동시에 결정하는 이중 결정 지점이 됐다. 이 글은 User-Agent별 준수 실태, 차단 시 파생 효과, 선택적 차단 구현과 검증 방법을 기술 명세 기준으로 정리한다.

robots.txt의 기술적 지위 — 권고안이지 방화벽이 아니다

AI 크롤러 User-Agent 현황과 준수 실태

User-Agent 운영사 목적 robots.txt 준수 차단 시 AEO 영향
GPTBot OpenAI 학습 + 검색 색인 공식 준수 선언 ChatGPT Search 인용 감소
OAI-SearchBot OpenAI SearchGPT 실시간 페치 공식 준수 선언 SearchGPT 인용 차단
ChatGPT-User OpenAI 대화 중 실시간 Browse 공식 준수 선언 Browse with Bing 인용 차단
ClaudeBot Anthropic 학습 데이터 수집 공식 준수 선언 학습 데이터 제외(인용 간접 영향)
PerplexityBot Perplexity AI 실시간 검색 색인 공식 준수 선언 Perplexity 답변 인용 차단
Google-Extended Google Gemini 학습(Googlebot 별도) 공식 준수 선언 Gemini 학습 제외(AI Overviews 간접)
meta-externalagent Meta AI 학습 공식 준수 선언 Meta AI 학습 제외
Bytespider ByteDance 학습·검색 비공식(부분 준수 추정) TikTok 검색 영향 불명확
CCBot Common Crawl 오픈 학습 데이터셋 공식 준수 선언 오픈소스 LLM 다수 학습 제외

선택적 차단 구현 — robots.txt 실전 예시

패턴 1: 학습 크롤러만 차단, 검색 인용 크롤러 유지

저작권 보호가 목적이고 AI 답변 인용 가시성은 유지하고 싶을 때 적합하다. GPTBot은 학습과 검색 색인을 동일 User-Agent로 운용하므로, 학습만 차단하려면 OpenAI가 제공하는 GPTBot IP 범위를 서버 레벨에서 별도 처리해야 한다. robots.txt만으로는 동일 User-Agent를 목적별로 분리할 수 없다.

# 학습 전용 크롤러 차단 (검색 인용 크롤러는 허용)

# Google AI 학습 크롤러 차단 — Googlebot(SEO)은 별개, 영향 없음
User-agent: Google-Extended
Disallow: /

# Common Crawl 차단 — 오픈소스 LLM 다수의 학습 원천
User-agent: CCBot
Disallow: /

# Meta AI 학습 크롤러 차단
User-agent: meta-externalagent
Disallow: /

# ByteDance 크롤러 차단
User-agent: Bytespider
Disallow: /

# OpenAI 검색 인용 크롤러 명시적 허용 (기본값이지만 명시 권장)
User-agent: GPTBot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

# Perplexity 인용 크롤러 허용
User-agent: PerplexityBot
Allow: /

# Anthropic 크롤러 허용 (Claude 학습 데이터)
User-agent: ClaudeBot
Allow: /

# 공통 제외 경로 (전체 크롤러)
User-agent: *
Disallow: /private/
Disallow: /admin/
Disallow: /api/internal/

Sitemap: https://example.com/sitemap.xml

패턴 2: AI 크롤러 전체 차단 (기존 SEO는 유지)

User-agent: GPTBot
Disallow: /

User-agent: OAI-SearchBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: Amazonbot
Disallow: /

User-agent: meta-externalagent
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: CCBot
Disallow: /

# Googlebot, Bingbot 등 기존 SEO 크롤러는 별도 규칙 없으면 Allow 상태 유지
User-agent: *
Disallow: /private/

Sitemap: https://example.com/sitemap.xml

흔한 오해 — "GPTBot을 막으면 ChatGPT가 내 글을 쓰지 못한다"

가장 빈번한 오해는 GPTBot을 차단하면 ChatGPT가 해당 사이트 내용을 전혀 모르게 된다는 인식이다. 실제 동작은 다음과 같이 분리된다.

적용 후 검증과 측정

  1. 구문 검증: Google Search Console robots.txt 테스터 또는 RFC 9309 준수 파서로 구문 오류를 확인한다. 왜냐하면 경로 앞 슬래시 누락, Allow/Disallow 순서 오류가 의도치 않은 전체 허용으로 이어지기 때문이다.
  2. 서버 액세스 로그 추이 점검: 차단 설정 후 7~14일간 해당 User-Agent 요청 빈도 변화를 모니터링한다. Nginx/Caddy 로그에서 grep "GPTBot\|PerplexityBot" /var/log/access.log | wc -l로 일별 추이를 확인한다.
  3. AI 답변 인용 추적: Perplexity·ChatGPT Search에서 브랜드명 또는 핵심 키워드로 검색해 사이트 URL이 인용 소스에 등장하는지 주기적으로 점검한다. 차단 후 인용이 사라졌는지 확인하는 가장 직접적인 방법이다.
  4. User-Agent 스푸핑 테스트: curl -A "GPTBot" https://example.com/blocked-page로 실제 크롤러를 시뮬레이션한다. 서버 측 User-Agent 기반 403 응답을 추가 구현했다면 이 단계에서 의도대로 작동하는지 확인한다.
Q. Google-Extended를 차단하면 일반 Google 검색 순위에 영향이 있나요?

Google-Extended는 Googlebot(웹 검색 색인용)과 완전히 분리된 크롤러다. Google-Extended를 Disallow해도 Googlebot의 크롤링과 색인에 영향을 주지 않으므로 기존 SEO 순위는 유지된다. 단, Google-Extended를 차단하면 Gemini의 학습 데이터에서 제외되며, 이는 AI Overviews 인용 빈도에 간접 영향을 줄 수 있다. 이 영향의 크기는 현재(2025) 공식 측정 데이터가 없어 추정 수준이며, 사안에 따라 다르다고 보는 것이 정확하다.

Q. X-Robots-Tag: noindex HTTP 헤더나 meta robots 태그로도 AI 크롤러를 막을 수 있나요?

X-Robots-Tag: noindex<meta name="robots" content="noindex">는 검색 엔진 색인(indexing)을 막는 지시어이며, 크롤링(crawling) 자체를 차단하지 않는다. AI 학습 크롤러는 색인 여부와 무관하게 콘텐츠를 수집할 수 있다. 크롤링 자체를 막으려면 반드시 robots.txt Disallow 또는 서버 레벨 User-Agent/IP 차단을 사용해야 한다. 보조 수단으로, 일부 AI 데이터셋 제공업체는 <meta name="robots" content="noai, noimageai">를 인식하기 시작했지만(Spawning.ai의 Have I Been Trained 등), 표준 채택률이 낮아 단독 적용으로는 실질적 보호 효과를 보장하기 어렵다.

참고 자료

이 글의 권고는 아래 공식 문서·연구를 근거로 합니다.

정유진
정유진 · 콘텐츠·SEO 에디터

스키마·FAQ·콘텐츠 구조 등 실무 체크리스트를 쉽고 편안하게 정리합니다. 바로 따라 할 수 있는 글을 지향합니다.

내 사이트의 AI 검색 점수가 궁금하다면

30초 무료 진단으로 SEO·AEO·GEO 점수와 처방을 받아보세요.

무료 진단 시작
← 블로그 목록으로