robots.txt로 AI 크롤러를 막아도 될까

Q: Q. X-Robots-Tag: noindex HTTP 헤더나 meta robots 태그로도 AI 크롤러를 막을 수 있나요?

X-Robots-Tag: noindex와 <meta name="robots" content="noindex">는 검색 엔진 색인(indexing)을 막는 지시어이며, 크롤링(crawling) 자체를 차단하지 않는다. AI 학습 크롤러는 색인 여부와 무관하게 콘텐츠를 수집할 수 있다. 크롤링 자체를 막으려면 반드시 robots.txt Disallow 또는 서버 레벨 User-Agent/IP 차단을 사용해야 한다. 보조 수단으로, 일부 AI 데이터셋 제공업체는 <meta name="robots" content="noai, noimageai">를 인식하기 시작했지만(Spawning.ai의 Have I Been Trained 등), 표준 채택률이 낮아 단독 적용으로는 실질적 보호 효과를 보장하기 어렵다.

robots.txt는 2022년 RFC 9309로 표준화된 크롤러 접근 제어 힌트 파일이다. 핵심은 기술적 강제력이 없다는 점이다. 서버가 HTTP 200으로 파일을 제공하면 크롤러가 자발적으로 읽고 따를 뿐이며, 이를 무시하는 봇은 아무 제약 없이 콘텐츠를 수집한다. 2024~2025년 ChatGPT Search·Perplexity·Gemini AI Overviews가 실시간 웹 페치를 본격 운용하면서 "AI 크롤러를 막을지 말지"는 SEO 트래픽과 AI 답변 엔진 인용 가시성을 동시에 결정하는 이중 결정 지점이 됐다. 이 글은 User-Agent별 준수 실태, 차단 시 파생 효과, 선택적 차단 구현과 검증 방법을 기술 명세 기준으로 정리한다.

robots.txt의 기술적 지위 — 권고안이지 방화벽이 아니다

RFC 9309 준수 의무 범위: 표준은 "크롤러가 규칙을 따를 것을 권고"로 규정하며 기술적 강제 수단이 없다. 왜냐하면 서버는 TCP 연결 단계에서 크롤러 신원을 미리 알 수 없으며, HTTP 요청이 들어온 뒤에야 User-Agent를 확인하기 때문이다. 어떻게 강제할지: 기술적 차단이 필요하면 Cloudflare WAF의 User-Agent 매칭 룰 또는 Nginx if ($http_user_agent ~* "GPTBot") { return 403; }를 robots.txt와 병행한다.
Crawl-delay는 RFC 9309 비표준 확장: 주요 AI 크롤러는 Crawl-delay를 무시하거나 자체 기준으로 처리한다. 왜냐하면 RFC 9309에 포함되지 않았기 때문이다. 어떻게 할지: 요청 속도 제한이 목적이라면 서버 측 rate limiting(Nginx limit_req_zone, Caddy rate_limit)을 사용한다.
IP 차단과의 근본 차이: robots.txt는 호의적 크롤러를 유도하는 신호이고, 악성 봇은 이를 무시한다. IP 차단(iptables, Cloudflare WAF)은 실제 강제력이 있지만 CDN 엣지 IP 오차단 위험이 존재한다. 어떻게 구분할지: User-Agent가 위장된 스크레이퍼라면 robots.txt는 무효이며 서버 레벨 차단이 유일한 수단이다.

AI 크롤러 User-Agent 현황과 준수 실태

User-Agent	운영사	목적	robots.txt 준수	차단 시 AEO 영향
GPTBot	OpenAI	학습 + 검색 색인	공식 준수 선언	ChatGPT Search 인용 감소
OAI-SearchBot	OpenAI	SearchGPT 실시간 페치	공식 준수 선언	SearchGPT 인용 차단
ChatGPT-User	OpenAI	대화 중 실시간 Browse	공식 준수 선언	Browse with Bing 인용 차단
ClaudeBot	Anthropic	학습 데이터 수집	공식 준수 선언	학습 데이터 제외(인용 간접 영향)
PerplexityBot	Perplexity AI	실시간 검색 색인	공식 준수 선언	Perplexity 답변 인용 차단
Google-Extended	Google	Gemini 학습(Googlebot 별도)	공식 준수 선언	Gemini 학습 제외(AI Overviews 간접)
meta-externalagent	Meta	AI 학습	공식 준수 선언	Meta AI 학습 제외
Bytespider	ByteDance	학습·검색	비공식(부분 준수 추정)	TikTok 검색 영향 불명확
CCBot	Common Crawl	오픈 학습 데이터셋	공식 준수 선언	오픈소스 LLM 다수 학습 제외

선택적 차단 구현 — robots.txt 실전 예시

패턴 1: 학습 크롤러만 차단, 검색 인용 크롤러 유지

저작권 보호가 목적이고 AI 답변 인용 가시성은 유지하고 싶을 때 적합하다. GPTBot은 학습과 검색 색인을 동일 User-Agent로 운용하므로, 학습만 차단하려면 OpenAI가 제공하는 GPTBot IP 범위를 서버 레벨에서 별도 처리해야 한다. robots.txt만으로는 동일 User-Agent를 목적별로 분리할 수 없다.

# 학습 전용 크롤러 차단 (검색 인용 크롤러는 허용)

# Google AI 학습 크롤러 차단 — Googlebot(SEO)은 별개, 영향 없음
User-agent: Google-Extended
Disallow: /

# Common Crawl 차단 — 오픈소스 LLM 다수의 학습 원천
User-agent: CCBot
Disallow: /

# Meta AI 학습 크롤러 차단
User-agent: meta-externalagent
Disallow: /

# ByteDance 크롤러 차단
User-agent: Bytespider
Disallow: /

# OpenAI 검색 인용 크롤러 명시적 허용 (기본값이지만 명시 권장)
User-agent: GPTBot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

# Perplexity 인용 크롤러 허용
User-agent: PerplexityBot
Allow: /

# Anthropic 크롤러 허용 (Claude 학습 데이터)
User-agent: ClaudeBot
Allow: /

# 공통 제외 경로 (전체 크롤러)
User-agent: *
Disallow: /private/
Disallow: /admin/
Disallow: /api/internal/

Sitemap: https://example.com/sitemap.xml

패턴 2: AI 크롤러 전체 차단 (기존 SEO는 유지)

User-agent: GPTBot
Disallow: /

User-agent: OAI-SearchBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: Amazonbot
Disallow: /

User-agent: meta-externalagent
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: CCBot
Disallow: /

# Googlebot, Bingbot 등 기존 SEO 크롤러는 별도 규칙 없으면 Allow 상태 유지
User-agent: *
Disallow: /private/

Sitemap: https://example.com/sitemap.xml

흔한 오해 — "GPTBot을 막으면 ChatGPT가 내 글을 쓰지 못한다"

가장 빈번한 오해는 GPTBot을 차단하면 ChatGPT가 해당 사이트 내용을 전혀 모르게 된다는 인식이다. 실제 동작은 다음과 같이 분리된다.

학습 데이터와 실시간 검색은 분리된 파이프라인: ChatGPT 기반 모델(GPT-4o 등)은 사전학습이 이미 완료됐다. GPTBot 차단은 미래 재학습 데이터에서만 제외된다. 현재 모델이 이미 습득한 지식은 차단으로 제거되지 않는다. 어떻게 확인할지: ChatGPT에 직접 질문해 기존 지식 반영 여부를 테스트한다.
실시간 검색 인용은 별개 메커니즘: ChatGPT Search(OAI-SearchBot)와 Perplexity(PerplexityBot)는 쿼리 시점에 실시간으로 URL을 페치해 인용한다. 이 크롤러를 차단하면 해당 AI 엔진의 인용 소스에서 제외된다. 반대로 허용하면 사이트 방문 없이 콘텐츠가 소비(zero-click)될 수 있다.
올바른 처리법: 비즈니스 목표에 따라 결정한다. 브랜드 권위·인지 구축이 목적이면 검색 인용 크롤러(GPTBot, PerplexityBot)를 허용한다. 클릭 전환이 핵심 KPI라면 AI 답변 인용이 클릭률을 낮출 수 있음을 감안해 차단 여부를 결정한다. 저작권 보호가 목적이면 학습 크롤러(CCBot, Google-Extended, meta-externalagent)만 선택적으로 차단하고 검색 인용 크롤러는 허용하는 방식이 현재 가장 널리 쓰이는 절충안이다.

적용 후 검증과 측정

구문 검증: Google Search Console robots.txt 테스터 또는 RFC 9309 준수 파서로 구문 오류를 확인한다. 왜냐하면 경로 앞 슬래시 누락, Allow/Disallow 순서 오류가 의도치 않은 전체 허용으로 이어지기 때문이다.
서버 액세스 로그 추이 점검: 차단 설정 후 7~14일간 해당 User-Agent 요청 빈도 변화를 모니터링한다. Nginx/Caddy 로그에서 grep "GPTBot\|PerplexityBot" /var/log/access.log | wc -l로 일별 추이를 확인한다.
AI 답변 인용 추적: Perplexity·ChatGPT Search에서 브랜드명 또는 핵심 키워드로 검색해 사이트 URL이 인용 소스에 등장하는지 주기적으로 점검한다. 차단 후 인용이 사라졌는지 확인하는 가장 직접적인 방법이다.
User-Agent 스푸핑 테스트: curl -A "GPTBot" https://example.com/blocked-page로 실제 크롤러를 시뮬레이션한다. 서버 측 User-Agent 기반 403 응답을 추가 구현했다면 이 단계에서 의도대로 작동하는지 확인한다.

Q. Google-Extended를 차단하면 일반 Google 검색 순위에 영향이 있나요?

Google-Extended는 Googlebot(웹 검색 색인용)과 완전히 분리된 크롤러다. Google-Extended를 Disallow해도 Googlebot의 크롤링과 색인에 영향을 주지 않으므로 기존 SEO 순위는 유지된다. 단, Google-Extended를 차단하면 Gemini의 학습 데이터에서 제외되며, 이는 AI Overviews 인용 빈도에 간접 영향을 줄 수 있다. 이 영향의 크기는 현재(2025) 공식 측정 데이터가 없어 추정 수준이며, 사안에 따라 다르다고 보는 것이 정확하다.

Q. X-Robots-Tag: noindex HTTP 헤더나 meta robots 태그로도 AI 크롤러를 막을 수 있나요?

X-Robots-Tag: noindex와 <meta name="robots" content="noindex">는 검색 엔진 색인(indexing)을 막는 지시어이며, 크롤링(crawling) 자체를 차단하지 않는다. AI 학습 크롤러는 색인 여부와 무관하게 콘텐츠를 수집할 수 있다. 크롤링 자체를 막으려면 반드시 robots.txt Disallow 또는 서버 레벨 User-Agent/IP 차단을 사용해야 한다. 보조 수단으로, 일부 AI 데이터셋 제공업체는 <meta name="robots" content="noai, noimageai">를 인식하기 시작했지만(Spawning.ai의 Have I Been Trained 등), 표준 채택률이 낮아 단독 적용으로는 실질적 보호 효과를 보장하기 어렵다.

참고 자료

이 글의 권고는 아래 공식 문서·연구를 근거로 합니다.