사이트 속도 최적화와 AI 크롤링 최적화는 목표가 일부 겹치지만, 측정 지표와 수정 지점이 다르다. GPTBot·ClaudeBot·PerplexityBot 등 AI 크롤러는 대부분 Chromium 렌더링 없이 원시 HTTP 응답을 파싱하므로, Core Web Vitals(LCP·INP·CLS)는 이들의 인용 결정에 직접 영향을 주지 않는다. 반면 TTFB·서버 오류율·HTML 구조는 AI 크롤러와 Googlebot 모두에 공통으로 작용하는 신호다. 두 목표를 구분하지 않으면 Core Web Vitals 개선에 공수를 쏟으면서도 AI 인용률은 그대로인 상황이 반복된다.
AI 크롤러의 파싱 파이프라인: 전통 봇과의 구조적 차이
JavaScript 실행 여부와 그 영향
- GPTBot·ClaudeBot·PerplexityBot은 원시 HTML을 가져온다. 왜: 헤드리스 브라우저를 수억 페이지 규모로 운영하는 비용이 실용적이지 않기 때문이다. 어떻게: 서버 사이드 렌더링(SSR) 또는 정적 생성(SSG)으로
<body>파싱 시점에 완전한 텍스트가 존재해야 한다. - React·Next.js CSR 전용 페이지는 AI 크롤러에 빈 HTML로 보인다. 왜:
__NEXT_DATA__스크립트 블록은 무시되고<div id="root"></div>만 남기 때문이다. 어떻게: Next.jsapp/디렉터리 Server Component로 전환하거나getServerSideProps로 콘텐츠를 초기 HTML에 포함시킨다. - Googlebot은 지연 렌더링(deferred rendering) 큐를 운영한다. 왜: JavaScript를 실행하지만, Google AI 오버뷰 인용 파이프라인은 원시 HTML과 구조화 데이터에 더 의존한다. 어떻게: SSR 기반 텍스트를 제공하면 전통 SEO와 AI 크롤링 경로를 동시에 커버한다.
TTFB와 서버 응답 — AI·SEO 공통 임계값
TTFB(Time to First Byte)는 AI 크롤러와 Googlebot 모두에 영향을 주는 유일한 속도 지표다.
- TTFB 800ms 초과 시 AI 크롤러 크롤 빈도 저하 위험. 왜: 대부분의 HTTP 클라이언트 기본 타임아웃이 5~30초이며, 대규모 크롤 시 느린 서버는 큐에서 후순위로 밀린다. 어떻게:
curl -o /dev/null -s -w '%{time_starttransfer}\n' https://example.com으로 측정하고 200ms 미만을 목표로 한다. - 리다이렉트 체인 3단계 이상은 AI 크롤러 도달률을 낮춘다. 왜: 각 301/302는 추가 TCP 핸드셰이크와 왕복 시간을 유발한다. 어떻게:
curl -L -I https://example.com으로 홉 수를 확인하고 최종 URL로 직접 연결한다. - 5xx 서버 오류가 반복되면 해당 사이트의 전체 크롤 우선순위가 낮아진다. 왜: AI 크롤러는 오류율이 높은 사이트를 재방문 빈도 계산에서 패널티로 처리한다(추정). 어떻게: Uptime 모니터링으로 5xx 오류율 0% 유지를 목표로 하고, 점진적 롤아웃으로 배포 직후 오류를 감지한다.
흔한 오해: Core Web Vitals 개선이 AI 인용률을 높인다
함정: LCP 2.5s → 1.2s, CLS 0.25 → 0 개선에 수주를 투자했지만 ChatGPT·Perplexity 인용률이 변하지 않는 사례가 반복된다. Core Web Vitals는 Google 검색 랭킹 신호이며, AI 크롤러의 인용 결정 알고리즘에는 직접 연결되지 않는다. LCP는 브라우저가 페이지를 렌더링한 시점 기준이고, AI 크롤러는 렌더링을 하지 않는다.
올바른 처리법: Core Web Vitals 개선은 Google 검색 유입이 목표일 때 유효하다. AI 인용을 높이려면 TTFB 단축, SSR 전환, JSON-LD 구조화 데이터 추가, 엔티티 밀도 높은 본문 구성에 먼저 투자한다. 두 목표의 KPI를 분리해서 관리할 것.
수정 우선순위 결정 매트릭스
| 현재 상태 | AI 크롤링 영향 | Google 랭킹 영향 | 수정 우선순위 |
|---|---|---|---|
| TTFB > 800ms | 높음 (크롤 빈도 저하) | 높음 (LCP 직결) | 즉시 |
| CSR 전용 SPA (SSR 없음) | 매우 높음 (빈 HTML 파싱) | 중간 (지연 렌더링 보완) | 즉시 |
| JSON-LD 구조화 데이터 없음 | 높음 (엔티티 파싱 어려움) | 높음 (Rich Results 불가) | 즉시 |
| 리다이렉트 3단계 이상 | 중간 | 중간 | 1~2주 내 |
| robots.txt에 AI 크롤러 미설정 | 중간 (허용 범위 불명확) | 없음 | 1주 내 |
| LCP > 2.5s (TTFB는 정상) | 낮음 | 높음 | Google 랭킹 목표 시 우선 |
| CLS > 0.1 | 없음 | 중간 | AI 목표 시 후순위 |
AI 크롤링 전용 설정 구현과 검증
robots.txt 및 llms.txt 설정
AI 크롤러는 User-agent: * 규칙을 따르지만, 인용 대상 경로는 각 봇을 명시적으로 허용해두는 것이 권장된다. llms.txt는 2024년 Jeremy Howard(Answer.AI)가 제안한 비공식 표준으로, 사이트 루트에 Markdown 형식으로 배치해 AI가 사이트 구조를 빠르게 파악하도록 돕는다. 크롤러별 지원 수준이 상이하며 공식 표준은 아니다(추정).
# /robots.txt — AI 크롤러 명시적 허용 예시
User-agent: GPTBot
Allow: /blog/
Allow: /docs/
Disallow: /admin/
Disallow: /user/
User-agent: ClaudeBot
Allow: /blog/
Allow: /docs/
Disallow: /admin/
User-agent: PerplexityBot
Allow: /
User-agent: Googlebot
Allow: /
Sitemap: https://example.com/sitemap.xml
# /llms.txt — AI 전용 콘텐츠 요약 (사이트 루트 배치)
# Example Corp 기술 블로그
> SEO·AEO·GEO 실무 가이드를 제공하는 마케팅 기술 블로그.
## 핵심 문서
- [AI 인용 최적화 7단계](/blog/ai-citation-7steps): RAG 청크 파싱 기준 콘텐츠 리라이팅
- [FAQPage 스키마 실전](/blog/faqpage-schema): JSON-LD 구현 및 Search Console 검증
- [사이트 속도와 AI 크롤링](/blog/speed-ai-crawling): 수정 우선순위 결정 매트릭스
## 제외 경로
- /admin/ : 관리자 전용
- /user/ : 사용자 개인 데이터
실제 접근 여부 검증
- AI 크롤러 로그 확인:
grep -iE "GPTBot|ClaudeBot|PerplexityBot" /var/log/nginx/access.log | awk '{print $1, $7}' | sort | uniq -c | sort -rn으로 방문 경로와 빈도를 확인한다. - SSR 텍스트 노출 검증:
curl -A "GPTBot" https://example.com/blog/post-1 | grep -c "<p>"로 단락 수를 확인한다. 0이면 CSR 전용이다. - TTFB 정기 측정:
curl -o /dev/null -s -w 'TTFB: %{time_starttransfer}s\n' https://example.com을 cron에 등록해 200ms 초과 시 알림을 받는다.
AI 크롤러를 robots.txt로 차단하면 Google AI 오버뷰 인용도 막히나요?
Google AI 오버뷰는 Googlebot이 수집한 데이터를 기반으로 하므로, GPTBot이나 ClaudeBot 차단이 Google AI 오버뷰에 직접 영향을 주지 않는다. 단, User-agent: Googlebot Disallow: /나 <meta name="robots" content="noindex">는 Google 인덱싱 자체를 막아 AI 오버뷰 인용 가능성도 낮춘다. Google AI 오버뷰와 ChatGPT·Perplexity 인용은 서로 다른 크롤러 경로에서 독립적으로 작동한다.
CDN 엣지 캐시로 TTFB를 낮추면 AI 인용에 바로 효과가 있나요?
CDN 엣지 캐시는 TTFB를 수십 ms 수준으로 낮춰 AI 크롤러가 페이지를 더 자주 수집하도록 돕는다. 그러나 TTFB 단축 자체가 AI 인용률을 직접 높이지는 않는다. AI 크롤러가 페이지에 접근한 뒤에는 콘텐츠 품질(엔티티 밀도, 명확한 정의, 출처 명시, 인용 가능한 사실)이 인용 여부를 결정한다. CDN 설정은 크롤러 접근성의 전제 조건이지 인용 결정 변수가 아니다.
참고 자료
이 글의 권고는 아래 공식 문서·연구를 근거로 합니다.