AI 검색 트래픽 증가 여부는 GA4 채널 리포트 한 줄로 답할 수 없는 측정 문제다. Perplexity·ChatGPT Search·Gemini AI Overviews는 크롤러가 문서를 색인하는 단계, 모델이 인용 후보를 선정하는 단계, 사용자가 인용 링크를 클릭하는 단계를 분리하여 동작한다. 각 단계는 서버에 다른 신호를 남기므로 세 신호를 구분하지 않으면 실규모를 과소 또는 과대 계상한다. 특히 일부 플랫폼은 Referrer-Policy: no-referrer를 적용하거나 HTTPS→HTTP 다운그레이드 시 Referer를 드롭하여, 표준 애널리틱스 도구만으로는 AI 기인 클릭을 direct 트래픽으로 오계상하는 구조적 결함이 있다.
신호 계층: 크롤·인용·클릭의 기술적 구분
- 크롤 신호 (User-Agent 헤더) — 왜: 플랫폼은 색인 목적으로 주기적으로 문서 전체를 수집하며 식별 가능한 UA를 전송한다. 어떻게: Nginx 액세스 로그에서
PerplexityBot·GPTBot·ClaudeBot패턴을 집계하면 크롤 빈도를 정량화할 수 있다. 크롤 빈도는 이후 인용 증가의 선행 지표로 해석한다. - 인용 클릭 신호 (Referer 헤더) — 왜: 사용자가 AI 답변 내 링크를 클릭하면 브라우저가 출발 URL을 Referer로 전송한다. 어떻게: GA4 소스/매체에서
perplexity.ai / referral,chatgpt.com / referral로 필터하거나 서버 로그에서 직접 집계한다. - 다크 트래픽 (Referrer 없음) — 왜: 앱 내 브라우저(in-app webview)·메시지 공유·no-referrer 정책 적용 시 Referer가 드롭된다. 어떻게: direct 트래픽 중 세션 시작 페이지가 심층 콘텐츠 URL이고 평균 세션 시간이 긴 코호트를 분리하여 AI 기인 추정치로 보정한다.
2025년까지의 공개 데이터 점검
절대 수치는 플랫폼이 공개하지 않으므로 간접 지표를 교차 검증한다.
- 크롤 빈도 급증 — Cloudflare Radar가 2024년 공개한 데이터에서 AI 봇(GPTBot·PerplexityBot·ClaudeBot 등)의 전체 크롤 요청 비중이 2023년 대비 수배 이상 증가한 것이 관측됐다. 크롤 증가는 색인 가능성 확대를 의미하며 인용 빈도 증가의 선행 지표다.
- Perplexity 레퍼러 부상 — 2024년 4분기부터 일부 미디어 퍼블리셔의 GA4 보고서에서
perplexity.ai레퍼러가 외부 레퍼러 상위권에 진입했다는 업계 보고가 복수 확인됐다. 정확한 수치는 사이트 카테고리(뉴스·헬스·기술)에 따라 편차가 크다. - ChatGPT Search 출시 효과 (2024-11) — 출시 직후
chatgpt.com레퍼러가 단기간에 Perplexity 수준으로 증가했다는 사례가 복수 관측됐다. 어떻게 확인: Search Console 외부 링크 리포트와 서버 로그 Referer를 월별 대조한다. - Google AI Overviews의 attribution 불투명성 — AI Overview가 표시된 SERP에서 클릭이 발생해도 Referer는
google.com으로 동일하여 GA4는 Organic Search로 합산한다. 분리 계측 방법은 아직 공식 API로 제공되지 않는다(2025년 기준).
플랫폼별 측정 신호 비교
| 플랫폼 | 크롤 UA 식별자 | 클릭 Referer | GA4 기본 채널 | Attribution 난이도 |
|---|---|---|---|---|
| Perplexity | PerplexityBot/1.0 | perplexity.ai (HTTPS→HTTPS 시 전송) | Referral / 기타 | 중간 |
| ChatGPT Search | GPTBot (색인), ChatGPT-User (실시간) | chatgpt.com | Referral / 기타 | 낮음 |
| Google AI Overviews | Googlebot (공용, 분리 불가) | google.com | Organic Search | 높음 |
| Claude.ai | ClaudeBot | claude.ai | Referral | 낮음 |
| Gemini (standalone) | Googlebot 공용 (robots.txt Google-Extended 토큰으로 AI 학습 제외 가능) | gemini.google.com | Referral | 낮음 |
측정 구현: Nginx 로그 기반 AI 트래픽 집계
GA4에 의존하지 않고 서버 로그에서 크롤과 인용 클릭을 직접 분리하는 Python 예시다.
import re
from collections import defaultdict
# 크롤 봇 UA 패턴 (색인 목적 요청)
AI_CRAWL_PATTERNS = [
r'PerplexityBot',
r'GPTBot',
r'ChatGPT-User', # 실시간 브라우징 (색인과 별도 집계)
r'ClaudeBot',
r'anthropic-ai',
]
# 인용 클릭 레퍼러 도메인
AI_REFERRER_DOMAINS = [
'perplexity.ai',
'chatgpt.com',
'claude.ai',
'gemini.google.com',
]
# Nginx combined 로그 포맷 파서
LOG_RE = re.compile(
r'(?P\S+) \S+ \S+ \[.*?\] "\S+ (?P\S+) \S+" '
r'(?P\d{3}) \d+ "(?P[^"]*)" "(?P[^"]*)"'
)
crawl_hits = defaultdict(int)
referral_clicks = defaultdict(int)
with open('/var/log/nginx/access.log', encoding='utf-8', errors='replace') as f:
for line in f:
m = LOG_RE.match(line)
if not m:
continue
ua = m.group('ua')
ref = m.group('referrer')
for pat in AI_CRAWL_PATTERNS:
if re.search(pat, ua, re.IGNORECASE):
crawl_hits[pat] += 1
break # UA당 중복 계수 방지
for domain in AI_REFERRER_DOMAINS:
if domain in ref:
referral_clicks[domain] += 1
break
print("=== AI 크롤 요청 (색인 봇) ===")
for k, v in sorted(crawl_hits.items(), key=lambda x: -x[1]):
print(f" {k:25s}: {v:,}회")
print("\n=== AI 레퍼러 클릭 (인용 유입) ===")
for k, v in sorted(referral_clicks.items(), key=lambda x: -x[1]):
print(f" {k:25s}: {v:,}회")
흔한 오해: "GA4 채널 리포트에 없으면 AI 트래픽도 없다"
GA4의 기본 채널 그룹은 AI 검색 레퍼러를 위한 별도 분류를 제공하지 않는다. perplexity.ai와 chatgpt.com 레퍼러는 Referral 채널에 묻히고, Google AI Overviews 클릭은 Organic Search에 합산된다. 결과적으로 Overview 대시보드만 보면 AI 트래픽은 사실상 보이지 않는다.
올바른 처리법: GA4 관리자 → 데이터 표시 → 채널 그룹 → 새 채널 그룹에서 소스 조건에 perplexity\.ai|chatgpt\.com|claude\.ai|gemini\.google\.com 정규식을 포함하는 "AI Search" 규칙을 추가한다. 이 채널 그룹은 설정 시점 이후 데이터부터만 적용되므로, 소급 계측이 필요하면 서버 로그 분석을 병행한다. 크롤 요청과 인용 클릭을 혼동하지 않기 위해 두 지표를 독립 열로 관리한다.
GPTBot과 ChatGPT-User는 어떻게 다르며, robots.txt 차단 범위는 각각 어떻게 되는가?
GPTBot은 OpenAI가 문서 색인(학습 데이터 수집)에 사용하는 UA로 주기적으로 전체 페이지를 요청한다. ChatGPT-User는 사용자가 ChatGPT 브라우징 기능을 활성화했을 때 특정 URL을 실시간으로 조회하는 UA다. robots.txt에서 GPTBot을 차단해도 ChatGPT-User는 별도 설정이 필요하다. 또한 GPTBot 차단이 ChatGPT Search 인용 여부에 직접 영향을 준다는 공식 확인은 없으므로, 차단 결정 전에 두 신호를 최소 2주 이상 독립 집계하여 실규모를 확인한 뒤 결정하는 것이 권장된다.
AI 검색 트래픽을 기존 SEO KPI와 통합해야 하는가, 별도 지표로 관리해야 하는가?
현재는 별도 지표로 운영하는 것이 권장된다. AI 검색 트래픽은 Search Console에 쿼리 키워드가 노출되지 않고, 인용 선택 메커니즘(RAG 재순위화)이 기존 랭킹 알고리즘과 다르다. KPI를 혼용하면 SEO 랭킹 개선 효과와 AI 인용 증가 효과를 분리 평가하기 어려워진다. AI 레퍼러 클릭 수, 크롤 요청 빈도, 수동 모니터링으로 확인한 인용 등장 횟수를 독립 지표로 운영하고, 기여도 분석 단계에서 기존 SEO 지표와 교차 분석하는 구조를 권장한다.
참고 자료
이 글의 권고는 아래 공식 문서·연구를 근거로 합니다.