무료 AI 가시성 진단, 어디까지 믿을 수 있나

ChatGPT Search, Perplexity, Google AI Overviews가 검색 트래픽 경로에 실질적으로 편입되면서 "우리 사이트가 AI에 얼마나 인용되는가"를 수치화하려는 수요가 생겼다. 그 수요를 겨냥한 무료 AI 가시성 진단 도구들이 급증했지만, 도구마다 측정 방법론·샘플 쿼리 수·업데이트 주기가 달라 같은 사이트를 두고도 수치가 크게 엇갈린다. 이 글은 무료 진단 도구가 어떤 기술 계층을 어떻게 측정하는지, 어느 수치를 신뢰할 수 있고 어느 수치는 직접 검증해야 하는지를 엔지니어링 관점에서 분해한다.

무료 진단 도구의 기술 구조: 두 가지 측정 방식

현재 시장의 무료 AI 가시성 도구(Otterly.ai 무료 티어, Profound 기본 플랜, Semrush AI Toolkit 체험판 등)는 두 가지 방식을 혼합한다.

프롬프트 샘플링 방식

작동 원리: 사전 정의된 10~200개 쿼리를 LLM API에 전송한 뒤 응답 텍스트에서 도메인·브랜드명 출현을 파싱한다. — 왜: LLM이 실제 답변에서 언급하는지 여부가 인용 가시성의 직접 신호이기 때문. — 어떻게 확인: 동일 쿼리를 5회 이상 반복해 출현 비율의 분산을 구하면 도구 수치의 신뢰 구간을 추정할 수 있다.
근본 한계: LLM은 temperature 설정·컨텍스트 상태에 따라 동일 프롬프트에서도 다른 응답을 생성한다. 무료 플랜의 샘플 쿼리 수가 적을수록 측정값 분산이 커지고, 특정 롱테일 쿼리에서의 인용은 아예 포착되지 않는다.

크롤 기반 신호 방식

작동 원리: robots.txt 내 LLM 봇 허용 여부, /llms.txt 존재 여부, JSON-LD 구조화 데이터 유형을 크롤러가 파싱해 점수화한다. — 왜: 크롤러 접근성은 AI 인덱싱의 선결 조건으로, 이 신호가 차단되면 인용 자체가 불가능하기 때문.
신뢰도: 이 신호들은 결정론적(deterministic)이므로 도구 간 편차가 거의 없다. 무료 도구 수치 중 이 부분은 신뢰도가 높다.

신호 유형별 신뢰도 비교

신호 유형	측정 방법	변동성	무료 도구 신뢰도	직접 검증 수단
크롤러 접근성 (robots.txt)	파일 파싱	없음	높음	`curl https://example.com/robots.txt`
llms.txt 존재·형식	HTTP GET	없음	높음	`curl https://example.com/llms.txt`
JSON-LD 구조화 데이터	DOM 파싱	없음	높음	Google Rich Results Test
AI 인용 빈도 (샘플링)	LLM API 쿼리 반복	높음	낮음	수동 쿼리 5회 이상 평균
브랜드 언급 점유율	NLP 텍스트 분석	중간	중간	복수 모델 교차 쿼리

직접 제어·검증 가능한 신호 구현

크롤러 접근성과 llms.txt는 코드 레벨에서 직접 제어할 수 있다. 아래는 주요 LLM 크롤러를 허용하고 llms.txt를 최소 구성하는 실제 적용 예시다.

# /robots.txt — LLM 크롤러 허용 (2025년 기준 주요 봇)
User-agent: GPTBot          # OpenAI ChatGPT Search / browsing
Allow: /

User-agent: ClaudeBot       # Anthropic Claude
Allow: /

User-agent: PerplexityBot   # Perplexity AI (실시간 RAG)
Allow: /

User-agent: Google-Extended # Google Gemini 학습 / AI Overviews
Allow: /

User-agent: Applebot-Extended  # Apple Intelligence
Allow: /

# 민감 경로는 모든 봇 차단
User-agent: *
Disallow: /admin/
Disallow: /api/
Disallow: /user/

# /llms.txt — LLM 컨텍스트 힌트 파일 (llmstxt.org 초안 스펙 준거)
# 표준화 미완료 상태 — 현재 Perplexity가 참조를 공식 확인한 유일한 엔진

# Site
> Citeon: AI 마케팅 인텔리전스 플랫폼. GEO·AEO 성과 측정 및 콘텐츠 최적화 전문.

## 핵심 서비스 페이지
- [GEO 진단 서비스](/geo-audit): AI 인용 현황 분석 및 기술 점검
- [AEO 콘텐츠 구조화](/aeo): FAQPage·HowTo JSON-LD 최적화
- [기술 블로그](/blog): GEO·SEO 구현 가이드 (월 4회 발행)

## Optional: 상세 문서 (토큰 제한 없는 LLM 참조용)
- [전체 서비스 문서](/llms-full.txt)

흔한 오해: AI 인용 점수를 단기 KPI로 삼으면 안 되는 이유

무료 진단 도구가 제공하는 "AI 가시성 점수"를 SEO의 순위 지표처럼 주간 목표로 설정하는 경우가 있다. 이는 측정 대상의 성격을 오해한 것이다.

오해 1: 인용 점수가 오르면 트래픽이 증가한다. — 실제: Perplexity는 응답에 출처 링크를 포함하지만, ChatGPT 기본 모드(웹 검색 비활성화 상태)는 URL을 반환하지 않는다. LLM 내 언급(mention)과 클릭 전환은 플랫폼마다 연결 경로가 다르다.
오해 2: 무료 도구 인용 점수 0 = AI에 전혀 노출되지 않는다. — 실제: 무료 플랜의 샘플 쿼리 풀이 좁으면 커버되지 않는 롱테일 쿼리에서 충분히 인용될 수 있다. 점수 0은 "측정 범위 내 미인용"이지 "AI 전체에서 미인용"과 다르다.

올바른 접근: AI 인용 빈도 수치는 절대값이 아닌 상대적 트렌드(월별 방향성)와 동종 경쟁사 대비 점유율 변화로만 해석한다. 결정론적 신호(robots.txt 봇 허용률·llms.txt 유무·JSON-LD 커버리지)는 0/1 또는 비율로 절대 KPI화해도 무방하다.

기술 FAQ

무료 도구 수치와 유료 도구 수치가 크게 다른 근본 이유는 무엇인가요?

핵심 원인은 쿼리 샘플 크기와 모델 커버리지 차이다. 무료 플랜은 통상 GPT-4o 단일 모델에 50개 미만 쿼리를 사용하지만, 유료 플랜은 GPT-4o·Claude·Gemini·Perplexity·Bing Copilot을 병렬로 쿼리하고 카테고리별로 수백~수천 개의 쿼리를 운영한다. LLM 인용은 모델마다 학습 데이터와 실시간 검색 연동 여부가 달라서 단일 모델 기준의 수치는 편향이 크다. 또한 유료 도구는 측정 주기를 일별로 유지해 트렌드 연속성이 보장되지만, 무료 도구는 주별·월별 스냅샷에 그치는 경우가 많아 단기 변화를 포착하지 못한다.

robots.txt에서 LLM 봇을 허용해도 AI 인용이 즉시 반영되지 않는 이유는?

robots.txt 수정은 크롤러 접근을 허용할 뿐이며, 실제 인용 반영까지는 두 단계 지연이 있다. 첫째, LLM 봇이 변경된 robots.txt를 재확인하고 페이지를 크롤링하는 데 수일~수 주가 걸린다. 봇마다 크롤 주기가 다르며 공개된 기준이 없다. 둘째, ChatGPT처럼 학습 데이터 기반으로 작동하는 모델은 크롤된 콘텐츠가 다음 학습 사이클에 포함되기 전까지 반영되지 않는다. Perplexity처럼 실시간 RAG를 사용하는 모델은 크롤 완료 후 비교적 빠르게 반영된다. 즉각 가시성을 높이려면 PerplexityBot 허용과 Bing Webmaster Tools 인덱싱 요청(Copilot 연동)을 병행하는 것이 현실적이다.

참고 자료

이 글의 권고는 아래 공식 문서·연구를 근거로 합니다.