특정 경쟁사가 동일 카테고리 쿼리에 반복적으로 AI 답변에 등장하는 현상은 콘텐츠 품질 우위만으로 설명되지 않는다. ChatGPT Search·Perplexity·Google AI Overviews가 인용 출처를 결정하는 기저 메커니즘은 RAG(Retrieval-Augmented Generation) 파이프라인으로, 벡터 인덱스에서 관련 청크를 검색하고 LLM이 인용 가치를 판단해 답변을 생성한다. 이 경쟁에서 뒤처진 사이트는 크롤러 접근성, 구조화 데이터 밀도, 콘텐츠 사실 밀도 세 축에서 체계적으로 뒤처져 있을 가능성이 높다. 이 글은 경쟁사의 인용 신호를 역공학하고 단계적으로 AI 검색 점유를 되찾는 기술 구현 절차를 다룬다.
1. AI 답변 엔진이 인용 출처를 선택하는 방식
RAG 파이프라인에서 인용 출처 선택은 크롤러 접근성(retrieval eligibility)과 인용 가치 판단(citation scoring) 두 단계로 나뉜다. 두 단계 중 하나라도 막히면 경쟁사 대비 등장 빈도에서 구조적으로 불리해진다.
1-1. 크롤러 접근성
- GPTBot / PerplexityBot 허용 여부: robots.txt에서 이 두 UA가 차단되면 해당 엔진의 인덱스에 아예 진입하지 못한다. 경쟁사가 허용 상태면 콘텐츠 품질과 무관하게 등장 기회 자체가 0이 된다.
User-agent: GPTBot과Allow: /를 robots.txt에 명시하고, curl로 직접 확인해야 한다. - Common Crawl 포함 여부: Perplexity 일부 모델과 Claude의 사전학습은 CC-Main 데이터에 의존한다. CC 크롤링 주기(월 1~2회)에서 제외되면 실시간 색인과 별개로 사전학습 가중치 자체에서 불리하다. CCBot 차단 여부를 점검하고, 오래된 콘텐츠의 경우 sitemap 우선순위를 높여 재크롤을 유도한다.
- 정적 HTML 제공 여부: AI 크롤러는 JS 렌더링을 생략하거나 최소화한다. SPA 렌더링 의존 페이지는 청크 추출 품질이 낮아 인용 후보군에서 탈락한다. 핵심 콘텐츠는 SSR/SSG로 HTML에 정적으로 포함해야 한다.
1-2. 인용 가치 판단
- 사실 밀도(factual density): LLM은 수치, 정의, 절차, 고유명사가 단위 문장당 많은 콘텐츠를 선호한다. 답변 생성 시 출처 청크가 질문에 대한 직접 근거로 기능해야 하기 때문이다. "~할 수 있습니다" 같은 일반론 문장을 "2024년 기준 CTR 개선 사례에서 평균 23% 상승" 같은 수치 기반 문장으로 교체한다.
- 구조화 데이터 신호: JSON-LD
FAQPage·HowTo·Article스키마는 청크 경계를 명확히 하고 답변 엔진이 구조를 파악하는 비용을 줄인다. 비구조화 텍스트보다 명확한 Q-A 쌍이 RAG 검색 정확도를 높이므로 각 글에FAQPage최소 3쌍을 삽입한다.
2. 경쟁사 인용 신호 역공학
경쟁사가 동일 쿼리에서 반복 인용되고 있다면, 해당 페이지의 기술 레이어를 분해해 어느 신호가 결정적인지 파악해야 한다.
- robots.txt 비교: 경쟁사가 GPTBot·PerplexityBot·ClaudeBot·Anthropic-AI를 허용하는지 확인한다. 허용/차단 패턴만으로 크롤 접근성 격차를 수초 내에 진단할 수 있다.
curl -s https://competitor.com/robots.txt | grep -iE "gptbot|perplexitybot|claudebot|anthropic"로 즉시 비교 가능하다. - JSON-LD 구조화 데이터 추출: 경쟁사가 어떤 스키마 타입을 사용하는지 파악해 같은 혹은 더 상세한 스키마를 구현한다.
curl -s URL | python3 -c "import sys,re,json; [print(json.dumps(json.loads(s),indent=2)) for s in re.findall(r'<script[^>]+application/ld\+json[^>]*>(.*?)</script>', sys.stdin.read(), re.DOTALL)]"로 추출한다. - llms.txt 유무 확인: llms.txt가 없는 사이트는 AI 크롤러에게 콘텐츠 맵을 제공하지 않아 중요 페이지가 누락될 수 있다.
curl -s https://competitor.com/llms.txt로 존재 여부와 구조를 직접 확인한다. - 콘텐츠 사실 밀도 측정: 수치/고유명사/정의 비율이 낮으면 LLM이 인용 청크로 선택할 확률이 떨어진다. 페이지 텍스트를 추출한 후 숫자 토큰 밀도(
re.findall(r'\d+\.?\d*', text))를 경쟁사와 정량 비교한다.
3. 인용 신호 강화 구현
3-1. llms.txt 구현
llms.txt는 AI 크롤러에게 사이트 구조와 콘텐츠 맵을 제공하는 마크다운 규격 파일이다(llmstxt.org 표준안). 경쟁사 대비 더 상세한 계층 구조를 제공하면 중요 페이지의 인덱스 진입 확률이 높아진다.
# Citeon — AI Marketing Agency
> Citeon은 AEO·GEO·SEO 통합 마케팅 대행사로, AI 검색 가시성 진단·개선을 전문으로 한다.
## 서비스 문서
- [AI 검색 가시성 진단 방법론](https://citeon.io/docs/ai-visibility-audit): 크롤러 접근성·구조화 데이터·콘텐츠 밀도 3축 진단 절차
- [GEO 구현 가이드](https://citeon.io/docs/geo-implementation): JSON-LD·llms.txt·사실 밀도 강화 단계별 구현
- [AI 검색 가시성 측정 도구 비교](https://citeon.io/docs/tool-comparison): Profound·Semrush AI 도구별 정확도 분석
## 케이스스터디
- [SEO 93점·AI 검색 54점 격차 분석](https://citeon.io/case/seo-93-ai-54): GPTBot 차단·JSON-LD 부재가 39점 격차를 만든 원인과 수정 절차
- [AI 검색 8점 브랜드의 개선 로드맵](https://citeon.io/case/ai-score-8-recovery): 6주간 단계별 구현과 점수 변화 추적
## Optional: 전문 용어 정의
- AEO (Answer Engine Optimization): AI 답변 엔진에서 브랜드·콘텐츠가 인용되도록 최적화하는 기술 방법론
- GEO (Generative Engine Optimization): LLM 생성 콘텐츠에서 특정 출처가 선택되도록 신호를 강화하는 접근법
3-2. FAQPage JSON-LD 구현
경쟁사가 인용되는 페이지와 동일 쿼리를 커버하는 페이지에 FAQPage 스키마를 추가해 RAG 청크 품질을 높인다. Q-A 쌍은 실제 사용자 쿼리 패턴을 반영해야 한다.
{
"@context": "https://schema.org",
"@type": "FAQPage",
"mainEntity": [
{
"@type": "Question",
"name": "AI 검색에서 경쟁사만 답변에 나오는 이유는?",
"acceptedAnswer": {
"@type": "Answer",
"text": "AI 답변 엔진(ChatGPT Search, Perplexity)은 RAG 파이프라인으로 인용 출처를 선택한다. GPTBot·PerplexityBot 크롤러 허용 여부, JSON-LD 구조화 데이터 유무, 콘텐츠 사실 밀도(수치·정의 밀도)가 핵심 결정 요인이다. 경쟁사가 이 세 가지를 모두 갖추고 있다면 콘텐츠 품질과 무관하게 인용 빈도에서 우위를 점한다."
}
},
{
"@type": "Question",
"name": "llms.txt가 없으면 AI 검색 가시성에 어떤 영향이 있나?",
"acceptedAnswer": {
"@type": "Answer",
"text": "llms.txt가 없어도 AI 크롤러는 sitemap.xml과 직접 크롤링으로 콘텐츠를 수집한다. 그러나 llms.txt는 콘텐츠 계층과 중요도를 명시적으로 전달해 핵심 페이지의 인덱스 진입 확률을 높인다. 특히 페이지가 많은 사이트에서 중요 문서가 희석되는 문제를 방지하는 효과가 있다(사례에 따라 다름)."
}
}
]
}
4. 측정 및 검증 체계
AI 검색 가시성 개선은 전통 SEO 지표(Google Search Console 노출수)와 별도로 추적해야 한다. AI 인용은 클릭으로 연결되지 않을 수 있어 직접 측정 도구와 서버 로그 분석을 병행해야 한다.
| 측정 대상 | 전통 SEO | AEO/GEO | 도구 예시 |
|---|---|---|---|
| 노출 신호 | Google Search Console 노출수 | AI 답변 내 브랜드/URL 등장 횟수 | Profound, BrandMentions |
| 클릭 트래픽 | GSC 클릭수, GA 유기 세션 | AI 리퍼러 직접 트래픽 (추정) | GA4 소스/매체 분석 |
| 경쟁사 비교 | 순위 트래커 (Semrush, Ahrefs) | 동일 쿼리 AI 인용 점유율 | Semrush AI Toolkit, Profound |
| 색인 신호 | GSC 색인 커버리지 | GPTBot 크롤 로그 직접 확인 | 서버 access.log grep |
| 구조화 데이터 | Google Rich Results Test | JSON-LD 파싱 정확도 검증 | schema.org validator |
GPTBot 크롤 로그는 Nginx/Caddy 액세스 로그에서 직접 추출할 수 있다. 어느 페이지가 실제로 수집되는지 확인하는 가장 신뢰도 높은 방법이다.
# AI 크롤러 방문 URL 상위 20개 추출
grep -E "(GPTBot|PerplexityBot|ClaudeBot|anthropic-ai)" /var/log/nginx/access.log \
| awk '{print $7}' \
| sort | uniq -c | sort -rn | head -20
# GPTBot 방문 일별 빈도 집계
grep "GPTBot" /var/log/nginx/access.log \
| awk '{print substr($4,2,11)}' \
| sort | uniq -c
흔한 오해: "경쟁사 콘텐츠가 더 좋아서 AI가 선택한다"
가장 자주 보이는 오해는 AI 인용 독점을 콘텐츠 품질 우위로만 해석하는 것이다. 실제로는 기술 접근성 격차가 먼저 작동한다. GPTBot이 차단된 사이트는 콘텐츠 품질과 무관하게 ChatGPT Search 인용 후보에 진입하지 못한다. JSON-LD가 없는 사이트는 비구조화 텍스트만 제공해 RAG 파이프라인에서 사실 밀도 낮은 사이트로 평가받는다.
올바른 진단 순서: (1) 크롤러 접근성 점검 → (2) 구조화 데이터 유무 점검 → (3) 콘텐츠 사실 밀도 측정 → (4) 경쟁사 대비 비교. 이 순서를 역전해 "콘텐츠를 더 잘 써야 한다"는 결론부터 내리면 기술 레이어 문제를 놓치고 수개월을 낭비한다. 기술 레이어를 먼저 정비한 뒤 콘텐츠 밀도를 높이는 것이 실무에서 가장 빠른 회복 경로다.
Q. 경쟁사가 llms.txt를 갖고 있는데 우리는 없다. 즉시 만들면 효과가 얼마나 빠르게 나타나나?
llms.txt 자체는 색인 트리거가 아니라 크롤러에게 콘텐츠 맵을 제공하는 수단이다. AI 크롤러가 llms.txt를 읽고 나열된 URL을 실제로 크롤한 뒤 인덱스에 반영되기까지의 시간은 도구마다 다르다. Perplexity는 크롤 주기가 빠른 편(수일~수주)이고, ChatGPT Search의 GPTBot은 공식 크롤 빈도를 공개하지 않는다(추정 수주~수개월). llms.txt 구현 후 서버 로그에서 /llms.txt 경로에 대한 AI 크롤러 방문이 확인되면, 이후 나열된 URL로 크롤이 이어지는지를 추적하는 것이 가장 직접적인 검증 방법이다.
Q. 동일한 JSON-LD 스키마를 구현했는데도 AI 답변에서 여전히 경쟁사만 나온다. 다음 확인 포인트는?
JSON-LD 스키마 구현 이후에도 격차가 지속된다면 세 가지를 순서대로 확인해야 한다. (1) 콘텐츠 사실 밀도 — 수치·고유명사·정의 밀도가 경쟁사 대비 낮은지 정량 비교한다. (2) 토픽 커버리지 — 해당 쿼리 주제를 단일 페이지에서 충분한 깊이로 다루는지 확인한다. 피상적으로 언급만 하는 페이지보다 주제를 완결적으로 다루는 페이지가 인용 후보로 선택될 확률이 높다. (3) 외부 인용 가중치 — 경쟁사 페이지가 외부 사이트에서 더 많이 인용·링크되어 AI 사전학습 데이터에서도 높은 가중치를 받을 수 있다. 세 번째 요인은 단기간에 바꾸기 어렵고, 첫 번째·두 번째는 즉시 수정 가능한 레이어다.
참고 자료
이 글의 권고는 아래 공식 문서·연구를 근거로 합니다.