AI 검색 엔진(ChatGPT Search, Perplexity, Google AI Overviews)이 답변을 생성할 때 인용 후보를 결정하는 핵심 요인은 크롤러가 수집한 텍스트의 언어·지역 적합성과 구조화 신호다. 전통 SEO에서 hreflang을 올바르게 구현하면 Googlebot이 언어별 대체 페이지를 인식했지만, LLM 기반 답변 엔진은 이 태그를 직접 파싱하지 않는다. GPTBot·ClaudeBot·PerplexityBot은 HTTP 헤더와 HTML 메타태그보다 콘텐츠 자체의 언어 신호와 JSON-LD 구조체를 우선 참조한다. 따라서 글로벌 시장 진출 브랜드는 전통 SEO hreflang 레이어와 별개로, AI 크롤러를 위한 다국어 구조화 데이터 레이어를 독립적으로 구축해야 한다.
AI 크롤러의 다국어 콘텐츠 처리 메커니즘
GPTBot·ClaudeBot·PerplexityBot은 각각 독립적인 크롤링 정책과 색인 우선순위를 갖는다. 공통적으로 다음 세 가지 신호로 언어·지역 적합성을 판단한다.
- Content-Language HTTP 헤더 — 왜: LLM 훈련 파이프라인과 실시간 검색 인덱서가 문서 언어를 1차 분류에 활용하기 때문. 어떻게: 응답 헤더에
Content-Language: ko-KR또는en-US형태로 명시한다. - HTML lang 속성 — 왜: 크롤러가 DOM 파싱 단계에서 언어를 감지하는 가장 빠른 경로이기 때문. 어떻게:
<html lang="ko-KR">처럼 BCP-47 형식 지역 코드를 반드시 포함한다. - JSON-LD inLanguage 프로퍼티 — 왜: AI 크롤러가 구조화 데이터를 파싱할 때
inLanguage를 명시적 언어 신호로 활용하기 때문. 어떻게:Article·Product·Organization스키마에 해당 프로퍼티와workTranslation으로 언어 관계를 선언한다.
다국어 JSON-LD 스키마와 llms.txt 구현
다국어 Article 스키마 예시
영어·한국어를 병행 서비스하는 콘텐츠 페이지에 아래 구조를 삽입하면 AI 크롤러가 언어별 콘텐츠를 명시적으로 식별한다.
{
"@context": "https://schema.org",
"@type": "Article",
"headline": "Global AI Search Strategy for Expanding Brands",
"inLanguage": "en",
"url": "https://example.com/en/blog/global-ai-search",
"author": {
"@type": "Organization",
"name": "Citeon",
"url": "https://citeon.co.kr"
},
"publisher": {
"@type": "Organization",
"name": "Citeon",
"sameAs": [
"https://citeon.co.kr",
"https://citeon.co.kr/en"
]
},
"workTranslation": {
"@type": "Article",
"headline": "해외 진출 브랜드의 글로벌 AI 검색 전략",
"inLanguage": "ko",
"url": "https://example.com/ko/blog/global-ai-search"
}
}
루트 llms.txt 다국어 분기 전략
llms.txt(llmstxt.org 제안 스펙)는 AI 크롤러에게 콘텐츠 요약과 허용 범위를 안내한다. 언어별 파일 분기는 표준화되지 않았으므로(2026년 6월 기준), 루트 단일 파일에 다국어 URL 섹션을 명시하는 방식이 현재 가장 안전하다.
# /llms.txt
# Citeon — AI Marketing Agency (AEO/GEO/SEO)
## About
Citeon provides AEO, GEO, and SEO consulting for Korean and global brands.
## Content
- [Technical Blog (EN)](https://example.com/en/blog): AEO, GEO, SEO implementation guides
- [기술 블로그 (KO)](https://example.com/ko/blog): AEO·GEO·SEO 구현 가이드 (한국어)
- [技術ブログ (JA)](https://example.com/ja/blog): AEO/GEO/SEO 実装ガイド
## Languages
Primary: en, ko
Secondary: ja, de
## Crawling Policy
Allow: GPTBot, ClaudeBot, PerplexityBot, Googlebot, bingbot
Disallow: /admin, /internal, /draft
지역별 AI 검색 엔진 특성 비교
| AI 검색 엔진 | 크롤러 식별자 | 주요 색인 신호 | 언어 처리 특이사항 | 추가 등록 필요 |
|---|---|---|---|---|
| ChatGPT Search | GPTBot, OAI-SearchBot | JSON-LD, 본문 밀도 | hreflang 미참조, 영어 인용 편향(추정) | robots.txt 허용 |
| Perplexity | PerplexityBot | 출처 신뢰도, 구조화 데이터 | 언어 자동 감지, 다국어 지원 | robots.txt 허용 |
| Google AI Overviews | Googlebot | hreflang, E-E-A-T, JSON-LD | hreflang 완전 참조, 지역 맞춤 인용 | Search Console 국제 타겟팅 |
| Bing Copilot | bingbot, BingPreview | Open Graph, JSON-LD | 영어 우세, 다국어 인식 보통 | IndexNow 프로토콜 권장 |
| Naver AI (클로바X) | Yeti | 네이버 구조화 데이터 | 한국어 전용, hreflang 미참조 | 서치어드바이저 sitemap 등록 |
글로벌 AI 인용 추적과 검증
AI 검색에서 브랜드 인용 여부를 측정하는 직접 API는 현재 없다. 실무에서 사용하는 대리 지표와 측정 방법은 다음과 같다.
- AI 크롤러 로그 분석 — 왜: GPTBot·ClaudeBot이 특정 URL을 실제로 수집하는지 확인해야 인용 가능성을 추론할 수 있기 때문. 어떻게: Nginx·Caddy 접근 로그에서
User-Agent를 파싱해 AI 봇 방문 빈도와 URL 패턴을 주별로 집계한다. - 다국어 쿼리 기반 인용 샘플링 — 왜: 언어별 ChatGPT·Perplexity 응답에서 자사 도메인이 실제로 인용되는지 확인하는 유일한 직접 방법이기 때문. 어떻게: 타깃 시장 언어(영어·일본어·독일어)로 브랜드 관련 쿼리 20개 이상을 격주로 실행해 인용 URL과 언어 분포를 수동 집계한다.
- Search Console 국가별 AI Overviews 필터 — 왜: Google AIO 인용은 Search Console에서 국가별 노출 수를 부분 확인할 수 있는 유일한 공식 경로이기 때문. 어떻게: 검색 실적 → 검색 유형: AI Overviews → 국가별 세분화로 언어 시장별 노출 추이를 추적한다.
- GA4 referrer 기반 AI 트래픽 식별 — 왜: Perplexity·ChatGPT Search는 referrer 헤더를 전송하는 경우가 있어 AI 유입 트래픽의 국가·언어 분포를 간접 측정할 수 있기 때문. 어떻게: GA4에서
perplexity.ai·chat.openai.com을 출처로 필터링한 후 국가 차원을 추가해 언어 시장별 수치를 확인한다.
흔한 오해와 올바른 처리법
오해: "hreflang만 올바르게 설정하면 AI 검색에서도 언어별 콘텐츠가 자동으로 인용된다."
hreflang은 Googlebot이 언어·지역 대체 URL을 연결하는 신호이며, Google AI Overviews에는 간접적으로 영향을 미친다. 그러나 GPTBot·ClaudeBot·PerplexityBot은 hreflang을 크롤링 우선순위나 인용 결정에 활용하지 않는다. 이 봇들은 각 URL을 독립 문서로 처리하며, 언어 적합성을 콘텐츠 텍스트와 inLanguage JSON-LD 프로퍼티에서 직접 판단한다.
올바른 처리법: hreflang 구현은 Google AIO를 위해 유지하되, 각 언어 버전 페이지에 독립적인 JSON-LD 블록을 삽입해 inLanguage와 workTranslation으로 언어 관계를 명시한다. 아울러 robots.txt에서 AI 크롤러별 언어 URL 경로(/en/, /ko/, /ja/)를 명시적으로 허용해야 한다.
영어 llms.txt 하나로 충분한가, 언어별 별도 파일이 필요한가?
llms.txt 스펙(llmstxt.org)은 루트의 단일 파일을 기본으로 정의하며, 다국어 분기 방식은 표준화되지 않았다(2026년 6월 기준). 현재 실무에서 유효성이 검증된 방식은 루트 /llms.txt에 언어별 콘텐츠 URL을 섹션으로 열거하는 단일 파일 접근이다. /en/llms.txt·/ko/llms.txt처럼 언어 경로 하위에 파일을 배치하는 방식은 AI 크롤러가 자동 탐색한다는 근거가 없으므로, 루트 단일 파일에 다국어 URL을 명시하는 방식이 현재로서는 가장 안전하다.
네이버 클로바X·바이두 어니봇 같은 지역 특화 AI는 어떻게 별도 대응해야 하나?
네이버 AI(클로바X 연동 검색)는 네이버 서치어드바이저를 통한 sitemap 제출과 네이버 구조화 데이터를 우선 참조한다. robots.txt에 User-agent: Yeti 섹션을 추가하고 한국어 콘텐츠 경로를 명시적으로 허용해야 한다. 바이두 어니봇(文心一言 연동)은 User-agent: Baiduspider와 User-agent: Baiduspider-render를 허용하고, 바이두 웹마스터 도구에 sitemap을 별도 등록해야 한다. 두 엔진 모두 글로벌 AI 봇과 독립적인 크롤링 인프라를 운영하므로, robots.txt와 sitemap을 엔진별·언어별로 분리해 관리하는 것이 필수다.
참고 자료
이 글의 권고는 아래 공식 문서·연구를 근거로 합니다.