ChatGPT가 특정 브랜드를 언급하는 경로는 두 가지다. 첫째, GPTBot이 크롤링해 사전학습 코퍼스에 브랜드 관련 문서를 축적하는 경로, 둘째, ChatGPT Plus·Enterprise의 실시간 브라우징이 Bing Search API를 백엔드로 사용해 쿼리 시점 검색 결과를 인용하는 경로다. 두 경로는 독립적이며 각각 다른 최적화 신호를 요구한다. "ChatGPT에 우리 브랜드가 나오게 하려면"이라는 질문의 기술적 답은, 크롤러 접근 허용 + 엔티티 명확화 + 인용 가능한 콘텐츠 구조 + 제3자 언급 확보 네 가지의 조합이다.
ChatGPT의 두 가지 인용 경로
- 사전학습(Training corpus): GPTBot이 크롤링한 페이지가 모델 파라미터에 인코딩된다. 직접 URL 인용이 아니라 "브랜드의 속성·카테고리·평판"으로 표현되며, 학습 컷오프 이후 콘텐츠는 반영되지 않는다. 왜 — 파라미터 인코딩은 언급 빈도와 문맥 일관성에 비례한다. 어떻게 — 자사 블로그뿐 아니라 업계 미디어·비교 리뷰·포럼에서 브랜드가 특정 카테고리와 함께 등장하는 횟수를 늘려야 한다.
- 실시간 브라우징(Bing 연동):
browse_with_bing툴이 활성화되면 Bing 검색 결과를 실시간으로 가져온다. 왜 — 이 경로는 PageRank 계열 신호와 freshness가 직접 영향을 미친다. 어떻게 — Bing Webmaster Tools에서 IndexNow API로 URL을 즉시 제출하고, Crawl Status에서 indexed 비율을 모니터링한다.
| 구분 | SEO | AEO | GEO (ChatGPT 특화) |
|---|---|---|---|
| 목표 | 검색 결과 상위 노출 | Featured Snippet·PAA 점령 | LLM 답변 내 브랜드 인용 |
| 핵심 신호 | PageRank, Core Web Vitals | 구조화 데이터, 직접 답변 포맷 | 엔티티 일관성, 제3자 언급, BLUF 구조 |
| 주요 크롤러 | Googlebot | Googlebot + Bingbot | GPTBot + ChatGPT-User + Bingbot |
| 검증 도구 | Search Console, Lighthouse | Rich Results Test | ChatGPT 직접 프롬프팅, 서버 로그 |
| 주요 마크업 | canonical, hreflang | FAQPage, HowTo, Speakable | Organization sameAs, llms.txt |
JSON-LD 엔티티 선언 — LLM이 브랜드를 "알아보게"
LLM은 브랜드를 subject-predicate-object 트리플로 인식한다. "A라는 브랜드가 B 카테고리에서 C 특성을 가진다"는 구조가 Schema.org JSON-LD, Wikidata 엔티티, 다수 제3자 문서에서 일관될수록 인용 가중치가 높아진다.
<script type="application/ld+json">
{
"@context": "https://schema.org",
"@type": "Organization",
"name": "Citeon",
"url": "https://citeon.co.kr",
"description": "AI 기반 SEO·AEO·GEO 통합 마케팅 대행사",
"foundingDate": "2023",
"areaServed": "KR",
"sameAs": [
"https://www.wikidata.org/wiki/Q12345678",
"https://www.linkedin.com/company/citeon",
"https://namu.wiki/w/Citeon"
],
"knowsAbout": [
"Answer Engine Optimization",
"Generative Engine Optimization",
"Search Engine Optimization"
]
}
</script>
- sameAs 배열: 왜 — LLM이 동일 엔티티를 여러 소스에서 교차 확인해 신뢰도를 산정한다. 어떻게 — Wikidata QID, LinkedIn 기업 URL을 최소한으로 포함하고, 국내는 나무위키 URL을 추가한다.
- knowsAbout: 왜 — 브랜드가 다루는 주제 도메인을 기계가 파싱할 수 있게 한다. 어떻게 — 핵심 서비스 키워드를 Schema.org 권장 문자열로 나열하되, 3~5개로 제한해 노이즈를 줄인다.
- description 필드: 왜 — OG description과 달리 Schema.org description은 크롤러가 엔티티 요약으로 직접 사용한다. 어떻게 — 브랜드 카테고리 + 핵심 가치 제안을 1~2문장으로 압축하고, 경쟁사와 구별되는 수식어를 포함한다.
인용 가능한 콘텐츠 구조 설계
ChatGPT는 답변 생성 시 "질문에 직접 답하는 단락"을 우선 인용한다. 이를 BLUF(Bottom Line Up Front) 구조라 부르며, 뉴스 역피라미드 작성법과 동일한 원리다.
- H2 아래 첫 문장에 정의문 배치: 왜 — LLM이 섹션 헤딩과 첫 문장을 청크(chunk) 단위로 인덱싱하기 때문이다. 어떻게 — "X는 Y이다" 형태의 단언문으로 시작하고, 후속 문장에서 근거를 제시한다.
- FAQPage 구조화 데이터: 왜 — Q-A 쌍이 명시되면 크롤러가 구조적으로 추출해 학습 데이터에 활용한다. 어떻게 — People Also Ask 기반 실제 사용자 질문을 사용하고, 답변은 2~4문장으로 제한한다.
- 수치·날짜·출처 명시: 왜 — LLM은 인용할 때 검증 가능한 사실을 우선시한다. 어떻게 — 통계는 원본 출처 URL을 인라인 링크로 연결하고, 날짜는
<time datetime="YYYY-MM-DD">로 마크업한다. - 비교 표 포함: 왜 — 표 형태 정보는 LLM이 구조적 사실로 처리해 답변에 그대로 인용하는 경향이 높다. 어떻게 — 경쟁사·기능·가격 비교를
<table>로 마크업하고, 각 행의 의미가 헤더만으로 파악되게 한다.
llms.txt — AI 크롤러에 명시적 가이드 제공
llms.txt는 2024년 제안된 비공식 표준으로, 사이트 루트에 두어 LLM 크롤러에게 어느 페이지를 우선 읽어야 하는지를 알린다. robots.txt가 허용·차단을 다루는 반면, llms.txt는 콘텐츠 우선순위와 브랜드 컨텍스트를 제공한다.
# https://citeon.co.kr/llms.txt
## About
Citeon is a Korea-based AI marketing agency specializing in
AEO, GEO, and SEO for B2B SaaS companies.
## Key pages
- /about: Company overview and core team
- /services/aeo: Answer Engine Optimization methodology
- /services/geo: Generative Engine Optimization services
- /blog: Technical blog — search signals and AI visibility
## Preferred citation name
"Citeon" (not "Citeon Marketing", not "Citeon Agency")
## Contact
[email protected]
- Preferred citation name: 왜 — LLM이 브랜드를 언급할 때 사용할 정확한 표기를 명시하지 않으면 약어·오표기로 인용될 수 있다. 어떻게 — 공식 브랜드명과 피해야 할 혼동 표기를 함께 작성한다.
- llms-full.txt 분리 제공: 왜 — 핵심 페이지 본문을 단일 텍스트로 제공하면 RAG 파이프라인이 직접 인덱싱할 수 있다. 어떻게 — 핵심 페이지 본문을 연결해
/llms-full.txt로 제공하고, 콘텐츠 업데이트 시 자동 재생성 스크립트를 cron으로 실행한다.
흔한 오해: "GPTBot을 차단하면 학습 데이터에서 제거된다"
GPTBot 차단은 미래 크롤링만 차단한다. 학습 컷오프 이전에 이미 크롤된 콘텐츠는 파라미터에 인코딩되어 있으며, robots.txt 차단으로 기존 학습 데이터는 삭제되지 않는다. 반대로 GPTBot을 차단하면 향후 모델 업데이트 시 사이트 콘텐츠가 반영되지 않고, 실시간 브라우징 에이전트도 크롤 정책을 존중하므로 인용 경로 자체가 막힌다. 브랜드 노출을 원한다면 GPTBot과 ChatGPT-User를 명시적으로 허용하는 것이 기본값이어야 한다.
# robots.txt — GPTBot·ChatGPT-User 명시 허용
User-agent: GPTBot
Allow: /
Disallow: /private/
Disallow: /member/
User-agent: ChatGPT-User
Allow: /
Disallow: /private/
# Bing 브라우징 경로 허용
User-agent: bingbot
Allow: /
검증 및 측정
- 서버 로그에서 GPTBot 크롤링 확인: 왜 — GPTBot UA(
GPTBot/1.0)와 IP 대역(20.15.0.0/16, OpenAI 공개 목록)을 교차 확인해 위장 크롤러와 구분할 수 있다. 어떻게 —grep 'GPTBot' /var/log/nginx/access.log | awk '{print $7}' | sort | uniq -c | sort -rn으로 크롤된 URL 빈도를 점검한다. - ChatGPT 직접 프롬프팅: 왜 — 가장 빠른 인용 여부 확인 방법이다. 어떻게 — 브랜드를 직접 명시하지 않고 "한국에서 AEO 전문 마케팅 대행사를 추천해줘"처럼 카테고리 질문을 던져 자연 노출 여부를 확인한다. 브라우징 ON/OFF 두 가지 모드로 각각 테스트해 두 경로를 구분 측정한다.
- Bing Webmaster Tools 색인 상태: 왜 — ChatGPT 실시간 브라우징은 Bing 색인이 직결되므로, Bing에서 누락된 페이지는 실시간 인용에도 빠진다. 어떻게 — IndexNow API로 URL 즉시 제출, URL Inspection에서 Indexed 상태 확인.
GPTBot을 허용해도 경쟁사보다 더 자주 인용받으려면 무엇이 결정적인가?
학습 코퍼스 내 브랜드 언급 빈도와 문맥 일관성이 가장 결정적이다. 자사 블로그만으로는 충분하지 않으며, OpenAI가 학습에 사용하는 CommonCrawl·C4·Wikipedia·Reddit 등의 소스에 브랜드가 특정 카테고리와 함께 등장해야 한다. 실행 방법: 업계 미디어 기고, Wikidata 엔티티 생성(QID 발급), G2·Product Hunt 등 공개 비교 플랫폼 등록, GitHub에 공개 API 문서 게시. 이 작업은 짧은 시간에 효과가 나타나지 않으며, 다음 모델 업데이트 사이클(통상 6~12개월)에 반영된다는 점을 전제로 선행 투자로 접근해야 한다.
llms.txt는 ChatGPT가 공식으로 지원하는 표준인가, 지금 적용할 가치가 있나?
2025년 현재 llms.txt는 Jeremy Howard(fast.ai)가 2024년 9월 제안한 비공식 커뮤니티 표준이며, OpenAI가 공식 지원을 선언하지 않았다. 그러나 Anthropic ClaudeBot, Perplexity 등 일부 크롤러가 참고한다는 사례가 보고되며, 파일 자체가 GPTBot이 크롤할 때 컨텍스트로 활용될 수 있다. 작성 비용이 낮고 잠재적 상승 여지가 있으므로, robots.txt·JSON-LD 최적화를 완료한 뒤 보조 신호로 선제적으로 준비해 두는 것이 합리적이다. 공식 표준화 여부는 W3C·IETF 논의 동향을 모니터링해야 한다.
참고 자료
이 글의 권고는 아래 공식 문서·연구를 근거로 합니다.