스타트업이 적은 예산으로 AI 검색을 잡는 법

ChatGPT Search, Perplexity, Google AI Overviews가 쿼리에 응답할 때 거치는 파이프라인은 BM25 또는 dense retrieval로 후보 문서를 수십 개 확보한 뒤 LLM이 그 중 인용 구절을 선별하는 구조다. 이 파이프라인에서 인용 확률을 결정하는 요인—구조화 데이터 완결성, 엔티티 수치 명시, AI 크롤러 접근 허용—은 모두 서버 인프라가 아니라 설정 파일과 마크업 레이어에서 통제 가능하다. 대형 브랜드의 예산 우위가 콘텐츠 규모에서 발생하는 반면, AI 검색 인용은 구현 정밀도에서 결정되므로 스타트업이 실질적으로 경쟁할 수 있는 레버리지 포인트다.

AI 검색 인용이 결정되는 세 가지 레이어

retrieval 파이프라인을 분해하면 인용 차단 요인과 인용 촉진 요인이 각각 세 단계에 걸쳐 있다.

크롤러 접근 제어: PerplexityBot·ChatGPT-User 등 실시간 검색 bot이 페이지를 수집해야 인덱스에 들어간다. 왜냐하면 robots.txt에서 차단되면 retrieval 단계 자체가 불가하기 때문이다. 구현: 학습 데이터 수집 bot(GPTBot·Google-Extended)과 실시간 검색 bot을 robots.txt에서 분리해 전자만 차단한다.
기계 파싱 가능한 구조: 산문 블록은 dense retrieval 임베딩에서 관련성 점수가 문장 전반에 분산된다. 왜냐하면 문장 임베딩 모델은 의미 단위가 짧을수록 집중도가 높기 때문이다. 구현: 정의·수치·절차는 목록 태그 또는 JSON-LD로 분리한다.
검증 가능한 엔티티 수치: "저렴하다"보다 "월 ₩9,900 / 무료 3석"처럼 검증 가능한 값을 LLM이 인용 답변에 선호한다. 왜냐하면 수치 엔티티는 답변 신뢰도 평가에 직접 기여하기 때문이다. 구현: 가격·용량·기간 수치를 페이지 본문과 JSON-LD description에 동기화한다.

robots.txt — 학습 크롤러와 검색 크롤러 분리

GPTBot(OpenAI 학습 수집)과 ChatGPT-User(실시간 검색 인용)는 같은 회사의 다른 user-agent다. 전자를 차단하면서 후자는 허용하는 설정이 가능하다. 아래는 학습 데이터 제공을 거부하면서 AI 검색 인용 경로를 열어두는 최소 구성이다.


# 학습 데이터 수집 크롤러 — 차단
User-agent: GPTBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

# 실시간 AI 검색 크롤러 — 허용
User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: ClaudeBot
Allow: /

# 일반 검색 크롤러
User-agent: Googlebot
Allow: /

Sitemap: https://example.com/sitemap.xml

FAQPage JSON-LD와 llms.txt로 인용 신호 강화

FAQPage JSON-LD

FAQ 형식 페이지에 FAQPage 스키마를 삽입하면 Google AI Overviews가 mainEntity Q-A 쌍을 직접 파싱하고 Perplexity도 동일 필드에서 답변 후보를 추출한다. 아래 JSON을 <script type="application/ld+json"> 태그에 감싸 <head> 또는 <body> 끝에 삽입한다.


{
  "@context": "https://schema.org",
  "@type": "FAQPage",
  "mainEntity": [
    {
      "@type": "Question",
      "name": "무료 플랜의 사용자 수 제한은 몇 명인가요?",
      "acceptedAnswer": {
        "@type": "Answer",
        "text": "무료 플랜은 팀원 3명, 프로젝트 5개까지 영구 무료입니다. 초과 시 자동 과금되지 않으며 업그레이드 화면이 표시됩니다."
      }
    },
    {
      "@type": "Question",
      "name": "데이터 저장 리전은 어디인가요?",
      "acceptedAnswer": {
        "@type": "Answer",
        "text": "기본 리전은 ap-northeast-2(서울)입니다. Enterprise 플랜에서 us-east-1 또는 eu-west-1으로 변경 가능합니다."
      }
    }
  ]
}

llms.txt

사이트 루트(https://example.com/llms.txt)에 마크다운 파일을 두면 LLM 크롤러가 사이트 구조와 핵심 URL을 빠르게 파악한다. 현재 공식 표준이 아닌 사실상(de facto) 방식으로 Perplexity가 우선 지원한다. Google AI Overviews와 ChatGPT Search의 공식 지원 여부는 미확인이므로 인용 보장이 아닌 힌트 파일로 인식해야 한다.


# Citeon — AI 마케팅 기술 블로그
> AEO·GEO·SEO 실전 구현을 다루는 기술 블로그.
> 엔지니어와 마케팅 실무자를 위한 구체적 구현 가이드.

## 핵심 문서
- [AEO 입문](/blog/aeo-intro): 답변 엔진 최적화 원리 및 JSON-LD 구현
- [GEO 업종별 가이드](/blog/geo-industry): 법률·금융·부동산 주의점
- [스타트업 AI 검색 전략](/blog/startup-ai-search): 예산 제약 환경의 구조화 데이터 전략

## 연락처
- 기술 문의: [email protected]
- 서비스 소개: https://citeon.io/services

SEO · AEO · GEO 항목별 비교

항목	SEO	AEO	GEO
목표	검색 결과 페이지 상위 노출	AI 답변 박스에 직접 인용	생성형 AI 검색 전반 브랜드 노출
핵심 신호	PageRank·백링크·Core Web Vitals	FAQPage·HowTo JSON-LD·정형 Q-A	E-E-A-T·엔티티 수치·llms.txt
주요 크롤러	Googlebot·Bingbot	Google AIO 파서·GPTBot 검색 분기	PerplexityBot·ChatGPT-User·ClaudeBot
측정 도구	Search Console 클릭수·순위	Search Console AI Overviews 노출수	Perplexity·ChatGPT 직접 쿼리 모니터링
예산 효율	콘텐츠·링크빌딩 지속 비용 필요	스키마 1회 구현으로 즉시 효과	스키마 + 콘텐츠 깊이 조합, 중기 투자

흔한 함정: "긴 콘텐츠가 AI 인용에도 유리하다"

전통 SEO에서는 키워드를 다수 포함한 장문이 트래픽에 유리하다. 그러나 AI 검색 retrieval 단계는 문서 길이보다 답변 밀도를 우선한다. 2,000자 블로그 글에 핵심 사실 1개가 묻혀 있는 경우보다, 수치 엔티티 3개를 담은 300자짜리 구조화 FAQ 블록 1개가 인용 확률이 높다. 기존 장문 글을 삭제할 필요는 없다. 글 상단에 "핵심 요약" 블록(H2 + 불릿 3~5개)을 추가하고 FAQPage JSON-LD를 삽입하면 기존 SEO 자산(백링크·도메인 권위)을 유지하면서 AEO 신호를 덧씌울 수 있다.

AI 검색 인용 여부를 실무에서 어떻게 모니터링하나요?

Perplexity는 쿼리 결과 하단 Sources 패널에 인용 URL을 노출하므로 브랜드명·핵심 키워드로 직접 검색해 자사 도메인 여부를 확인한다. ChatGPT Search(Plus 이상)도 각주 링크를 표시한다. 자동화가 필요하다면 Perplexity API의 sonar-pro 모델(추정 과금 기준 월 $20 내외)을 사용해 정기 쿼리를 보내고 응답 JSON의 citations 배열에서 자사 도메인을 추적할 수 있다. Google AI Overviews는 Search Console "검색 결과" 탭에서 노출 유형을 "AI Overviews"로 필터링하면 노출수와 클릭수가 조회되나, 2025년 기준 일부 계정에 단계적 배포 중이어서 표시 여부가 계정마다 다를 수 있다.

JSON-LD 스키마가 없는 페이지도 AI 검색에 인용될 수 있나요?

인용될 수 있다. JSON-LD는 인용 가능성을 높이는 신호이지 필수 조건이 아니다. AI 검색 엔진은 HTML 본문을 직접 파싱하므로 H2 직후 첫 문장이 수치와 정의를 담고 있으면 구조화 데이터 없이도 인용된다. 다만 FAQPage·HowTo 스키마가 있는 경쟁 페이지가 있다면 Google AI Overviews 파서가 mainEntity를 우선 참조하기 때문에 인용 점유율 차이가 발생할 수 있다. 개발 리소스가 없다면 HTML 구조 개선(H2 → 첫 문장 답변 → 수치 포함 ul 블록)이 JSON-LD 구현보다 우선 순위가 높다.

참고 자료

이 글의 권고는 아래 공식 문서·연구를 근거로 합니다.