생성형 검색과 개인정보·신뢰의 미래

Q: Q. llms.txt를 배포하면 AI 크롤러가 실제로 준수하나요? 법적 효력이 있나요?

현재(2025년 기준) llms.txt는 IETF·W3C·ISO 어떤 국제 표준에도 등재되지 않은 비공식 제안입니다. 크롤러 준수는 각 사업자의 자발적 정책에 달려 있으며 기술적 강제 수단은 없습니다. 법적 구속력도 없습니다. robots.txt는 1994년 이후 업계 관행으로 정착해 대부분의 크롤러가 준수하지만, llms.txt는 그 수준의 채택률에 아직 도달하지 못했습니다. 실무적으로는 robots.txt AI 크롤러 차단과 사업자별 데이터 삭제 요청이 더 확실한 수단입니다. llms.txt는 허용 범위에 대한 "의도 표명" 수준으로 배포하고, 향후 법적 분쟁 시 사이트 운영자의 의사를 입증하는 증거 보전 자료로 활용하는 정도의 가치가 있습니다.

Google AI Overviews·ChatGPT Search·Perplexity는 사용자 쿼리를 RAG(Retrieval-Augmented Generation) 파이프라인에 통과시켜 외부 문서를 실시간 검색·임베딩한 뒤 LLM이 합성 답변을 생성한다. 이 구조에서 두 가지 위험이 교차한다. 첫째, 사용자 쿼리 자체가 증상·재무 수치·법적 상황 같은 민감 정보를 포함할 수 있고 이 데이터가 서비스 제공사 서버에 기록된다. 둘째, 퍼블리셔가 게시한 개인 식별 정보(PII)가 AI 답변에 직접 인용·재조합된다. 신뢰 문제는 다른 축에서 발생한다. 생성형 검색이 출처를 요약·재서술하면 원래 맥락이 손실되거나 사실이 변형되고, 사용자는 인용된 브랜드의 실제 입장과 AI 생성 요약을 구별하기 어렵다. 두 문제 모두 기술적 통제 수단이 존재하지만, 표준화 수준이 낮고 크롤러별 준수율이 다르다.

RAG 파이프라인의 개인정보 노출 경로

쿼리 수집 단계: 사용자가 입력한 자연어 쿼리가 서비스 서버에 전송되고 기록된다.
왜: 쿼리에 이름·주소·계좌번호 등 비의도적 PII가 섞일 수 있다.
어떻게: 엔터프라이즈 플랜의 "opt-out from training" 옵션을 활성화하고, 이용약관의 쿼리 로깅 조항을 사전 검토한다.
문서 검색(Retrieval) 단계: 크롤러가 수집한 웹 문서가 벡터 DB에 임베딩 형태로 저장된다.
왜: 짧고 고유한 텍스트(이름·전화번호)는 임베딩에서 역산 가능성이 연구에서 보고된다.
어떻게: PII가 포함된 페이지는 robots.txt 또는 X-Robots-Tag: noindex 헤더로 크롤러 접근을 차단한다.
생성(Generation) 단계: LLM이 복수 출처를 컨텍스트로 받아 답변을 합성한다.
왜: 개별 출처에서는 무해하던 정보가 결합되어 새로운 PII가 생성되는 모자이크 효과가 발생한다.
어떻게: 주요 서비스의 콘텐츠 피드백 창(Perplexity 편집 요청, Google AI Overviews 피드백)으로 노출 사례를 직접 신고한다.

크롤러 접근 제어 — robots.txt·llms.txt·HTTP 헤더

주요 생성형 검색 서비스가 운용하는 AI 크롤러 User-agent는 아래와 같다. 학습 크롤러와 검색 인용 크롤러가 분리 운용되는 경우가 있으므로 각 사업자 공식 문서를 반드시 확인해야 한다.

GPTBot: OpenAI 모델 학습 크롤러. OAI-SearchBot이 ChatGPT Search 실시간 인용 전용으로 별도 운용될 수 있다.
ClaudeBot: Anthropic 웹 검색·학습 크롤러.
PerplexityBot: Perplexity 검색 인용 크롤러.
CCBot: Common Crawl 크롤러. 다수 오픈소스 LLM 학습 데이터셋의 원천.
Google-Extended: Googlebot과 분리된 Google AI 학습 전용 크롤러.

# robots.txt — AI 크롤러 선택적 차단 예시
# 모델 학습 크롤러 전면 차단, 검색 인용 허용을 원하면
# OAI-SearchBot·PerplexityBot은 Disallow 제외

User-agent: GPTBot
Disallow: /private/
Disallow: /user-data/

User-agent: OAI-SearchBot
Disallow: /private/

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: ClaudeBot
Disallow: /private/

# /llms.txt — 사이트 루트에 배치 (비공식 표준, 법적 구속력 없음)
# LLM에게 허용 범위를 선언적으로 제공하는 텍스트 파일
# 형식 제안(llmstxt.org, 2024~): 마크다운 기반

# 예시 /llms.txt 내용:
# # Citeon
# > AI 마케팅 대행사. 기술 블로그 콘텐츠는 인용 허용, /private/ 경로는 제외.
# ## 허용
# - /blog/: 기술 블로그 (인용 허용)
# ## 금지
# - /client-data/: 고객 데이터 (인용 금지)

llms.txt는 Answer.AI(Jeremy Howard)가 2024년 제안한 비공식 스펙으로, IETF·W3C 공식 표준이 아니다. 크롤러 준수 여부는 각 사업자 자발적 정책에 달려 있으며 기술적 강제 수단은 없다.

신뢰 신호 구현 — JSON-LD 저자 권위성 표기

LLM이 답변에서 특정 브랜드·전문가를 인용할 때 신뢰도를 높이는 가장 확실한 수단은 기계가 파싱 가능한 구조화 데이터다. author.sameAs로 외부 권위 자원(LinkedIn, Google Scholar)을 연결하면 LLM이 사전학습 및 RAG 단계에서 이 정보를 흡수·재확인한다.

<!-- JSON-LD: Article + 저자 권위성 신호 (head 또는 body에 삽입) -->
<script type="application/ld+json">
{
  "@context": "https://schema.org",
  "@type": "Article",
  "headline": "생성형 검색과 개인정보·신뢰의 미래",
  "datePublished": "2025-10-01",
  "dateModified": "2025-10-15",
  "author": {
    "@type": "Person",
    "name": "박도현",
    "url": "https://citeon.io/authors/park-dohyeon",
    "sameAs": [
      "https://www.linkedin.com/in/parkdohyeon",
      "https://scholar.google.com/citations?user=EXAMPLE"
    ],
    "knowsAbout": ["AEO", "GEO", "Search Engine Optimization", "Privacy Engineering"]
  },
  "publisher": {
    "@type": "Organization",
    "name": "Citeon",
    "url": "https://citeon.io",
    "logo": {
      "@type": "ImageObject",
      "url": "https://citeon.io/logo.png",
      "width": 200,
      "height": 60
    }
  },
  "mainEntityOfPage": {
    "@type": "WebPage",
    "@id": "https://citeon.io/blog/generative-search-privacy-trust"
  },
  "isAccessibleForFree": true
}
</script>

SEO·AEO·GEO 신뢰 신호 비교

항목	전통 SEO	AEO (Answer Engine)	GEO (Generative Engine)
1차 신뢰 인자	백링크 수·PageRank	FAQ 구조화 데이터·Featured Snippet	인용 빈도·출처 권위성·사실 밀도
저자 신뢰 표기	About 페이지·바이라인	E-E-A-T 신호(Google QRG 기준)	`author.sameAs` JSON-LD + 외부 권위 자원 연결
선호 콘텐츠 형식	긴 문서·키워드 밀도	직접 답변형 단락·정의 블록	인용 가능한 단언 문장·수치 포함 단락
크롤러 제어 수단	robots.txt·sitemap.xml	Speakable·HowTo 스키마	robots.txt AI agent 차단·llms.txt(비표준)
감사·측정 도구	GSC·Ahrefs·SEMrush	Featured Snippet 모니터	AI 인용 수동 모니터링(표준 없음, 추정 기반)
개인정보 제어	robots.txt noindex	해당 없음	robots.txt + 사업자별 데이터 삭제 요청

흔한 오해: "robots.txt Disallow가 학습 데이터 수집도 소급 차단한다"

오해: robots.txt에 User-agent: GPTBot / Disallow: /를 추가하면 OpenAI가 해당 사이트 데이터를 모델 학습에 소급 적용해 삭제한다.

실제 동작: robots.txt는 파일 변경 이후 미래 크롤링만 제한한다. 이미 수집·임베딩된 데이터는 robots.txt 변경으로 삭제되지 않는다. 또한 GPTBot과 ChatGPT Search 인용 크롤러(OAI-SearchBot)는 별개로 운용될 수 있으므로, GPTBot만 차단해도 ChatGPT Search 인용이 지속될 수 있다.

올바른 처리법:

robots.txt AI 크롤러 Disallow: 신규 크롤링 즉시 차단. GPTBot·OAI-SearchBot·Google-Extended를 각각 선언한다.
사업자별 데이터 삭제 요청 제출: OpenAI privacy request, Google 콘텐츠 삭제 요청 등 공식 채널로 기존 수집 데이터 제거를 요청한다. 처리 기간은 불확정이다.
HTTP 헤더 추가: X-Robots-Tag: noindex, noarchive를 서버 응답에 포함해 추가 색인 방지 레이어를 확보한다.
법적 근거 활용: EU GDPR 제17조(잊혀질 권리) 또는 한국 개인정보보호법 제36조에 따른 삭제 요청으로 정식 이의를 제기할 수 있다. 단, LLM 학습 데이터에 대한 적용 범위는 아직 각국 법원 판례가 형성 중이다.

Q. GPTBot을 robots.txt로 차단하면 ChatGPT Search 검색 결과에서도 사라지나요?

반드시 그렇지는 않습니다. OpenAI는 ChatGPT Search 실시간 인용에 사용하는 크롤러(OAI-SearchBot)와 모델 학습 크롤러(GPTBot)를 별도로 운용할 수 있습니다. 2025년 기준 OpenAI 공식 문서는 두 크롤러를 구분 서술하므로, GPTBot만 차단하면 ChatGPT Search 인용이 여전히 발생할 수 있습니다. ChatGPT Search 인용도 차단하려면 User-agent: OAI-SearchBot / Disallow: /를 별도로 추가해야 합니다. 단, 이미 학습된 가중치에서 생성된 답변은 어떤 robots.txt 설정으로도 막을 수 없습니다.

Q. llms.txt를 배포하면 AI 크롤러가 실제로 준수하나요? 법적 효력이 있나요?

현재(2025년 기준) llms.txt는 IETF·W3C·ISO 어떤 국제 표준에도 등재되지 않은 비공식 제안입니다. 크롤러 준수는 각 사업자의 자발적 정책에 달려 있으며 기술적 강제 수단은 없습니다. 법적 구속력도 없습니다. robots.txt는 1994년 이후 업계 관행으로 정착해 대부분의 크롤러가 준수하지만, llms.txt는 그 수준의 채택률에 아직 도달하지 못했습니다. 실무적으로는 robots.txt AI 크롤러 차단과 사업자별 데이터 삭제 요청이 더 확실한 수단입니다. llms.txt는 허용 범위에 대한 "의도 표명" 수준으로 배포하고, 향후 법적 분쟁 시 사이트 운영자의 의사를 입증하는 증거 보전 자료로 활용하는 정도의 가치가 있습니다.

참고 자료

이 글의 권고는 아래 공식 문서·연구를 근거로 합니다.