Citeon
논문·연구 분석

통계·숫자가 인용 가능성을 높인다는 연구 결과

박도현
박도현 · AEO 리서처

RAG 기반 AI 답변 엔진(Perplexity, ChatGPT Search, Gemini grounding)이 출처를 선택할 때 수치·통계를 포함한 문장을 구조적으로 우선 인용하는 현상은, 희소 검색(BM25)·밀집 임베딩·교차 인코더 재순위화 세 단계 모두에서 수치가 관련성 신호로 독립적으로 작동하기 때문이다. 각 레이어의 작동 원리를 이해하면 콘텐츠 구조와 스키마 설계만으로 인용 가능성을 높일 수 있다.

검색 단계: 수치가 BM25 점수를 높이는 원리

BM25는 각 토큰의 역문서빈도(IDF)와 용어빈도(TF)를 결합해 문서 점수를 산출한다. 수치·통계값은 구조적으로 IDF가 높다.

밀집 임베딩 단계: 수치의 의미 앵커 효과

bi-encoder(E5, BGE, text-embedding-3 계열)는 문장 전체를 단일 벡터로 압축할 때 수치를 고밀도 의미 랜드마크로 처리한다.

재순위화 단계: 교차 인코더의 수치 평가 방식

cross-encoder는 쿼리-문서 쌍을 함께 인코딩해 관련성을 계산한다. 수치 포함 문장은 두 경로로 점수를 얻는다.

구현: JSON-LD로 수치를 구조화 데이터에 박제

RAG 파이프라인과 Knowledge Graph 크롤러 모두 JSON-LD에서 수치를 추출한다. 아래는 통계 수치를 Article과 citation 맥락에 함께 박제하는 패턴이다.

{
  "@context": "https://schema.org",
  "@type": "Article",
  "headline": "2024 국내 생성형 AI 도입 현황 분석",
  "datePublished": "2024-11-15",
  "author": {
    "@type": "Organization",
    "name": "Citeon Research"
  },
  "description": "국내 제조업 기업 중 41.3%가 2024년 내 생성형 AI 파일럿을 완료했으며, 도입 전환율은 전년 대비 18.7%p 증가했다.",
  "citation": {
    "@type": "CreativeWork",
    "name": "한국정보통신진흥협회 2024 AI 도입 실태조사",
    "url": "https://example.org/report/2024",
    "datePublished": "2024-10-01"
  },
  "mainEntityOfPage": {
    "@type": "WebPage",
    "@id": "https://citeon.kr/research/ai-adoption-2024"
  }
}

description 필드에 핵심 수치를 직접 삽입하면 크롤러가 구조화 데이터에서 수치를 추출해 Knowledge Graph와 RAG 인덱스에 반영한다. citation으로 1차 출처를 명시하면 AI 답변 엔진이 신뢰도 신호로 활용한다.

측정: 수치 포함 여부에 따른 레이어별 비교

검색 레이어 수치 없는 문장 수치 포함 문장 핵심 메커니즘
BM25 IDF 평균 수준 IDF 상위 구간 (희소 수치 기준) 낮은 문서빈도(DF) → 높은 IDF
밀집 임베딩 팩트 쿼리와 코사인 유사도 낮음 수치 앵커로 유사도 상승 (추정) 의미 공간 내 수치 랜드마크
교차 인코더 Entailment 점수 낮음 팩트 일치 → Entailment 상승 NLI 헤드 팩트 일관성 신호
LLM 최종 선택 경쟁 문서와 점수 차이 없음 Softmax 비선형 증폭으로 유리 점수 격차 → 인용 확률 비선형 상승

흔한 함정: 수치 나열이 인용을 보장한다는 오해

맥락 없이 수치를 나열하면 cross-encoder의 coherence 평가에서 오히려 감점된다. LLM은 단락 전체의 논리 흐름을 평가하므로, 수치가 전후 문장과 인과적으로 연결되지 않으면 entailment 점수가 하락한다.

올바른 처리법: 수치는 반드시 (1) 출처, (2) 측정 기준, (3) 시점 세 요소와 한 문장에 묶어야 한다. "성장했다(23%)"처럼 괄호 삽입 형식은 피하고, "2024년 3분기 기준 IDC 보고서에 따르면 국내 퍼블릭 클라우드 시장은 전년 동기 대비 23% 성장했다"처럼 단일 문장으로 구성한다. JSON-LD description에도 동일 구조를 반복 배치한다.

Q. HTML 본문 수치와 JSON-LD description 수치, 어디에 넣는 것이 더 효과적인가?

RAG 파이프라인 구조에 따라 다르다. Perplexity·ChatGPT Search처럼 HTML 본문을 직접 청킹하는 시스템에서는 HTML 단락의 수치가 임베딩에 직접 반영된다. Knowledge Graph 우선 엔진(Google, Bing)은 JSON-LD를 먼저 파싱한다. 따라서 핵심 수치는 두 곳 모두에 중복 배치하는 것이 방어적으로 옳다. JSON-LD description에는 한 문장 압축 형태로, HTML 본문에는 출처·맥락을 포함한 단락으로 전개한다.

Q. 내부 실험 데이터나 비공개 조사 수치도 인용 가능성을 높이는가?

BM25·밀집 임베딩 단계에서는 수치의 출처와 무관하게 희소성 신호로 작동한다. 그러나 cross-encoder와 LLM 인용 선택 단계에서 일부 모델은 JSON-LD citation 메타데이터(출처 URL, 발행 기관, 날짜)를 신뢰도 신호로 참고한다. 내부 데이터라면 JSON-LD citation 필드에 사내 리포트 URL과 발행 기관명을 반드시 명시하고, 가능하면 외부 공개 보고서 수치와 교차 인용하는 구조로 보강하는 것이 인용 확률을 더 높인다.

참고 자료

이 글의 권고는 아래 공식 문서·연구를 근거로 합니다.

박도현
박도현 · AEO 리서처

생성형 검색·LLM 인용에 관한 논문과 데이터를 읽고 실무 언어로 옮깁니다. 근거 없는 '카더라'를 싫어합니다.

내 사이트의 AI 검색 점수가 궁금하다면

30초 무료 진단으로 SEO·AEO·GEO 점수와 처방을 받아보세요.

무료 진단 시작
← 블로그 목록으로