GEO 논문(arXiv 2311.09735)이 말하는 가시성 40% 향상의 비밀

Aggarwal et al.(2023)의 "GEO: Generative Engine Optimization"(arXiv:2311.09735)은 Perplexity, Bing Copilot, Google SGE 같은 RAG 기반 생성형 검색 엔진에서 소스 문서의 인용 빈도와 인용 위치를 수치화한 최초의 실험 논문이다. 전통 SEO가 PageRank·백링크 같은 그래프 신호를 최적화하는 반면, 생성형 엔진은 문서를 300~600 토큰 단위 청크로 분할한 뒤 쿼리 임베딩과의 코사인 유사도로 인용 소스를 선정한다. 이 구조적 차이가 콘텐츠 최적화 신호 자체를 바꿔야 하는 근거이며, 논문이 정의한 가시성 지표와 전략별 효과 수치는 현재 GEO 실무의 참조 기준선으로 기능한다.

가시성(Visibility) 지표: 논문이 측정한 것

논문은 기존 SEO 지표(순위, CTR)로는 생성형 응답에서의 소스 기여도를 측정할 수 없다는 문제를 지적하고, 두 가지 지표를 정의했다.

단순 가시성(Simple Visibility): 생성형 응답 전체 토큰 중 특정 소스 문서에서 파생된 단어 비율. 왜: 청크가 통째로 인용될수록 지표가 선형적으로 올라가기 때문에 인용 범위를 직접 반영한다. 어떻게: word-level overlap을 응답 총 토큰 수로 나눈 값.
위치 가중 가시성(Position-Weighted Visibility): 응답 앞부분의 인용에 1/rank 가중치를 부여해 합산. 왜: 사용자 시선이 집중되는 첫 단락 인용이 트래픽·브랜드 인지 양쪽에서 실질 가치가 높기 때문. 어떻게: 각 인용 청크의 응답 내 등장 순서를 역순위로 환산해 가중 평균.

이 두 지표를 GEO-bench — Common Crawl 기반 10개 도메인(arts, business, finance, health, law, science, sports, technology, travel, politics) 총 10,000개 문서 — 위에서 측정해 전략 간 효과를 비교했다.

9가지 전략과 실측 효과: 무엇이 실제로 작동했나

논문은 콘텐츠를 변형하는 9가지 전략을 실험했다. 아래는 position-weighted 가시성 기준 주요 결과다.

Statistics Addition(통계 삽입): 수치·퍼센트·측정값을 본문 문장에 삽입. 왜: LLM이 답변 생성 시 사실 앵커로 삼을 수 있는 정량 데이터가 청크 relevance를 높이기 때문. 어떻게: "이 시장은 2024년 기준 $4.2B 규모다(Gartner, 2024)"처럼 출처 가능 수치를 문장 단위로 삽입. — science·finance 카테고리에서 가장 큰 효과.
Authoritative Tone(권위 어조): "연구에 따르면", "전문가 집단은 확인했다" 같은 권위 시그널 추가. 왜: RAG 파이프라인의 리랭킹 모델이 신뢰도 어조를 relevance 신호로 처리한다는 가설이 실험 결과와 일치했음. 어떻게: 수동태·확언형 표현을 전문 용어와 결합.
Cite Sources(인용 출처 명시): 문서 내 참고문헌·DOI·인라인 인용 배치. 왜: 생성형 엔진이 이미 인용된 소스를 연쇄 선택하는 경향이 실험에서 관찰됨. 어떻게: "[Smith et al., 2023]" 형식을 주장 직후 삽입.
Fluency Optimization(유창성 개선): 청크 경계에서 의미 단위가 온전히 유지되도록 문장 응집도 향상. 왜: 잘린 문장은 임베딩 벡터가 쿼리 의미와 어긋나 인용에서 탈락한다. 어떻게: 단락 첫 문장에 핵심 주장을 선배치하고 불완전 문장 제거.
Keyword Stuffing(키워드 반복): 타깃 키워드를 고밀도로 삽입. 왜: 효과가 일관되지 않았다 — technology 카테고리에서 오히려 가시성이 하락했음. 어떻게: 단독 반복 대신 의미 클러스터(연관 개념 병기)로 대체할 것.

논문 보고 결과: Statistics Addition과 Authoritative Tone을 결합한 전략이 특정 카테고리에서 평균 가시성을 최대 약 40% 향상시켰다. 이 수치는 모든 카테고리 평균이 아니라 효과가 가장 두드러진 science·law 도메인의 상한 추정에 가깝다.

구현: 통계·권위 신호를 Schema.org로 구조화

Statistics Addition과 Cite Sources 전략을 JSON-LD에 반영하면 생성형 엔진의 Knowledge Graph 파서가 신뢰 신호를 추가로 읽는다. citation 필드와 수치 포함 description이 핵심이다.

{
  "@context": "https://schema.org",
  "@type": "Article",
  "headline": "국내 B2B SaaS 시장 규모와 성장 전망 2024",
  "author": {
    "@type": "Person",
    "name": "박도현",
    "jobTitle": "AEO 리서처",
    "affiliation": {
      "@type": "Organization",
      "name": "Citeon Research",
      "url": "https://citeon.ai"
    }
  },
  "datePublished": "2024-03-15",
  "dateModified": "2024-06-01",
  "description": "2024년 국내 B2B SaaS 시장은 전년 대비 23% 성장해 4조 2천억 원 규모에 도달했다. Gartner 기준.",
  "citation": [
    {
      "@type": "CreativeWork",
      "name": "Gartner SaaS Market Forecast 2024",
      "url": "https://www.gartner.com/en/documents/..."
    },
    {
      "@type": "ScholarlyArticle",
      "name": "GEO: Generative Engine Optimization",
      "identifier": "arXiv:2311.09735"
    }
  ],
  "mainEntityOfPage": {
    "@type": "WebPage",
    "@id": "https://example.com/b2b-saas-market-2024"
  }
}

description에 수치를 직접 삽입하면 생성형 엔진이 메타데이터 레이어에서도 통계를 파싱할 수 있다. citation 배열은 Cite Sources 전략을 스키마 수준에서 구현한 형태다.

SEO · AEO · GEO 핵심 차이

항목	SEO	AEO	GEO
최적화 대상	PageRank·E-E-A-T 랭킹 신호	Featured Snippet·음성 답변	RAG 인용 소스 선정 로직
가시성 지표	SERP 순위, CTR	Snippet 점유율	응답 내 토큰 overlap 비율(위치 가중)
핵심 신호	백링크, 앵커 텍스트, Core Web Vitals	FAQ Schema, 간결한 직접 답변	통계 수치, 권위 어조, 청크 의미 밀도
콘텐츠 처리 단위	페이지 전체	단락 수준	300~600 토큰 청크
구현 도구	sitemap.xml, robots.txt, 링크 빌딩	HowTo·FAQ Schema, 구조화 마크업	Statistics 삽입, citation 스키마, llms.txt

흔한 오해: "키워드 밀도를 높이면 GEO도 해결된다"

논문의 Keyword Stuffing 전략은 technology 카테고리에서 가시성이 오히려 하락했다. 단순 키워드 반복은 청크의 임베딩 벡터에서 의미 다양성을 낮춰 쿼리 임베딩과의 코사인 유사도를 떨어뜨리기 때문이다.

올바른 처리법: 키워드를 반복하는 대신 의미적으로 인접한 관련 개념을 함께 배치하라. "SaaS"만 반복하는 대신 "SaaS, 구독형 소프트웨어, ARR, 클라우드 구독 모델"처럼 의미 클러스터를 형성하면 동일 쿼리 임베딩에 대한 매칭 범위가 넓어진다. 이는 Unique Words 전략과 결합하면 효과가 배가된다.

Q. GEO-bench의 10,000개 문서 샘플링 방식은 무엇인가?

논문은 Common Crawl 및 공개 웹 크롤 데이터에서 10개 도메인 카테고리별로 균등 샘플링했다. 각 문서에 대해 실제 Perplexity, Bing Copilot, 실험 버전 Google SGE에 관련 쿼리를 질의해 응답을 수집한 뒤, 응답 토큰과 원본 문서 토큰의 단어 수준 overlap을 계산했다. 데이터셋과 평가 코드는 논문 발표 당시 GitHub에 공개되었으며, 재현 실험을 위한 스크립트도 함께 배포되어 있다.

Q. 40% 가시성 향상은 어떤 조건에서 달성되는가, 모든 콘텐츠에 동일하게 적용되나?

40%는 전체 카테고리 평균이 아니다. 논문 결과에서 Statistics Addition이 science·finance·law 카테고리에서 가장 높은 효과를 보였고, arts·sports·travel에서는 Fluency와 Quotation 전략이 상대적으로 우세했다. 40%는 최적 전략 조합을 효과가 두드러지는 카테고리에 적용했을 때의 상한 추정치에 가깝다. 실무 적용 시에는 자신의 콘텐츠 도메인을 GEO-bench 카테고리 분류에 대응시킨 뒤, 해당 카테고리에서 효과가 입증된 전략을 우선순위에 두는 것이 정확한 접근이다.

참고 자료

이 글의 권고는 아래 공식 문서·연구를 근거로 합니다.