Gemini가 참조하는 콘텐츠의 특징

Google Gemini(AI Overviews 및 Gemini 앱의 Google Search Grounding 모드)는 쿼리 수신 시 실시간으로 Google 웹 색인에서 후보 페이지를 검색한 뒤 LLM이 합성해 답변을 생성하는 RAG(Retrieval-Augmented Generation) 구조를 사용한다. "인용"은 두 단계—Retrieval(후보 페이지 풀 구성)과 Generation(LLM이 실제 텍스트를 추출해 합성)—를 모두 통과해야 확정된다. SEO가 Retrieval 단계(검색 색인 순위)만 다루는 반면, Gemini 최적화는 Generation 단계에서 LLM이 실제로 텍스트를 인용 가능하도록 구조를 갖추는 것까지 포함한다. 두 단계를 모두 공략하지 않으면 색인 1위여도 인용에서 탈락할 수 있다.

Grounding 파이프라인 — 후보 페이지 풀 결정 요인

Gemini가 참조 후보를 구성하는 방식은 Googlebot이 구성한 표준 Search 색인을 그대로 사용한다. 별도의 AI 전용 크롤러가 있는 것이 아니므로, 후보 풀 진입 조건은 기존 SEO 신호와 동일한 지점에서 시작한다.

크롤링 예산과 인덱싱 속도: Gemini는 시의성 쿼리에서 최근 색인 페이지를 우선 참조한다. — 사이트맵을 lastmod 값과 함께 제출해 신선도 신호를 명시하고, 내부 링크를 통해 신규 페이지의 크롤 우선순위를 높인다.
Core Web Vitals와 렌더링 완성도: LCP·CLS 기준 미달 페이지는 크롤 빈도가 낮아지며, JavaScript 렌더링이 필요한 콘텐츠는 색인 지연이 발생한다. — Lighthouse CLI로 주요 랜딩 페이지를 정기 점검하고, 핵심 텍스트는 서버사이드 렌더링으로 제공한다.
canonical 명확성: www/non-www 중복이나 UTM 파라미터 변형 URL은 색인 분산을 유발해 Grounding 후보에서 의도치 않게 탈락할 수 있다. — <link rel="canonical">과 301 리디렉트로 단일 URL에 권위를 집중한다.

LLM이 인용을 결정하는 텍스트 내 신호

후보 풀에 진입하더라도 LLM이 실제로 해당 페이지의 문장을 합성에 사용하는지는 별개의 판단이다. Gemini가 텍스트에서 높게 평가하는 신호는 다음과 같다.

직접 답변 밀도 (Answer Proximity)

질문-답변 근접성: 쿼리와 의미적으로 일치하는 H2/H3 제목 바로 아래 50~150단어 이내에 구체적 답변이 있는 구조를 Gemini는 선호한다. — 각 섹션의 첫 문단을 해당 제목에 대한 직접 답변으로 시작하고, 부연 설명은 그 뒤에 배치한다.
수치·고유명사 밀도: "상당한 비용이 든다"보다 "평균 교체 비용 150~200만 원(국토교통부 2024년 기준)"처럼 구체적 수치와 출처 명시가 있는 서술이 인용 발생 확률을 높인다. — 통계는 반드시 1차 출처(정부 보고서, 학술 논문, 공식 API 문서) URL로 근거를 제시한다.
리스트·표 구조: LLM은 산문보다 불릿 리스트나 HTML <table>에서 개별 항목을 발췌하기 쉽다. — 비교·단계별 설명 콘텐츠는 산문 단락 대신 구조화된 마크업으로 작성한다.

E-E-A-T 신호와 저자 권위

저자 정보 명시: Gemini는 저자의 전문성을 페이지 신뢰도 신호로 사용한다. — About/저자 페이지에 직함·경력·출판 이력을 서술하고, 본문 byline과 Schema로 연결한다.
1차 출처 인용: 다른 블로그를 재인용하는 구조 대신 원본 연구·공식 문서를 직접 링크한다. — 참조 섹션에 DOI·공공기관 URL을 포함해 Gemini가 신뢰 체인을 추적할 수 있게 한다.
콘텐츠 갱신 신호: dateModified 값이 최근일수록 사실형·시의성 쿼리에서 인용 우선순위가 높다. — 실질적인 내용 업데이트 시 Schema의 날짜 값을 갱신하고, 형식적인 날짜 변경은 피한다.

Schema.org 구조화 데이터 구현

JSON-LD 스키마는 Gemini가 텍스트를 파싱하지 않고도 저자 권위, 인용 출처, 엔티티를 구조적으로 인식하게 한다. Article 타입에 author, citation, dateModified를 명시하는 것이 기본이다.

{
  "@context": "https://schema.org",
  "@type": "Article",
  "headline": "전기차 배터리 교체 비용 완전 가이드 2025",
  "datePublished": "2025-03-01",
  "dateModified": "2025-06-10",
  "author": {
    "@type": "Person",
    "name": "김지수",
    "url": "https://autotech.kr/author/jisoo-kim",
    "knowsAbout": ["전기차", "배터리 기술", "자동차 정비"]
  },
  "publisher": {
    "@type": "Organization",
    "name": "AutoTech Korea",
    "url": "https://autotech.kr",
    "logo": {
      "@type": "ImageObject",
      "url": "https://autotech.kr/logo.png",
      "width": 600,
      "height": 60
    }
  },
  "citation": [
    {
      "@type": "CreativeWork",
      "name": "국토교통부 전기차 배터리 실태조사 2024",
      "url": "https://www.molit.go.kr/report/2024-battery"
    }
  ],
  "mainEntityOfPage": {
    "@type": "WebPage",
    "@id": "https://autotech.kr/ev-battery-cost-2025"
  }
}

FAQ 유형 쿼리를 타깃으로 한다면 FAQPage 스키마를 별도로 추가해 질문-답변 쌍을 직접 노출한다. Article과 FAQPage는 같은 페이지에서 JSON-LD 배열로 병기할 수 있다.

robots.txt 설정 — 흔한 오해와 올바른 처리

Google은 현재 두 종류의 AI 관련 User-agent를 운영하며, 이 둘의 역할을 혼동하는 것이 실무에서 가장 빈번한 운영 오류다.

User-agent	역할	차단 시 영향
`Googlebot`	웹 색인 생성 (Search + Grounding의 데이터 원천)	Search 색인 제외 → AI Overviews·Gemini Grounding 모두 탈락
`Google-Extended`	Gemini 모델 학습 데이터 수집 (색인과 무관)	향후 모델 학습에서만 제외 (실시간 Grounding에 영향 없음)

오해: "Google-Extended를 차단하면 Gemini가 내 사이트를 인용하지 못한다"는 인식이 실무에서 흔히 발생한다. 올바른 처리: Gemini의 실시간 참조(Grounding)는 Googlebot이 구성하는 표준 Search 색인을 사용한다. Google-Extended 차단은 미래 모델 학습 데이터에서 제외되는 것일 뿐, 현재 배포된 Gemini 모델의 인용 동작에 영향을 주지 않는다. Grounding 허용을 유지하면서 학습 데이터 제공을 선택적으로 거부하려면 아래와 같이 분리 설정한다.

# Grounding 허용 (Gemini AI Overviews 참조 대상 유지)
User-agent: Googlebot
Allow: /

# 모델 학습 데이터 제공 거부 (Grounding에는 영향 없음)
User-agent: Google-Extended
Disallow: /

# 기타 크롤러 허용
User-agent: *
Allow: /

Sitemap: https://example.com/sitemap.xml

측정 및 검증 방법

Google Search Console AI Overviews 필터: 검색 유형 필터에서 'AI Overviews'를 선택하면 해당 블록에서 발생한 노출·클릭을 분리해 확인할 수 있다. — 국가별 롤아웃 진행 중이므로 한국어 쿼리 데이터가 아직 제한적일 수 있으며, 정기적으로 필터 사용 가능 여부를 확인한다.
직접 쿼리 테스트: Gemini 앱에서 Google Search Grounding을 활성화한 뒤 타깃 쿼리를 입력하고, 인용 패널에서 자사 URL 포함 여부를 확인한다. — 결과가 불안정하다면 Answer Proximity 개선과 Schema 오류 제거를 우선 점검한다.
Rich Results Test 유효성 검사: https://search.google.com/test/rich-results에서 JSON-LD 파싱 오류를 사전 제거한다. — acceptedAnswer 텍스트가 실제 페이지 본문과 불일치하면 Google이 스키마를 무시하므로, 스키마와 본문의 일관성을 반드시 확인한다.
인덱싱 커버리지 보고서: Search Console에서 'Discovered - currently not indexed' 항목이 많으면 크롤 예산 부족 신호다. — 내부 링크 구조 개선과 사이트맵 제출로 우선순위 페이지의 색인을 가속한다.

Gemini 앱에서는 인용되는데 AI Overviews에서는 나오지 않습니다. 이유가 무엇인가요?

Gemini 앱(Google Search Grounding)과 AI Overviews는 동일한 색인을 기반으로 하지만, 쿼리 해석 모델과 답변 합성 전략이 다릅니다. AI Overviews는 주로 정보 탐색 의도(informational intent) 쿼리에서 발동되며 쿼리 유형별로 합성 여부를 별도로 결정합니다. 또한 AI Overviews는 국가·언어별로 롤아웃 단계가 상이해 한국어 쿼리 노출 빈도가 영어보다 낮습니다. Search Console에서 AI Overviews 필터 데이터가 누적되면 어떤 쿼리 유형에서 차이가 나는지 비교해 콘텐츠 포맷을 조정하세요.

FAQPage 스키마를 추가했는데 Gemini 인용이 늘지 않습니다. 무엇을 점검해야 하나요?

스키마는 필요 조건이지 충분 조건이 아닙니다. 점검 순서: (1) Rich Results Test에서 파싱 오류가 없는지 확인, (2) 스키마의 acceptedAnswer 텍스트가 실제 페이지 본문과 일치하는지 확인—불일치 시 Google이 스키마를 무시, (3) 해당 페이지가 Googlebot에 의해 실제로 인덱싱됐는지 site: 연산자로 확인, (4) 타깃 쿼리에서 답변 권위가 높은 경쟁 페이지가 이미 존재하는지 분석. FAQPage 스키마 단독 추가보다 Answer Proximity 개선과 E-E-A-T 강화를 병행해야 측정 가능한 변화가 납니다.

참고 자료

이 글의 권고는 아래 공식 문서·연구를 근거로 합니다.