'가짜 언급 만들기'가 스팸으로 간주되는 이유

Google Spam Policies(2024년 3월 개정)는 '링크 스팸'의 정의를 앵커 텍스트가 포함된 하이퍼링크 삽입 이상으로 확장했다. 링크 없이 브랜드·제품 이름만 반복적으로 삽입하거나, 실제 경험 없이 긍정적 평가를 작성하도록 제3자 사이트에 금전적·비금전적 대가를 제공하는 행위가 명시적으로 스팸 범주에 포함된다. 이 변화는 Google의 엔티티 기반 색인 구조(Knowledge Graph)와 직접 연결된다. 검색 엔진이 링크 신호뿐 아니라 문서 전반의 엔티티 공존(entity co-occurrence) 패턴으로 브랜드 권위를 측정하기 시작하면서, 언급 자체를 조작하는 행위가 순위 조작의 수단으로 실효성을 갖게 됐고 동시에 탐지 대상이 됐다. AI Overviews·Perplexity의 RAG 파이프라인이 인용 소스 선정에 co-citation 신호를 활용하면서 이 문제는 GEO(생성형 엔진 최적화) 영역으로도 확대됐다.

Google 스팸 정책에서의 기술적 분류 근거

Google은 가짜 언급을 '조작된 링크 스킴(Link Scheme)'의 하위 범주로 명시적으로 열거한다. 핵심 판단 기준은 다음 세 가지다.

상업적 교환 여부: 금전·제품·서비스·기타 인센티브를 대가로 언급을 확보하는 행위 — 왜: 시장 기반 보상이 개입되면 언급의 독립성이 훼손되고 사용자 신뢰 신호가 왜곡되기 때문. 어떻게: Search Quality Rater Guidelines 섹션 E-E-A-T에서 "누가, 왜, 어떤 맥락에서 작성했는가"를 판단 축으로 사용.
대규모·자동화 생성: 동일 패턴의 언급이 짧은 시간 창 내에 다수 도메인에 분산 게시되는 경우 — 왜: 자연 발생적 언급은 시간·출처·문체가 비균일하다. 균일성 자체가 조작 신호. 어떻게: Googlebot이 수집한 문서의 게시 타임스탬프와 링크 그래프 변화 속도를 크롤링 데이터로 비교.
콘텐츠-언급 의미 불일치: 본문 주제와 무관한 엔티티 이름이 삽입된 경우 — 왜: BERT·MUM 기반 문서 이해 모델은 엔티티와 주변 문맥의 의미 일관성을 평가. 어떻게: 쿼리-문서 임베딩 유사도 점수가 낮은 언급은 신호 가중치를 감소.

탐지 메커니즘: 링크 그래프·엔티티 신호·콘텐츠 일관성

Google의 SpamBrain(2021년~)은 링크 스팸을 딥러닝 분류기로 탐지한다. 가짜 언급에 적용되는 탐지 레이어는 다음과 같다.

Co-citation 네트워크 분석: 동일 엔티티를 언급하는 문서 집합의 그래프 구조를 분석. 자연 발생적 언급 네트워크는 소규모 허브를 중심으로 비대칭 분포를 보이지만, 조작된 언급은 동시 게시·동일 앵커 패턴으로 과도하게 균일한 클러스터를 형성 — 어떻게: PageRank 계산 시 이상 클러스터에 속한 문서의 신호 가중치를 선택적으로 무효화(link devaluation).
NAP 일관성 교차 검증: 로컬 엔티티(매장·기업)의 경우 Google Business Profile·지도 데이터와 외부 언급의 Name·Address·Phone 데이터를 비교. 조작된 언급 캠페인은 NAP 불일치율이 높음 — 어떻게: Knowledge Graph 엔티티 레코드와 크롤링 문서의 엔티티 속성 diff를 자동 채점.
감성-문맥 불일치: 실제 사용 경험 없이 작성된 텍스트는 특정 제품 범주의 평가 어휘 분포(sentiment lexicon distribution)가 자연 리뷰와 통계적으로 다름 — 어떻게: 대규모 fine-tuned 분류기를 통해 생성형 텍스트 또는 템플릿 기반 텍스트 패턴을 탐지.

탐지 신호	자연 발생 언급	가짜 언급 패턴	Google 처리 방식
게시 시간 분포	비균일(수개월~수년 분산)	짧은 창 내 집중(수일~수주)	시간 클러스터 이상 감지 → 신호 무효화
앵커/언급 텍스트 다양성	자연어 변형(브랜드명+수식어 다양)	exact-match 집중 또는 동일 템플릿	SpamBrain 분류 → 가중치 차감
출처 도메인 다양성	업종·지역·언어 다양	동일 호스팅·IP·등록자 클러스터	도메인 클러스터 페널티 적용
콘텐츠-엔티티 의미 일치	본문 맥락과 연관성 높음	본문 주제와 무관한 삽입	임베딩 유사도 낮으면 순위 신호 제외
사용자 행동 신호	클릭·체류·재방문 정상	언급 페이지에서 즉시 이탈	CTR·dwell time 이상치로 품질 하향

LLM 인용 파이프라인에서의 필터링 (GEO 관점)

Google AI Overviews와 Perplexity는 RAG 파이프라인에서 청크 단위로 문서를 검색한 뒤 인용 소스를 선정할 때 단순 BM25 점수 이상의 신뢰도 필터를 적용한다(공개된 연구 수준에서의 추정, 구현 세부는 비공개).

교차 문서 클레임 일관성: 동일 사실·평가가 복수 문서에서 독립적으로 확인될 때 인용 가능성이 올라간다. 조작된 언급 캠페인은 오히려 동일 문구가 여러 도메인에 반복되는 패턴을 만들어 "복사·배포된 콘텐츠"로 분류될 위험이 있음 — 왜: LLM은 임베딩 유사도가 비정상적으로 높은 문서 클러스터를 단일 소스로 취급해 다양성 점수를 낮게 평가.
엔티티 신뢰도 앵커링: RAG 시스템은 Knowledge Graph 엔티티 레코드(Google KG, Wikidata)와 연결된 문서를 우선 인용하는 경향이 있음. 엔티티 마크업(Schema.org) 없이 텍스트만으로 삽입된 가짜 언급은 엔티티-문서 연결 신호가 약해 인용 후보에서 제외될 가능성이 높음.
출처 권위 가중치: AI Overviews는 인용 소스의 E-E-A-T 점수를 반영한다(Google Search Central 문서 기준). 가짜 언급 네트워크에 참여한 도메인은 품질 평가 하락으로 인용 가중치가 감소.

네이버 검색 품질 가이드라인의 접근

네이버는 C-Rank(채널 신뢰도 알고리즘)와 D.I.A.(Deep Intent Analysis) 두 레이어로 가짜 언급을 탐지한다.

C-Rank: 블로그·카페·인플루언서 채널의 주제 전문성·활동 이력·사용자 반응을 종합 채점. 대가성 언급 캠페인에 동원된 계정은 특정 키워드·브랜드 언급이 채널 평소 주제와 불일치하고 단기간 집중 게시되는 패턴을 보여 C-Rank 하락 — 어떻게: 검색 노출에서 해당 채널의 가중치를 낮추고, 연관 앵커의 순위 신호를 차감.
D.I.A.: 사용자 실제 경험(직접 방문·구매) 기반 콘텐츠를 선호. 체험 없이 작성된 홍보성 언급은 이미지·위치 메타데이터·서술 구체성이 낮아 D.I.A. 점수가 낮음 — 어떻게: "직접 경험 없이 외부 자료만 참조한 글"에 낮은 관련성 점수를 부여해 VIEW 탭 하위 노출 처리.

합법적 언급 구축과 Schema.org 마크업 구현

구조화 데이터를 통해 문서와 언급 대상 엔티티의 관계를 기계 가독 형태로 명시하면, 크롤러와 LLM 파이프라인 모두에서 언급의 진정성 신호를 강화할 수 있다. 아래는 Article 페이지에서 특정 조직을 언급할 때 Schema.org mentions 속성을 사용하는 올바른 JSON-LD 예시다.

{
  "@context": "https://schema.org",
  "@type": "Article",
  "headline": "2024년 클라우드 보안 감사 도구 비교",
  "datePublished": "2024-09-15",
  "author": {
    "@type": "Person",
    "name": "이서연",
    "url": "https://citeon.io/about/seoyeon-lee"
  },
  "publisher": {
    "@type": "Organization",
    "name": "Citeon",
    "url": "https://citeon.io"
  },
  "mentions": [
    {
      "@type": "Organization",
      "name": "Acme Security",
      "url": "https://acmesecurity.example.com",
      "sameAs": "https://www.wikidata.org/wiki/Q000000",
      "description": "엔터프라이즈 클라우드 감사 자동화 솔루션 제공업체"
    }
  ],
  "speakable": {
    "@type": "SpeakableSpecification",
    "cssSelector": [".article-summary", "h2"]
  }
}

이 마크업이 작동하는 이유는 세 가지다. 첫째, mentions 속성이 엔티티-문서 연결 신호를 명시적으로 제공해 Knowledge Graph 연동을 강화한다. 둘째, sameAs로 Wikidata URI를 연결하면 엔티티 명확화(entity disambiguation)가 이루어져 동음이의 엔티티 오분류를 방지한다. 셋째, speakable은 AI Overviews가 요약 추출 시 우선 참조하는 DOM 영역을 지정한다.

합법적 언급 확보의 실무 경로는 다음과 같다.

HARO/한국형 미디어 아웃리치: 기자·편집자의 전문가 코멘트 요청에 응답해 저널리스틱 언급 획득 — 왜: 편집 독립성이 보장된 미디어 언급은 C-Rank·E-E-A-T 모두에서 최고 가중치를 받음.
원본 데이터·연구 공개: 업계 통계·설문 결과를 공개하면 타 콘텐츠가 인용할 동기를 제공 — 어떻게: 데이터셋 페이지에 Dataset 스키마를 마크업해 크롤러가 인용 가능 원본 데이터로 색인하도록.
llms.txt 파일을 통한 LLM 크롤 안내: 도메인 루트에 /llms.txt를 배포해 AI 크롤러가 인용 가능한 고품질 페이지를 우선 수집하도록 유도 — 어떻게: Markdown 형태로 핵심 문서 URL과 설명을 나열하면 GPTBot·ClaudeBot·PerplexityBot이 우선 크롤링 대상으로 취급(비공식 관례, 채택률 상승 중).

흔한 오해: "언급량 = 권위"라는 착각

오해: 언급 건수 자체가 많을수록 브랜드 권위 신호가 강해진다고 가정하고, 품질 무관하게 언급 볼륨을 늘리는 전략을 취한다.

실제 메커니즘: Google Knowledge Graph의 엔티티 권위는 언급 건수의 단순 합산이 아니라 출처 다양성·주제 관련성·엔티티 연결 강도의 가중 합산으로 계산된다(구체 수식은 비공개, 특허 문서 기반 추정). 저품질 도메인 100개의 언급보다 DA(Domain Authority 추정) 높은 도메인 3~5개의 편집 독립적 언급이 엔티티 권위에 더 크게 기여한다. 가짜 언급 캠페인을 통해 언급량을 급증시키면 SpamBrain의 이상 탐지를 오히려 트리거해 기존 합법 언급의 신호까지 훼손될 수 있다.

올바른 처리법: 언급 획득 전략을 "볼륨 목표"가 아닌 "출처 품질 목표"로 재설정한다. 매월 DA 40 이상 도메인에서 편집 언급 3~5건을 꾸준히 확보하는 것이, 대가성 저품질 언급 50건보다 중장기 엔티티 권위에 유리하다. Search Console의 "외부 링크 > 상위 연결 사이트" 데이터와 Ahrefs/Moz의 Referring Domain 분포로 출처 품질을 주기적으로 점검해야 한다.

검증과 측정

Google Search Console 외부 링크 보고서: "상위 연결 사이트" 목록을 월별로 비교해 단기 급증 패턴이 없는지 확인 — 어떻게: 전월 대비 20% 이상 신규 도메인 추가 시 해당 도메인의 주제 관련성·Whois 등록일을 교차 검증.
Google Rich Results Test: mentions JSON-LD가 올바르게 파싱되는지 확인. 구조화 데이터 오류는 Search Console 인덱스 커버리지 리포트에서도 노출 — 어떻게: https://search.google.com/test/rich-results 에 URL 입력 후 Detected Items에서 Article + mentions 엔티티 확인.
엔티티 Knowledge Panel 모니터링: 브랜드명 직접 검색 시 Knowledge Panel이 표시되는지, 패널 내 설명·카테고리가 실제 비즈니스와 일치하는지 주기적으로 확인 — 왜: Knowledge Panel은 엔티티 권위의 가시적 지표로, 가짜 언급으로 인한 스팸 판정 시 패널이 제거되거나 잘못된 카테고리로 분류될 수 있음.

Q1. 협찬·파트너십 콘텐츠에서 브랜드를 언급하면 전부 스팸으로 처리되나요?

아니다. Google Spam Policies는 대가성 언급 자체가 아니라 "rel 속성 미표기·공개 미고지"를 문제로 삼는다. 협찬 콘텐츠의 경우 해당 링크에 rel="sponsored"를 명시하고, 페이지 상단에 광고·협찬 고지를 추가하면 페널티 대상에서 제외된다. 또한 네이버 공정거래위원회 가이드라인에 따라 블로그·SNS 협찬 게시물에는 한국어 고지 문구("이 글은 XX로부터 협찬을 받아 작성되었습니다")를 본문 첫 단락 또는 마지막 단락에 명시해야 한다.

Q2. 이미 가짜 언급 캠페인을 진행했다면 어떻게 복구해야 하나요?

Google Search Console의 링크 보고서에서 해당 도메인을 확인한 뒤 두 단계로 처리한다. 첫째, 직접 통제 가능한 사이트라면 해당 언급 페이지를 삭제하거나 noindex 처리 후 Google URL 삭제 도구로 캐시 제거를 요청한다. 둘째, 통제 불가한 외부 사이트라면 Google Disavow Tool(https://search.google.com/search-console/disavow-links)에 도메인 수준으로 등록해 해당 링크·언급 신호를 무효화 요청한다. 단, Disavow는 구글이 이미 스팸으로 탐지한 링크에 추가로 적용하는 것으로, 오용 시 합법 링크까지 제외될 수 있으므로 신중하게 도메인을 선별해야 한다. 복구 후 Search Console의 "수동 조치" 탭에서 링크 스팸 관련 수동 조치 여부를 확인하고, 수동 조치가 적용됐다면 개선 후 재검토 요청을 제출한다.

참고 자료

이 글의 권고는 아래 공식 문서·연구를 근거로 합니다.