Aguarde...

26 de junho de 2024

ENORME vazamento de documentos da Pesquisa Google revela o funcionamento interno do algoritmo de classificação

ENORME vazamento de documentos da Pesquisa Google revela o funcionamento interno do algoritmo de classificação

Os documentos revelam como a Pesquisa Google está usando ou usou cliques, links, conteúdo, entidades, dados do Chrome e muito mais para classificação.

Um conjunto de documentos vazados do Google nos deu uma visão sem precedentes da Pesquisa Google e revelou alguns dos elementos mais importantes que o Google usa para classificar o conteúdo.

O que aconteceu. Milhares de documentos, que parecem vir do Content API Warehouse interno do Google, foram lançados em 13 de março no Github por um bot automatizado chamado yoshi-code-bot. Esses documentos foram compartilhados com Rand Fishkin, cofundador da SparkToro, no início deste mês.

  • Continue lendo para descobrir o que aprendemos com Fishkin, bem como com Michael King, CEO da iPullRank, que também revisou e analisou os documentos (e planeja fornecer análises adicionais para Search Engine Land em breve).

Por que nos importamos. Tivemos uma ideia de como o algoritmo de classificação do Google pode funcionar, o que é inestimável para SEOs que podem entender o que tudo isso significa. Em 2023, tivemos uma visão sem precedentes dos fatores de classificação do Yandex Search por meio de um vazamento, que foi uma das maiores histórias daquele ano.

Este documento do Google vaza? Provavelmente será uma das maiores histórias da história do SEO e da Pesquisa Google.

O que há dentro. Aqui está o que sabemos sobre os documentos internos, graças a Fishkin e King:

  • Atual: A documentação indica que esta informação é precisa em março.
  • Recursos de classificação: 2.596 módulos estão representados na documentação da API com 14.014 atributos.
  • Ponderação: Os documentos não especificam como qualquer uma das características da classificação é ponderada – apenas que elas existem.
  • Twiddlers: São funções de reclassificação que “podem ajustar a pontuação de recuperação de informações de um documento ou alterar a classificação de um documento”, de acordo com King.
  • Rebaixamentos: o conteúdo pode ser rebaixado por vários motivos, como:
    • Um link não corresponde ao site de destino.
    • Os sinais SERP indicam insatisfação do usuário.
    • Revisão de produtos.
    • Localização.
    • Domínios de correspondência exata.
    • Pornô
  • Histórico de alterações: o Google aparentemente mantém uma cópia de cada versão de cada página que já indexou. Ou seja, o Google pode “lembrar” todas as alterações feitas em uma página. No entanto, o Google usa apenas as últimas 20 alterações de um URL ao analisar links.

Links são importantes. Chocante, eu sei. A diversidade e a relevância dos links continuam a ser fundamentais, mostram os documentos. E o PageRank ainda está muito vivo nos recursos de classificação do Google. O PageRank da página inicial de um site é considerado para todos os documentos.

  • Isso não prova que os porta-vozes do Google mentiram sobre os links não serem um “3 principais fatores de classificação” ou sobre os links serem menos importantes para a classificação. Duas coisas podem ser verdadeiras ao mesmo tempo. Novamente, não sabemos como qualquer um desses recursos é ponderado.

Cliques bem-sucedidos são importantes. Isso não deve ser chocante, mas se você quiser ter uma boa classificação, precisará continuar criando ótimos conteúdos e experiências de usuário, com base nos documentos. O Google usa uma variedade de medidas, incluindo  badClicks , goodClicks , lastLongestClicks e unquashedClicks .

Além disso, documentos mais longos podem ficar truncados, enquanto conteúdos mais curtos recebem uma pontuação (de 0 a 512) com base na originalidade. As pontuações também são atribuídas ao conteúdo do Your Money Your Life, como saúde e notícias.

O que tudo isso significa? De acordo com King:

  • “[Você] precisa gerar cliques mais  bem-sucedidos  usando um conjunto mais amplo de consultas e obter mais diversidade de links se quiser continuar na classificação. Conceitualmente, faz sentido porque um conteúdo muito forte fará isso. O foco em direcionar tráfego mais qualificado para uma melhor experiência do usuário enviará sinais ao Google de que sua página merece uma classificação.

Documentos e depoimentos do julgamento antitruste EUA x Google confirmaram que o Google usa cliques na classificação – especialmente com seu sistema Navboost, “um dos sinais importantes” que o Google usa para classificação. Veja mais da nossa cobertura:

  • 7 documentos imperdíveis de classificação da Pesquisa Google em testes antitruste
  • Como funcionam a pesquisa e a classificação do Google, de acordo com Pandu Nayak do Google

A marca é importante. A grande lição de Fishkin? A marca é mais importante do que qualquer outra coisa:

  • “Se houvesse um conselho universal que eu desse aos profissionais de marketing que buscam melhorar amplamente suas classificações e tráfego de pesquisa orgânica, seria: ‘Construa uma marca notável, popular e bem reconhecida em seu espaço, fora da pesquisa do Google.’”

As entidades são importantes. A autoria vive. O Google armazena informações do autor associadas ao conteúdo e tenta determinar se uma entidade é a autora do documento.

SiteAuthority: o Google usa algo chamado “siteAuthority”.

  • O Google nos disse que algo assim existia em 2011, após o lançamento da atualização do Panda, afirmando publicamente que “conteúdo de baixa qualidade em parte de um site pode impactar a classificação de um site como um todo”.
  • No entanto, o Google negou ter uma pontuação de autoridade de site nos anos seguintes.

Dados do Chrome. Um módulo chamado ChromeInTotal indica que o Google usa dados de seu navegador Chrome para classificação.

Listas de permissões. Alguns módulos indicam que o Google coloca na lista de permissões determinados domínios relacionados a eleições e COVID – isElectionAuthority e isCovidLocalAuthority . Embora saibamos há muito tempo que o Google (e o Bing) têm “listas de exceções” quando “algoritmos específicos impactam inadvertidamente os sites”.

Sites pequenos. Outro recurso é smallPersonalSite – para um pequeno site ou blog pessoal. King especulou que o Google poderia impulsionar ou rebaixar esses sites por meio de um Twiddler. No entanto, isso permanece uma questão em aberto. Novamente, não sabemos ao certo quanto esses recursos são ponderados.

Outras descobertas interessantes. De acordo com documentos internos do Google:

  • A atualização é importante – o Google analisa as datas na assinatura ( bylineDate ), URL ( syntacticDate ) e no conteúdo da página ( semanticDate ).
  • Para determinar se um documento é ou não um tópico central do site, o Google vetoriza páginas e sites e, em seguida, compara os embeddings de páginas ( siteRadius ) com os embeddings de sites ( siteFocusScore ).
  • O Google armazena informações de registro de domínio ( RegistrationInfo ).
  • Os títulos das páginas ainda são importantes. O Google tem um recurso chamado titlematchScore que mede o quão bem o título de uma página corresponde a uma consulta.
  • O Google mede o tamanho médio ponderado da fonte dos termos em documentos ( avgTermWeight ) e texto âncora.

Os artigos.

  • Segredos do algoritmo: a documentação interna de engenharia da Pesquisa Google vazou por King no iPullRank
  • Uma fonte anônima compartilhou comigo milhares de documentos vazados da API de pesquisa do Google; Todos em SEO deveriam vê-los por Fishkin no SparkToro

Atualização, 29 de maio. O Google forneceu uma declaração ao Search Engine Land. Leia nosso acompanhamento: Google responde ao vazamento: falta contexto à documentação .

Atualização, 30 de maio. King escreveu um artigo de acompanhamento para Search Engine Land:

  • Como o SEO avança com o vazamento da API do Google Content Warehouse
  • Junte-se a Mike King e eu no SMX Advanced para uma sessão de última hora explorando o vazamento e suas implicações.

Esclarecimento rápido. Há alguma controvérsia sobre se esses documentos foram “vazados” ou “descobertos”. Disseram-me que é provável que os documentos internos tenham sido incluídos acidentalmente em uma revisão de código e transmitidos ao vivo a partir da base de código interna do Google, onde foram descobertos.

Postado em BlogTags:
Escreva um comentário