Aguarde...

18 de maio de 2023

As ferramentas de IA estão destruindo seu site. Isso é uma coisa boa?

As ferramentas de IA estão destruindo seu site. Isso é uma coisa boa?

A ascensão da inteligência artificial (IA) tem sido disruptiva. As coisas estão mudando rapidamente. E parece que essa tecnologia está colocando novas questões morais, éticas e existenciais a cada dia.

Há muitas histórias e opiniões para escolher. Mas um incidente recente chamou minha atenção.

O proprietário de um site alegou que seu site estava sendo “martelado” por um bot de extração de conteúdo. A ferramenta img2dataset, cataloga grandes volumes de imagens para uso em ferramentas de IA como Stable Diffusion.

O dono do site abriu um problema no repositório GitHub da ferramenta. Ele foi aconselhado a optar por não raspar. Para fazer isso, ele teria que adicionar cabeçalhos específicos ao seu site.

Esta é a nossa nova realidade. Essas ferramentas estão pegando todos os tipos de conteúdo – incluindo imagens protegidas por direitos autorais. Eles estão regurgitando isso para seus usuários. Na verdade, é o maior mash-up do mundo.

Além do mais, cabe aos proprietários do site especificar que não desejam participar. Isso é tão escandaloso quanto parece? Vamos examinar o problema e o que isso significa para os proprietários de sites.

Extrair conteúdo do site para obter lucro não é novidade

Em um nível, uma ferramenta que copia seu site não é uma ideia nova. Os mecanismos de pesquisa indexam conteúdo e exibem bits relevantes nos resultados há anos. Além disso, o RSS permitiu a recuperação de texto e imagens desde os primórdios da web.

E empresas como o Google lucraram enormemente com esses esforços. Quanto mais dados eles coletam, melhores resultados eles fornecem. Assim, mais olhos eles atraem. Isso resulta em maior receita de anúncios.

Tem sido o caminho do mundo há algumas décadas. Portanto, não é surpresa que outras empresas estejam adotando uma abordagem semelhante.

Afinal, um desenvolvedor de IA precisa de uma boa fonte de conteúdo para “treinar” sua ferramenta. Que melhor maneira de fazer isso do que coletar o máximo de dados possível? Para eles, a web é o presente que continua dando.

Portanto, o simples fato de um bot estar visitando seu site e catalogando conteúdo não é grande coisa. Mas talvez seja aí que as semelhanças terminam.

Existe algum benefício para os proprietários de sites?

A grande diferença está em quem se beneficia. Quando um mecanismo de pesquisa indexa seu site, você ganha algo. Melhores classificações significam mais visitantes – e potencialmente mais clientes. E se você pratica otimização de mecanismos de busca (SEO), está pedindo uma visita ao Google.

Os bots AI não podem subir ao nível de um convidado não convidado. Mas eles também não estão visitando exatamente para seu benefício.

Por exemplo, quando você pede ao ChatGPT para escrever um código, não está pensando no curso de ciência da computação que fez na faculdade. A ferramenta está acessando o conteúdo previamente copiado. É verdade que pode não ser uma cópia linha por linha (embora às vezes seja). Mas o modelo de linguagem está usando o que “aprendeu” para produzir uma resposta.

Da mesma forma, gerar uma imagem de Elon Musk montando um unicórnio não é mágica (desculpe estragar a diversão). Os vários componentes visuais tinham que vir de algum lugar. Imagens originais (e potencialmente protegidas por direitos autorais) são ingredientes-chave.

Em ambos os cenários, os beneficiários são a ferramenta de IA e o usuário final. As fontes usadas para gerar esse conteúdo? Eles têm mais tráfego de bot adicionado ao uso mensal de largura de banda.

O desenvolvedor do img2dataset tem uma opinião um pouco diferente. Entre suas respostas às preocupações sobre a exigência de opt-out:

“Você terá muitas oportunidades nos próximos anos para se beneficiar da IA. Espero que você veja isso mais cedo ou mais tarde. Como criadores, vocês têm ainda mais oportunidades de se beneficiar disso.”

A lógica deles parece sugerir que todos nos beneficiaremos da IA ​​em algum momento. Portanto, permitir que a ferramenta raspe seu conteúdo é bom para a humanidade. Ou algo assim.

As ferramentas de IA estão destruindo seu site. Isso é uma coisa boa?

Bloquear ou não bloquear?

A decisão de impedir que a IA raspe seu site é complexa. Ou requer vários estágios, pelo menos.

Talvez a parte mais fácil seja identificar sua filosofia. Você está bem com seu conteúdo sendo copiado? Se assim for, continue. Caso contrário, as outras partes da equação são mais complicadas.

Por um lado, não há uma maneira universal de desativar toda a raspagem de IA. Os cabeçalhos para bloquear image2dataset funcionam apenas para essa ferramenta. Isso significa acompanhar as ferramentas populares e encontrar métodos para bloqueá-las.

E empresas como Google e Microsoft estão complicando ainda mais a conversa. Ambos possuem mecanismos de busca. Você provavelmente deseja que eles indexem seu site. Mas eles também têm ferramentas de IA. Onde está a linha traçada entre esses diferentes produtos?

De sua parte, o Bard do Google afirma que não extrai conteúdo de sites (perguntei!). Mas na mesma conversa, também diz que os sites fazem parte de onde obtêm dados. Faça o que quiser com essas respostas.

Se você quiser bloquear todos os tipos de ferramentas de IA, não será fácil. Mas talvez não por muito tempo. Posso imaginar serviços que atenderão aos proprietários de sites que não querem nada com a extração de conteúdo. Eles podem nos permitir fazer isso com mais eficiência.

Mas até esse momento, isso parece uma batalha perdida. A IA é inevitável. E quem tem tempo para catalogar cada novo aplicativo que chega ao mercado? Além disso, pode ser difícil bloquear essas ferramentas sem afetar negativamente o SEO.

As ferramentas de IA estão destruindo seu site. Isso é uma coisa boa?

Proprietários de sites devem cuidar de si mesmos

Nem todos serão tão impactados quanto o usuário frustrado em nossa introdução. Nesse caso, parece que image2dataset estava indexando um grande volume de imagens. A menos que você esteja no mesmo barco, seu site provavelmente não terá problemas.

Mas a questão é muito mais profunda. Deve nos fazer pensar sobre como valorizamos nosso conteúdo. E devemos questionar que tipo de direitos (se houver) essas ferramentas têm. Eles podem simplesmente pegar o que querem? Ou deveria haver diretrizes descrevendo o que é e o que não é permitido?

Uma regulamentação significativa do setor pode demorar meses ou até anos. Nesse ínterim, os proprietários de sites são deixados à própria sorte.

Como parte do esforço, é importante fazer sua voz ser ouvida. Incentivar as empresas a tornarem a desativação do scraping um processo transparente. Expresse suas preocupações a autoridades eleitas e outras pessoas influentes.

Pode não desacelerar o ataque de ferramentas de IA. Mas isso pode evitar que as coisas fiquem muito fora de controle. Isso beneficiará a todos nós.

Postado em BlogTags:
Escreva um comentário