Tirada do ar após uma violação, a enorme coleção de páginas da web, e-books e outros conteúdos está realizando um trabalho essencial abandonado pela web com fins lucrativos.
Nunca me ocorreu que eu pudesse ser insuficientemente grato pelo Internet Archive. Por muitos anos, eu o usei quase que diariamente, inclusive para pesquisar vários artigos que eu não poderia ter escrito de outra forma. Eu carreguei alguns dos meus próprios trabalhos nele, enviei para a biblioteca acadêmica do meu avô para digitalização e doei dinheiro (embora não o suficiente).
Mas, na última semana, fiquei ainda mais agradecido pelo Archive, pelos piores motivos possíveis. Em 9 de outubro, o site sofreu um ataque DDoS que acabou sendo vinculado a uma violação de dados completa, na qual hackers roubaram e vazaram as informações de conta de 31 milhões de usuários. Em seguida, ele ficou offline para ser reforçado contra novos ataques desse tipo, um processo que o fundador Brewster Kahle disse que deveria levar “dias, não semanas”. Enquanto escrevo isso, apenas a Wayback Machine está de volta, em formato somente leitura.
No geral, tem sido um annus horribilis para este repositório gratuito e único de conhecimento e criatividade humana. Mesmo antes do ataque recente, ele sofreu um ataque DDoS anterior em maio; e em setembro, perdeu seu recurso em um processo judicial movido por grandes editoras sobre sua biblioteca de empréstimos de e-books digitalizados, o que já havia resultado na retirada de 500.000 títulos da lista. Ele ainda está lutando contra um caso diferente envolvendo sua coleção de discos digitalizados de 78 rpm.
Em outras palavras, o ano foi cheio de lembretes de quão frágil o Internet Archive é como instituição. Mas ficar sem ele completamente — só por alguns dias — focou minha atenção em quanto precisamos dele.
Primeiro, há a Wayback Machine. Estamos agora 30 anos na era da web, e a porcentagem de discurso público que ocorre digitalmente em vez de em formato impresso só continua a crescer. No entanto, em vez de se tornarem mais dedicados a preservar seus arquivos de conteúdo passado, muitos editores parecem ter desistido de toda a noção. Em maio, Hunter Schwarz relatou um estudo do Pew Research Center que descobriu que 38% dos links da web de 2013 não funcionam mais. Artigos e vídeos que seriam inestimáveis para fins de pesquisa muitas vezes desapareceram: Não tenho certeza se algo que escrevi enquanto estava na equipe da PC World , onde trabalhei de 1994 a 2008, ainda está em seu site. Nestes tempos mais desafiadores para o negócio da mídia, sites de notícias inteiros estão desaparecendo e levando seus arquivos com eles.
Quando páginas da web mais antigas conseguem sobreviver, elas geralmente sofrem de problemas graves de formatação e perdem parte ou toda a sua mídia. Elas também podem atingir um tipo de estado fantasma no qual são difíceis de rastrear, a menos que você já saiba que elas estão lá. Por exemplo, CNN.com ainda tem alguns artigos historicamente significativos da década de 1990, mas, até onde eu sei, você não consegue encontrá-los com seu próprio mecanismo de busca.
Há muitas explicações para esse lamentável estado de coisas. Preservar conteúdo criado em um sistema de publicação depois que você mudou para outro é um incômodo. Assim como manter o mesmo formato para URLs ao longo dos anos. E alguns editores ficaram preocupados que eles podem não ter direitos legais comprovados para continuar publicando cada palavra e imagem que eles já postaram. Mas todos esses problemas poderiam ser superados se as empresas vissem dinheiro a ser feito em manter tudo disponível para sempre. Infelizmente, elas geralmente não veem.
(Divulgação completa: o FastCompany.com tem, até onde sei, um arquivo razoavelmente abrangente de nossas coisas, desde nossa primeira edição em 1995. Sim, algumas delas foram vítimas de peculiaridades de formatação, mas estou feliz que tenham sobrevivido.)
À medida que grandes faixas da web apodreceram, o fato de que o Internet Archive, uma organização sem fins lucrativos, vem armazenando páginas desde 1996 e as disponibilizando por meio da Wayback Machine desde 2001 só se tornou mais importante. Até mesmo o Google descontinuou seu venerável cache de páginas da web — e o substituiu por links para a Wayback Machine.
Depois, há o restante do Internet Archive, uma vasta biblioteca de documentos, vídeos, áudios e softwares que representam não apenas os últimos 28 anos, mas toda a história humana. O Archive não é a única instituição que faz parte desse trabalho: por exemplo, o HathiTrust é uma ótima biblioteca eletrônica gratuita que você pode acessar se tiver uma afiliação com uma faculdade ou universidade, incluindo apenas ser ex-aluno de uma. Mas ninguém mais tentou fazer tudo isso, tudo em um só lugar.
Empresas com fins lucrativos, é claro, veem valor em livros, filmes e músicas mais antigos. É por isso que algumas delas processaram o Internet Archive por suas ofertas. Mas há enormes quantidades de material que elas nunca se incomodarão em disponibilizar. Muitas vezes, elas nem são grandes administradoras do conteúdo que têm: a loja Kindle da Amazon, a coisa mais próxima que temos de uma coleção abrangente de e-books pagos, ficou tão poluída com spam gerado por IA que navegar nela me dá dor de cabeça.
São os itens que de outra forma seriam inatingíveis que tornam o Archive essencial. Eu o uso regularmente para ler revistas de informática dos anos 1970 e 1980. Ele tem um romance escrito por um primo distante meu que deve ter saído de catálogo logo após ser lançado em 1949. Na semana passada, pouco antes da violação, procurei algo em uma lista telefônica de Londres de 1973. Várias vezes durante a interrupção, eu me peguei indo lá instintivamente para verificar algo, apesar de saber que o site estava fora do ar.
Boas bibliotecas físicas veem a obscuridade não como uma desculpa para ignorar uma obra, mas como um argumento para colecioná-la e garantir que ela permaneça disponível quando necessário. O mesmo acontece com o Internet Archive. A diferença é que ele nunca ficará sem espaço. Como a Wikipedia — talvez seu único par entre as instituições online — é um bem público em uma escala que só poderia existir na era digital. E existe apenas porque Brewster Kahle pensou que deveria existir — e porque um número enorme de pessoas contribuiu para torná-lo a realidade surpreendente que é.