aguarde...

5 de novembro de 2019

Dados – de objetos a ativos

Dados – de objetos a ativos

Dados. A base confusa da pluralidade da pesquisa. A base para uma compreensão científica do mundo. Pára-raios para a negociação de interesses políticos, sociais e econômicos.

Nos últimos 150 anos, as idéias mudaram drasticamente quanto ao que conta como dados, quais dados são confiáveis ​​e quem os possui. Antes considerados objetos estáveis, cujo significado foi determinado por um punhado de intérpretes profissionais, os dados agora são bens reutilizáveis. Sua coragem depende da extensão em que são mobilizados em contextos e agregados a outros. Crescendo em volume, variedade e valor, os dados chegaram a impulsionar o próprio processo de descoberta.

Essa designação explícita de ativos só se tornou possível através de uma rede complexa de desenvolvimentos institucionais, tecnológicos e econômicos. A história e as consequências de como essa rede foi tecida transformaram repetidamente a pesquisa e seu papel na sociedade.

Coleta de mercadorias

Até o início do século XIX, os esforços para coletar fatos e objetos de estudo eram liderados por indivíduos visionários, tipicamente apoiados por clientes ricos. Naturalistas percorriam o mundo em busca de espécimes biológicos novos para a ciência. Os astrônomos da corte inventaram ferramentas para observar novas partes do cosmos. As grandes quantidades de dados acumulados foram sistematizadas e analisadas através de modelos simples e poderosos (pense nas leis de Kepler) e sistemas de classificação (como o desenvolvido pelo botânico Carl Linnaeus). Assim nasceu o mito do teórico heróico, a ordem mineira a partir do caos das observações. Essa visão individualista estava atrelada à compreensão dos dados como fundamentalmente privados – seu valor científico residindo na interpretação conceitual.

O século XIX marcou uma mudança. Os dados, como agora os reconhecemos, tornaram-se institucionalizados como mercadorias sociais. Seu valor intelectual, financeiro e político surgiu de investimentos, exigindo regulamentação e supervisão. O gabinete de maravilhas botânicas que era o museu de história natural de Paris foi reorganizado como um repositório líder mundial e acessível ao público de objetos de potencial valor científico. Na década de 1850, os museus de história natural de Berlim, Londres e Nova York seguiram o exemplo.150 anos da natureza – uma coleção de aniversário

A centralização dos mercados de alimentos gerou abordagens padronizadas para a avaliação e o comércio de organismos – como as medidas de safra elaboradas pelo Conselho de Comércio de Chicago, em Illinois. As epidemias de cólera na Europa estimularam a coleta em larga escala de informações sobre a disseminação e os alvos das doenças. Surgiram novos métodos de visualização e análise, como os famosos mapas do médico John Snow sobre como a água contaminada espalha a cólera no centro de Londres.

Os serviços meteorológicos nacionais começaram a criar vínculos entre os dados coletados regionalmente. A Convenção de Bruxelas de 1853 sobre meteorologia naval coordenou os diários de bordo dos navios nos primeiros registros de dados quase globais para a ciência climática. Em Berlim, o primeiro escritório de normas real, o Physikalische-Technische Reichsanstalt, foi inaugurado em 1887 com o físico Hermann von Helmholtz como diretor fundador e um mandato para gerar dados necessários para a sociedade como um todo. Enquanto isso, o Exército dos EUA encarregou a Biblioteca do Escritório do Cirurgião-Geral de coletar o maior número possível de casos de doenças. Dentro de 30 anos, tornou-se a maior biblioteca médica do mundo.

Tesouros nacionais

Na virada do século XX, a ascensão dos estados-nação e as crescentes demandas do comércio internacional impulsionaram iniciativas para medir a natureza e a sociedade de uma maneira mais sistemática e objetiva. As infraestruturas nacionais de informação ajudaram as regiões a compartilhar dados, marcando o início de um novo globalismo informacional. Entidades internacionais, como a Liga das Nações e o Fundo Monetário Internacional, ansiavam pela globalização da coleta e análise de dados para muitos propósitos e em todos os domínios científicos.

Por exemplo, a Organização de Saúde da Liga das Nações criou a Comissão Permanente de Padronização Biológica para monitorar testes de drogas e ensaios biológicos desde 1924. Bem antes da Segunda Guerra Mundial, havia um momento crescente para compartilhar informações sobre emprego, desemprego, salários e migração; a partir de 1947, esses dados foram reunidos pela nova Comissão Internacional de Estatística. Tais iniciativas foram promovidas por um quadro cada vez maior de pesquisadores, administradores, comerciantes e políticos.

Tudo isso alimentou o desenvolvimento de abordagens sofisticadas para quantificação. As estatísticas emergiram como uma disciplina separada – a principal fonte de informações para práticas emergentes de seguro e sistemas de monitoramento de saúde pública. Técnicas foram desenvolvidas para atender à complexidade de exercícios sociais, como o censo. O pensamento no nível da população também dominou as ciências da vida – para o bem (genética) e para o mal (eugenia). Um novo tipo de coleta de dados focada em mutantes genéticos de uma única espécie modelo, como a mosca da fruta.

Dados - de objetos a ativos

As duas guerras mundiais interromperam severamente a coleta e o compartilhamento de dados no curto prazo. Mas a partir da década de 1940, o enorme investimento militar em inteligência e tecnologias da informação deu início ao impulso em direção à computação mecanizada. A corrida espacial foi talvez a contribuição mais notável da Guerra Fria para os sistemas e práticas globalizados de dados, particularmente a tecnologia de satélites. Isso produziu a primeira visão global do planeta e estimulou a inauguração do sistema Intelsat para redes mundiais de comunicações civis na década de 1960.

A Organização Meteorológica Mundial foi fundada em 1950 para supervisionar a ligação internacional de serviços meteorológicos regionais, por exemplo, no Programa Global de Pesquisa Atmosférica. O Ano Geofísico Internacional de 1957–58 marcou uma mudança radical no compromisso das ciências da Terra com o intercâmbio global de dados e foi uma conquista diplomática no meio da guerra fria.

SÉRIE DE ENSAIOS: LIÇÕES DO PASSADO PARA O FUTURO DA PESQUISA

Leia mais desta coleção publicada para marcar o 150º aniversário da Natureza , no qual os principais historiadores exploram como o século e meio passado forjou algumas das características definidoras do sistema científico atual.

Bens globais

Desde a década de 1970, quase todos os campos científicos estavam construindo infraestruturas globais digitalizadas para compartilhamento de dados. As Nações Unidas consolidaram seu sistema global de monitoramento ambiental, assim como a Organização Mundial da Saúde sistematizou seus esforços para mapear a propagação de doenças infecciosas. O Santo Graal tornou-se o desenvolvimento de ferramentas, como modelos de computador, capazes de triturar números em uma escala anteriormente inimaginável.

Cada vez mais, os dados eram vistos como ativos compartilháveis ​​para reaproveitamento, cujo valor poderia mudar dependendo do uso. Essa visão deve muito ao movimento cibernético, com ênfase na modularidade e complexidade. Mais uma vez, a mudança do papel dos dados também foi informada pelo crescimento do comércio internacional e pelo crescente reconhecimento da pesquisa como um mecanismo de crescimento econômico, poder militar e relações internacionais.

Também na década de 1970, grandes ciências, como estudos de colisões de partículas no Laboratório Nacional Los Alamos, no Novo México, e no CERN, o laboratório de física de partículas da Europa, perto de Genebra, na Suíça, ocuparam o centro do palco. Aqui, a produção e o comércio de dados não eram mais responsabilidade de pesquisadores individuais. Em vez disso, foram o resultado de grandes investimentos e esforços coletivos realizados em instalações experimentais centralizadas. Essa centralização era inviável em muitos campos, por exemplo, nas ciências ambientais, biológicas e climáticas, que trabalham com dados observacionais e não experimentais. No entanto, mesmo essas disciplinas estavam focadas na construção de redes para compartilhar informações, para que pudessem ser introduzidas em novas ferramentas computacionais.

Dados - de objetos a ativos

Desde os anos 80, computadores portáteis, modelagem e simulações moldaram a coleta, manipulação e arquivamento de dados. Os cientistas climáticos desenvolveram maneiras de usar registros herdados para reconstruir uma história da atmosfera em nível global. Esse esforço levou ao agrupamento de dados internacionais, culminando em 1992 no Sistema Global de Observação do Clima.

Na biologia, a busca pelo mapa mudou-se para o nível molecular com grandes projetos de sequenciamento genético, primeiro em organismos modelo, como o verme nematóide Caenorhabditis elegans , depois por meio do Projeto Genoma Humano 9 . Os bancos de dados de sequenciamento foram reinventados como playgrounds para descoberta, a fim de facilitar o compartilhamento imediato, visualização e análise on-line a baixo custo, transformando o investimento maciço na produção de dados genômicos em conhecimento útil.

Temporada aberta

À medida que as infraestruturas globais de dados e as instituições relacionadas cresceram, os recursos necessários para mantê-las aumentaram e de maneiras que não se encaixam nos regimes contemporâneos de financiamento, crédito e comunicação. Por exemplo, os curadores de bancos de dados biológicos fazem um trabalho essencial. Mas eles não publicam rotineiramente em periódicos de alto escalão e podem não ser reconhecidos ou recompensados ​​como pesquisadores de alto nível. Da mesma forma, manter as plataformas digitais robustas e adequadas ao objetivo requer um investimento sério. Quanto mais os dados se movimentam e são redirecionados, mais vulneráveis ​​são às formas de manipulação injustificadas e até enganosas.

Nas últimas décadas, o movimento Open Science exigiu o compartilhamento generalizado de dados como fundamental para uma melhor pesquisa. Isso levou a várias mudanças. Um é o nascimento de periódicos dedicados amplamente à publicação de conjuntos de dados. Outro é o investimento ambicioso em infraestruturas de dados, exemplificado pela European Open Science Cloud. E as diretrizes da FAIR foram elaboradas sobre como os dados devem ser rotulados e gerenciados para torná-los reutilizáveis. Também houve pedidos para melhorar as recompensas dos administradores de dados (como técnicos, arquivistas e curadores), para elevar seu status profissional de trabalhadores de suporte a criadores de conhecimento.

Essas reformas são soluções temporárias para uma crise de larga escala do sistema de pesquisa contemporâneo, enraizadas na incapacidade de conciliar os diversos aspectos sociais e científicos dos dados. A crise lembra como o século XX reconfigurou os dados da pesquisa como ativos políticos e econômicos. Sua propriedade pode conferir e sinalizar energia, e sua liberação pode constituir uma ameaça à segurança – como nos esforços da Guerra Fria para conter dados geológicos que poderiam ter sinalizado testes nucleares. Agora, novas tecnologias estão se cruzando com regimes emergentes de propriedade e comércio de dados. A partir dos anos 2000, um punhado de empresas criou – e exerceu controle sobre – novos tipos de dados deixados por bilhões de pessoas quando elas se encontram, trabalham, se divertem, fazem compras e interagem on-line. (Pense na Amazon e no Google.)

À medida que os algoritmos se tornam cada vez mais opacos, a transparência e a responsabilidade das técnicas e ferramentas usadas para interpretar os dados diminuem. Enquanto os curadores de dados continuam sendo as Cinderelas da academia, aqueles que entendem e controlam o gerenciamento de dados subiram nas fileiras da empresa. E crescem as preocupações em torno dos direitos de propriedade de dados, especialmente na sequência do uso indevido de dados pessoais por pessoas como Facebook e Cambridge Analytica, empresa britânica.

Tais tensões entre dados, como bens públicos e mercadorias privadas, moldaram práticas e tecnologias há muito tempo. Considere, por exemplo, o debate acirrado sobre a propriedade e a disseminação de dados genômicos nos anos 90. Nessa ocasião, o compartilhamento gratuito venceu com o estabelecimento das Regras das Bermudas – um acordo entre pesquisadores públicos para depositar suas seqüências em bancos de dados públicos o mais rápido possível . Com grande sucesso, isso abriu caminho para práticas de dados abertos em outros campos. No entanto, também enfatizou as vantagens financeiras de possuir dados genômicos uma lição aprendida rapidamente pelas empresas que sequenciam e pretendem interpretar os genomas dos clientes, que normalmente retêm e usam esses dados. Outro exemplo é o grande número de patentes registradas para organismos sintéticos pelas indústrias químicas.

Dados - de objetos a ativos

Valor adicionado

O uso de big data como entrada para sistemas de inteligência artificial depende da promessa de riquezas globais, abrangentes e facilmente disponíveis. Em princípio, o casamento de poderosas ferramentas analíticas com grandes dados biológicos pode apoiar medicina personalizada e agricultura de precisão. Da mesma forma, os dados sociais coletados das plataformas da Internet e dos serviços de mídia social podem informar políticas, estratégias de negócios e educação baseadas em evidências. No entanto, a história mostra que a movimentação de dados de pesquisa não é tão simples. As questões técnicas subjacentes à integração e ao uso são questões sociais, éticas e semânticas espinhosas.

Como diferentes culturas de pesquisa podem ser incentivadas a se comunicar efetivamente? Qual é a melhor maneira de coletar, compartilhar e interpretar dados gerados pelo estado, indústria ou mídia social? Quais especialistas e partes interessadas devem ter voz na gestão e análise de dados? Quem deve ter acesso a quê, quando e como? Abordar essas questões requer administração e monitoramento eficazes e uma visão de longo prazo do domínio da pesquisa em questão. Também exige um repertório de habilidades, métodos e instituições voltadas para o estudo de objetos de pesquisa específicos.

Em resumo, a geração, processamento e análise de dados são inevitavelmente carregados de valor. A legitimidade científica dessas atividades depende da extensão em que esses valores são sustentados pelo escrutínio público. De fato, os melhores exemplos de pesquisa intensiva em dados até hoje incluem estratégias e métodos para explicar explicitamente as escolhas feitas durante a coleta, armazenamento, disseminação e análise de dados.

Bancos de dados de organismos-modelo como PomBase (para o fermento de fissão Schizosaccharomyces pombe ) e FlyBase (para Drosophila ), por exemplo, sinalizam claramente a procedência do que armazenam, incluindo informações sobre quem criou os dados, com que finalidade e sob quais circunstâncias experimentais . Os usuários podem então avaliar a qualidade e o significado dos dados. Da mesma forma, o Catálogo de Mutações Somáticas em Câncer (COSMIC) captura a procedência de suas propriedades e as decisões interpretativas tomadas por seus curadores durante o processamento. Isso ajuda os médicos a reavaliar o valor das informações.

Quanto mais tais premissas e julgamentos são filtrados por grandes infraestruturas digitais, mais fácil fica para ocultá-las ou perdê-las, tornando impossível para as gerações futuras situar os dados adequadamente. Os dados são artefatos culturais cujo significado é claro apenas quando sua proveniência – e processamento subsequente – são conhecidos.

O desenvolvimento tecnológico, particularmente a digitalização, revolucionou a produção, métodos, disseminação, objetivos, atores e papel da ciência. Tão importante quanto, no entanto, são as amplas mudanças nos processos, regras e instituições que determinaram quem faz o quê, sob quais condições e por quê. Governança, em uma palavra. Os dados emergem dessa leitura da história como objetos relacionais, cuja própria identidade como fontes de evidência – sem falar em seu significado e interpretação – depende dos interesses, objetivos e motivações das pessoas envolvidas e de seu contexto institucional e financeiro. Extrair conhecimento de dados não é um ato neutro.

A criação de registros robustos dos julgamentos inseridos nos sistemas de dados, complementados por reflexões explícitas sobre quem eles representam, incluem ou excluem, aumentará a responsabilidade dos usos futuros dos dados. Também ajuda a trazer questões de valor para o coração da pesquisa, em vez de fingir que são externas ao processo científico, como aconteceu sem dúvida na bioética. Este é um passo crucial para transformar as ciências de big data em aliados confiáveis ​​para enfrentar os graves desafios sociais e ambientais do século XXI.

Posted in Blog
Write a comment