Linguagem R e a crise de replicabilidade na ciência

Garantir a replicabilidade de análises e experimentos é uma premissa básica a ser adotada por qualquer pesquisador. Podemos elencar três razões que tornam esta uma premissa fundamental na ciência [1]:

-Contribui para o aprimoramento da qualidade dos resultados de pesquisa e acúmulo do conhecimento científico.
-Facilita o processo de compreensão de noções básicas de análise de dados por parte de pesquisadores iniciantes.
-Protege a comunidade científica contra erros honestos e contra fraudes deliberadas.

Essa postagem visa explicar a razão pela qual devemos disponibilizar dados e scripts de análise em estudos científicos e análises técnicas, especialmente aquelas que, quando publicadas, possam orientar a opinião pública ou de determinados setores da sociedade, e/ou subsidiar decisões governamentais.

A Crise de Replicabilidade

O assunto pode parecer novo para muitas pessoas, mas discussões em torno da Crise de Replicabilidade já ocorrem na comunidade científica internacional há algumas décadas, e pode estar em seu auge. Em 2016 a Revista Nature publicou um estudo que revelou que, em um universo de 1.576 pesquisadores de diversas universidades ao redor do mundo, 70% afirmam que tentaram e não conseguiram reproduzir os estudos de outros cientistas e mais da metade não conseguiu reproduzir seus próprios experimentos. Ao todo, 52% dos estudiosos revelou acreditar em uma crise significativa de replicabilidade na ciência [2].

Um estudo publicado em 2018 na Plos One indicou que entre as principais razões para baixas taxas de replicabilidade em estudos científicos estão erros e omissões no relatório de resultados estatísticos [3]. Hoje a crise de replicabilidade é um problema conhecido na comunidade científica, e há consenso em torno da afirmação de que a seletividade na publicação dos dados é uma das principais razões para este fenômeno. Abordagens duvidosas - como a seleção de dados de forma a direcioná-los a uma hipótese específica - geram publicações com informações seletivas e, portanto, de difícil reprodutibilidade [4].

Esta crise é especialmente problemática quando temos a compreensão de que ciência se tornou uma ferramenta dada como “certa” pelas pessoas (ou pela maior parte destas), já que seus resultados muitas vezes são aceitos sem nenhum questionamento. Esse é um problema recorrente na divulgação científica para o público em geral e vai diretamente contra a essência da ciência: sem questionamento, não há progresso [3]. Por outro lado, sempre é preciso cuidado para que este fenômeno não se torne mero discurso alarmista e resulte, em vez do avanço, em ataques à ciência e ao conhecimento especializado [5].

Linguagem R e a análise replicável

Diversas soluções já foram sugeridas para solucionar ou mitigar esta crise, mas o fato é que não há solução simples quando muitos são os fatores que contribuem para sua existência. No entanto, Roger Peng (2009) formulou uma atrativa definição de replicabilidade, traduzida a seguir [6]:

Em muitos campos de estudo, existem exemplos de investigações científicas que não podem ser totalmente replicadas devido à falta de tempo ou recursos. Em tal situação, é necessário um padrão mínimo que possa preencher o vazio entre a replicação completa e nada. Um candidato a esse padrão mínimo é a “pesquisa reproduzível”, que exige que conjuntos de dados e códigos de computação sejam disponibilizados a outros para verificar os resultados publicados e realizar análises alternativas.

A partir da afirmação de Peng pode-se compreender a importante contribuição do R, R Markdown, knitr, sweave, R Studio e GitHub na promoção da replicabilidade de estudos científicos. Por esta razão este Blog utiliza estes recursos de modo a promover e incentivar a transparência na investigação científica e a contribuição técnico-científica e pedagógica das análises replicáveis.

Mãos à obra!

Avatar
Sérgio Costa
MSc. Engenheiro Florestal

Mestre em Engenharia Florestal pela Universidade Federal do Paraná, atualmente trabalha como Especialista em Modelagem de Dados na Arauco Forest Brasil.

comments powered by Disqus
Próximo
Anterior