Linguagem R e a crise de replicabilidade na ciência
Garantir a replicabilidade de análises e experimentos é uma premissa básica a ser adotada por qualquer pesquisador. Podemos elencar três razões que tornam esta uma premissa fundamental na ciência [1]:
-Contribui para o aprimoramento da qualidade dos resultados de pesquisa e acúmulo do conhecimento científico.
-Facilita o processo de compreensão de noções básicas de análise de dados por parte de pesquisadores iniciantes.
-Protege a comunidade científica contra erros honestos e contra fraudes deliberadas.
Essa postagem visa explicar a razão pela qual devemos disponibilizar dados e scripts de análise em estudos científicos e análises técnicas, especialmente aquelas que, quando publicadas, possam orientar a opinião pública ou de determinados setores da sociedade, e/ou subsidiar decisões governamentais.
A Crise de Replicabilidade
O assunto pode parecer novo para muitas pessoas, mas discussões em torno da Crise de Replicabilidade já ocorrem na comunidade científica internacional há algumas décadas, e pode estar em seu auge. Em 2016 a Revista Nature publicou um estudo que revelou que, em um universo de 1.576 pesquisadores de diversas universidades ao redor do mundo, 70% afirmam que tentaram e não conseguiram reproduzir os estudos de outros cientistas e mais da metade não conseguiu reproduzir seus próprios experimentos. Ao todo, 52% dos estudiosos revelou acreditar em uma crise significativa de replicabilidade na ciência [2].
Um estudo publicado em 2018 na Plos One indicou que entre as principais razões para baixas taxas de replicabilidade em estudos científicos estão erros e omissões no relatório de resultados estatísticos [3]. Hoje a crise de replicabilidade é um problema conhecido na comunidade científica, e há consenso em torno da afirmação de que a seletividade na publicação dos dados é uma das principais razões para este fenômeno. Abordagens duvidosas - como a seleção de dados de forma a direcioná-los a uma hipótese específica - geram publicações com informações seletivas e, portanto, de difícil reprodutibilidade [4].
Esta crise é especialmente problemática quando temos a compreensão de que ciência se tornou uma ferramenta dada como “certa” pelas pessoas (ou pela maior parte destas), já que seus resultados muitas vezes são aceitos sem nenhum questionamento. Esse é um problema recorrente na divulgação científica para o público em geral e vai diretamente contra a essência da ciência: sem questionamento, não há progresso [3]. Por outro lado, sempre é preciso cuidado para que este fenômeno não se torne mero discurso alarmista e resulte, em vez do avanço, em ataques à ciência e ao conhecimento especializado [5].
Linguagem R e a análise replicável
Diversas soluções já foram sugeridas para solucionar ou mitigar esta crise, mas o fato é que não há solução simples quando muitos são os fatores que contribuem para sua existência. No entanto, Roger Peng (2009) formulou uma atrativa definição de replicabilidade, traduzida a seguir [6]:
Em muitos campos de estudo, existem exemplos de investigações científicas que não podem ser totalmente replicadas devido à falta de tempo ou recursos. Em tal situação, é necessário um padrão mínimo que possa preencher o vazio entre a replicação completa e nada. Um candidato a esse padrão mínimo é a “pesquisa reproduzível”, que exige que conjuntos de dados e códigos de computação sejam disponibilizados a outros para verificar os resultados publicados e realizar análises alternativas.
A partir da afirmação de Peng pode-se compreender a importante contribuição do R, R Markdown, knitr, sweave, R Studio e GitHub na promoção da replicabilidade de estudos científicos. Por esta razão este Blog utiliza estes recursos de modo a promover e incentivar a transparência na investigação científica e a contribuição técnico-científica e pedagógica das análises replicáveis.
Mãos à obra!
Referências
[1] https://periodicos.ufpe.br/revistas/politicahoje/article/download/3770/3074
[2] https://www.nature.com/news/1-500-scientists-lift-the-lid-on-reproducibility-1.19970
[3] https://doi.org/10.1371/journal.pone.0202447
[4] http://www.astropt.org/2016/06/01/existe-uma-crise-de-reprodutibilidade-na-ciencia/
[5] http://www.labi.ufscar.br/2018/04/27/reprodutibilidade-na-ciencia-e-epidemia-de-fiscalizacao/
[6] https://academic.oup.com/biostatistics/article/10/3/405/293660