19 de abril de 2016

Reproducibilidad en resultados de investigación: los desafíos de asignar fiabilidad

Foto: André Occenstein.
Uno de los pilares de la investigación científica combina la idoneidad de los científicos y la fiabilidad de los resultados, que, a su vez, sustentan la hipótesis que se pretende probar. Así como la falta de ética en la experimentación y publicación científica, la ausencia de reproducibilidad se considera una falla grave que contribuye a poner en riesgo la credibilidad de la ciencia como un todo.

Sin embargo, hay estudios que señalan que más de la mitad de los experimentos que incluyen ensayos clínicos con nuevas drogas y tratamientos son irreproducibles. John Ioannidis, de la Universidad de Stanford, EUA, pasa a decir que la mayoría de los resultados de investigación son, en verdad, falsos. Ioannidis es autor de un modelo matemático que predice que cuanto más pequeña es la muestra y menos estricta la metodología experimental, definiciones, resultados y análisis estadístico, mayor es la probabilidad de error. Además, los estudios que poseen intereses financieros y de otra naturaleza o de gran impacto, también están más propensos a resultados falsos.

La “jerarquía de la ciencia”, que posiciona a las ciencias exactas en la parte superior, las humanidades en la base y las ciencias biológicas en una posición entre ellas, tiene más de 200 años, cita Daniele Fanelli[1], en ese entonces investigador de la Universidad de Edimburgo, en el Reino Unido (elle actualmente es investigador senior en la Universidad de Stanford, EUA). Su estudio correlaciona las áreas del conocimiento, la proporción de resultados positivos y la fiabilidad de los resultados en base al rigor empleado para verificar la hipótesis del autor, realizado con un análisis de más de dos mil artículos en todas las disciplinas. Sus resultados, sin embargo, corroboran el estatus de las ciencias sociales contra innumerables argumentos de que son bastante subjetivas. Fanelli muestra que, cuando se usa un enfoque científico, el grado de fiabilidad se encuentra próximo al de las ciencias naturales.

En este escenario de controversia surge un estudio denominado Proyecto Reproducibilidad: Psicología (Reproducibility Project: Psychology)[2] que se propone evaluar la reproducibilidad de 100 artículos de investigación en psicología, iniciado en 2011 y concluido en 2015, y motivado por las denuncias de fraude y falla en análisis estadístico en estudios clásicos de psicología. Los resultados en el artículo de Nature en 2015[3], señalan que apenas 39 de ellos pudieron ser reproducidos. Los resultados de este estudio, sin embargo, no son absolutos y hay varios matices que van desde “prácticamente idéntico“ a “algo similar” y “nada semejante”. Entre los 61 estudios reprobados en cuanto a reproducibilidad, los científicos clasificaron 24 de estos como presentando resultados “moderadamente similares” a los del experimento original, sin embargo fueron reprobados por el hecho de no alcanzar significación estadística, criterio necesario para ser considerado una replicación correcta.

Este resultado llevaría a la conclusión de que la psicología no es una ciencia reproducible. Sin embargo, áreas como la biología del cáncer y estudios sobre nuevos fármacos tienen índices de reproducibilidad menores, según Fanelli, que considera el resultado sobre el estudio de la psicología bastante aceptable. Los equipos que llevaron a cabo las pruebas de reproducibilidad no siempre tienen a disposición las mismas condiciones experimentales y, ciertamente, no los mismos pacientes que el estudio original. Esto sin duda contribuye a la baja reproducibilidad de los estudios.

Brian Nosek, psicólogo social y jefe del Center for Open Science de EUA, líder del Proyecto Reproducibilidad, trabajó directamente con cerca de 270 colaboradores en la replicación de los estudios de psicología. Al igual que Fanelli, relató a Nature[4] que no hay forma segura de afirmar que un determinado artículo es confiable o no a partir de este estudio. Puede ser que el original o la replicación son defectuosos o que existan diferencias sustanciales entre ellos para permitir una evaluación adecuada. Nosek hace hincapié en que el objetivo del Proyecto Reproducibilidad no es responder simplemente cuántos artículos son confiables, pero advierten sobre la publicación de resultados que no resistirían un escrutinio más detallado y evaluar cuantitativamente el sesgo presente en las publicaciones en el área de psicología. Él cree que si sólo el 3% del los recursos destinados a la investigación fueran empleados en la evaluación de esta naturaleza, harían una gran diferencia.

Al igual que en otras disciplinas, se sabe que no es solamente el rigor metodológico o el significado estadístico lo que está en juego al aprobar un artículo para publicación. Las revistas quieren atraer la atención de sus lectores al publicar preferentemente resultados positivos o polémicos, a veces validados por pruebas estadísticas cuidadosamente seleccionados para satisfacer las necesidades del autor. Esto es particularmente común en biomedicina, y se encuentra en curso una iniciativa semejante, el Proyecto Reproducibilidad: Biología del Cáncer. Vale la pena resaltar que su aplicación enfrentó a mediados de 2015 dificultades para acceder a los datos originales de los estudios revisados y todavía no se ha completado.

Sin embargo, los investigadores en el área de psicología reanudaron el estudio del Proyecto Reproducibilidad: Psicología y llegaron a la conclusión de que no hay evidencias suficientes para dudar de la credibilidad de las publicaciones, de acuerdo con Daniel Gilbert, psicólogo de la Universidad de Harvard, EUA, y uno de los autores del re análisis publicado recientemente en Science[5]. Una respuesta[6] publicada en el mismo número de la revista, sin embargo, se opone al re análisis alegando que está basado en suposiciones selectivas.

Gilbert defiende la fiabilidad de los estudios de psicología y afirma que son tan reproducibles como los de cualquier otra área. Además, en su opinión, el porcentaje de resultados considerados confirmados por el Proyecto Reproducibilidad (39%) es del mismo orden de magnitud de lo que cabría esperar por azar, incluso si el estudio original fuese verdadero. Analizando los protocolos experimentales del proyecto, es posible constatar que cada estudio fue reproducido una vez, mostrando la baja significación estadística para confirmar o no los resultados originales. De hecho, un artículo publicado en febrero de este año en PloS[7] vuelve a evaluar las pruebas estadísticas del Proyecto, y concluye que alrededor de un tercio de las replicaciones no son concluyentes.

La controversia sobre los intentos de probar y certificar la reproducibilidad de estudios científicos se ve con optimismo por Nosek y otros científicos, pues destaca que la transparencia en la metodología científica y la verificación estadística es crucial en cada estudio. En cuanto al estudio contestatario de Gilbert y colegas, Nosek es de la opinión que no puede ser evaluado como definitivo.

Un artículo sobre estudios de reproducibilidad de autoría de David Allison, del Departamento de Bioestadística de la Escuela de Salud Pública, Universidad de Alabama, en EUA, y colaboradores, fue publicado en Nature en febrero de este año[8]. En el ensayo, los autores evalúan en cuánto la ciencia está sujeta a errores y hasta qué punto ella misma se corrige. A pesar de muchos artículos fraudulentos o con metodología fallada que acabaron retractados, eso no es la regla general. “Consultar a un estadístico después de realizado un experimento es como realizar una autopsia. Será posible tal vez encontrar la causa de la muerte del experimento” afirmó el estadístico Ronald Fisher, fallecido en 2015. En su opinión, las revisiones posteriores a la publicación también son post mortem, pues dan fe de que los estudios fueron realizados con metodología defectuosa y validados por pruebas estadísticas igualmente defectuosas, sin embargo poco se puede hacer en esta etapa.

Además de la psicología, se están evaluando estudios en el área de la economía en cuanto a la reproducibilidad. Un artículo publicado en Science[9] al inicio de marzo informa de un proyecto para replicar 18 estudios en economía publicados en dos revistas de referencia entre 2011 y 2014. Los investigadores concluyeron que 11 estudios pueden ser reproducidos, ese número se elevó a 14 cuando se utilizaron diferentes criterios para evaluar la reproducibilidad.

De acuerdo con Nosek, estos resultados no indican necesariamente que los estudios en economía son más reproducibles que los de psicología, sobre todo porque el número de estudios en el primer caso fue menor y se concentró en estudios con relaciones simples. En la opinión de John Bohannon, corresponsal y colaborador de Science, la mayor parte de los estudios que no pudieron ser reproducidos emplearon como prueba estadística un valor de p inferior al 5% como significativo. Según el autor, a pesar de que muchos estarían de acuerdo con la fragilidad de la prueba, pocos estarían dispuestos a discutirlo. Algunos autores que sus resultados no fueron reproducidos afirman que la metodología del estudio fue cuidadosa, correcta y transparente, sin embargo no están de acuerdo en que eso signifique que el ensayo original haya sido un falso positivo. “Creemos que es más preciso interpretar la falla en replicar nuestro estudio como un fracaso del tratamiento”[10].

Los investigadores que no estuvieron involucrados con cualquiera de los proyectos de reproducibilidad creen que estos resultados diferentes son inherentes a las ciencias sociales, pues la población humana es muy heterogénea. La solución propuesta, que sirve para todas las áreas del conocimiento, sería basar las conclusiones en múltiples estudios sobre el mismo tema, para aumentar la credibilidad.

Notas

1. FANELLI, D. “Positive” Results Increase Down the Hierarchy of the Sciences. PLoS ONE. 2010, vol. 5, nº 4, e10068. DOI: 10.1371/journal.pone.0010068. Available from: http://www.plosone.org/article/info%3Adoi%2F10.1371%2Fjournal.pone.0010068

2. Open Science Collaboration. Estimating the reproducibility of psychological science.Science. 2015, vol. 349, nº 6251, aac4716. DOI: 10.1126/science.aac4716. Available from http://osf.io/ezcuj/wiki/home/

3. BAKER, M. First results from psychology’s largest reproducibility test. Nature. 2015. DOI: 10.1038/nature.2015.17433. Available from http://www.nature.com/doifinder/10.1038/nature.2015.17433

4. BAKER, M. Over half of psychology studies fail reproducibility test. Nature. 2015. DOI: 10.1038/nature.2015.18248. Available from: http://www.nature.com/doifinder/10.1038/nature.2015.18248

5. GILBERT, D.T., et al. Comment on “Estimating the reproducibility of psychological science” Science. 2016. vol. 351, nº 6277, pp. 1037. DOI: 10.1126/science.aad7243. Available from: http://science.sciencemag.org/content/351/6277/1037.2

6. ANDERSON, C.J., et al. Response to Comment on “Estimating the reproducibility of psychological science”. Science. 2016, vol. 351, nº 6277, pp. 1037. DOI: 10.1126/science.aad9163. Available from: http://dx.doi.org/10.1126/science.aad9163

7. ETZ, A. and VANDEKERCKHOVE, J. A Bayesian Perspective on the Reproducibility Project: Psychology. PLoS ONE 2016, vol. 11, nº 2, e0149794. DOI: 10.1371/journal.pone.0149794.

8. ALLISON, D.B., et al. Reproducibility: A tragedy of errors. Nature. 2016, vol. 530, nº 7588, pp. 27-29. DOI: 10.1038/530027a. Available from: http://www.nature.com/news/reproducibility-a-tragedy-of-errors-1.19264

9. CAMERER, C.F. et al. Evaluating replicability of laboratory experiments in economics. Science. 2016, vol. 351, nº 6280, pp. 1433-1436. DOI: 10.1126/science.aaf0918. Available from: http://science.sciencemag.org/content/351/6280/1433

10. BOHANNON, J. About 40% of economics experiments fail replication survey. Science. 2016. DOI: 10.1126/science.aaf4141. Available from: http://www.sciencemag.org/news/2016/03/about-40-economics-experiments-fail-replication-survey

Referencias

ALLISON, D.B., et al. Reproducibility: A tragedy of errors. Nature. 2016, vol. 530, nº 7588, pp. 27-29. DOI: 10.1038/530027a. Available from: http://www.nature.com/news/reproducibility-a-tragedy-of-errors-1.19264

ANDERSON, C.J., et al. Response to Comment on “Estimating the reproducibility of psychological science”. Science. 2016, vol. 351, nº 6277, pp. 1037. DOI: 10.1126/science.aad9163. Available from: http://dx.doi.org/10.1126/science.aad9163

BAKER, M. First results from psychology’s largest reproducibility test. Nature. 2015. DOI: 10.1038/nature.2015.17433. Available from http://www.nature.com/doifinder/10.1038/nature.2015.17433

BAKER, M. Over half of psychology studies fail reproducibility test. Nature. 2015. DOI: 10.1038/nature.2015.18248. Available from: http://www.nature.com/doifinder/10.1038/nature.2015.18248

BEGLEY, C.G. and ELLIS, L.M. Drug development: Raise standards for preclinical cancer research. Nature. 2012, vol. 483, 7391, pp. 531-533. DOI: 10.1038/483531a

BOHANNON, J. About 40% of economics experiments fail replication survey. Science. 2016. DOI: 10.1126/science.aaf4141. Available from: http://www.sciencemag.org/news/2016/03/about-40-economics-experiments-fail-replication-survey

CAMERER, C.F. et al. Evaluating replicability of laboratory experiments in economics. Science. 2016, vol. 351, nº 6280, pp. 1433-1436. DOI: 10.1126/science.aaf0918. Available from: http://science.sciencemag.org/content/351/6280/1433

ETZ, A. and VANDEKERCKHOVE, J. A Bayesian Perspective on the Reproducibility Project: Psychology. PLoS ONE 2016, vol. 11, nº 2, e0149794. DOI: 10.1371/journal.pone.0149794.

FANELLI, D. “Positive” Results Increase Down the Hierarchy of the Sciences. PLoS ONE. 2010, vol. 5, nº 4, e10068. DOI: 10.1371/journal.pone.0010068. Available from: http://www.plosone.org/article/info%3Adoi%2F10.1371%2Fjournal.pone.0010068

GILBERT, D.T., et al. Comment on “Estimating the reproducibility of psychological science” Science. 2016. vol. 351, nº 6277, pp. 1037. DOI: 10.1126/science.aad7243. Available from: http://science.sciencemag.org/content/351/6277/1037.2

IOANNIDIS, J. P. Why most published research findings are false. PLoS Med. 2005. DOI: 10.1371/journal.pmed.0020124. Available from: http://www.plosmedicine.org/article/info:doi/10.1371/journal.pmed.0020124.

NASSI-CALÒ, L. La reproducibilidad en los resultados de investigación: la mirada subjetiva. SciELO en Perspectiva. [viewed 06 March 2016]. Available from: http://blog.scielo.org/es/2014/02/19/la-reproducibilidad-en-los-resultados-de-investigacion-la-mirada-subjetiva/

NASSI-CALÒ, L. La reproducibilidad en los resultados de investigación: la punta del iceberg. SciELO en Perspectiva. [viewed 06 March 2016]. Available from: http://blog.scielo.org/es/2014/02/27/la-reproducibilidad-en-los-resultados-de-investigacion-la-punta-del-iceberg/

Open Science Collaboration. Estimating the reproducibility of psychological science.Science. 2015, vol. 349, nº 6251, aac4716. DOI: 10.1126/science.aac4716. Available from http://osf.io/ezcuj/wiki/home/

PRINZ, F., SCHLANGE, T., and ASADULLAH, K. Believe it or not: how much can we rely on published data on potential drug targets? Nature Reviews Drug Discovery. 2011, vol. 10, nº 712. DOI: 10.1038/nrd3439-c1. Available from: http://www.nature.com/nrd/journal/v10/n9/full/nrd3439-c1.html

VAN NOORDEN, R. Sluggish data sharing hampers reproducibility effort. Nature. 2015. DOI: 10.1038/nature.2015.17694. Available from: http://www.nature.com/news/sluggish-data-sharing-hampers-reproducibility-effort-1.17694

Link externo

Reproducibility Project: Cancer Biology – <http://validation.scienceexchange.com/#/cancer-biology>

Autor: Lilian Nassi-Calò
Fuente: <http://blog.scielo.org/>
Publicar un comentario