Big data, Big bias, Big noise, Big problems

Big data, Big bias, Big noise, Big problems

Por: Dr. Ernesto Gil Deza, Director de Investigación y Docencia del Instituto Henry Moore y  Director de la Carrera de Oncología de la Universidad del Salvador. 

Hay tres términos que se cuelan en casi todas las conversaciones que tenemos entre médicos: “inteligencia artificial”, “machine learning” y “big data”. Digo “se cuelan” porque como sucede con muchos términos polisémicos muchos los empleamos con diferentes sentidos y muchas discusiones podrían obviarse si primero nos pusiéramos de acuerdo en lo que significan.

No es el objetivo de esta reflexión definirlos, es simplemente poner en evidencia el peligro de aceptarlos sin definirlos.

Hay dos textos altamente recomendables para disparar la reflexión sobre el problema que tenemos entre manos: Nexus del historiador Yuval Noah Harari (foto) analiza el problema de los sistemas de información con respecto al futuro de los sistemas políticos y la convivencia humana y Viajar al futuro (Y volver para contarlo) del economista, estadístico y divulgador de la ciencia Walter Sosa Escudero.

Yo voy a enfocarme en medicina en general y en oncología en particular.

La salud se ha pixelado. De tal manera que los datos sobre tu salud se han multiplicado y diversificado. Me explico: hasta no hace mucho tiempo la información sobre tu salud las tenías tú (y los pocos con quienes quisieras compartirlos) y tu médico (o médicos si eran varios especialistas). Estos datos eran recolectados por escrito en papel en las historias clínicas al igual que los informes de los estudios complementarios.

Registrar los datos, conservarlos, archivarlos, buscarlos, comprenderlos (la letra médica siempre ha sido un problema), extraerlos, tabularlos, analizarlos y publicarlos era laborioso y complicado.

Eso llevaba a que se publicaran, en general, artículos de buena calidad. Las revistas médicas llegaban con tres a seis meses de retraso y los libros recién publicados tenían cinco años de desactualización.

Los trabajos retrospectivos buscaban generar hipótesis y el conocimiento progresa gracias a los registros prospectivos de los experimentos clínicos. Estos experimentos se desarrollaban en dos ámbitos: estudios patrocinados por los vendedores que, usualmente, daban resultados superiores a los estudios académicos, patrocinados por las universidades o los estados y que refutaban muchas de las afirmaciones comerciales y tenían resultados más modestos. Se progresaba lentamente, pero claramente.

El secuestro del conocimiento médico por el complejo médico-industrial; la extinción de los ensayos de confirmación de resultados; la digitalización del dinero y la trazabilidad de nuestros viajes o compras; la revolución de los registros clínicos electrónicos y la monitorización permanente del estado de nuestro organismo por sensores localizados en nuestros cuerpos, teléfonos o relojes, han llevado a que hoy la difusión de la información sea instantánea, el acceso a los datos sea muy simple y que la recolección, análisis y publicación de los mismos sea muy sencilla.

El resultado de todo esto es la sobrecarga informativa (Overload information del texto Future Shock de Alvin Toffler) o aún más claro la “infoxicación” (Alfons Cornellá). Estamos abrumados y exhaustos por la enorme carga informativa con la que somos bombardeados cotidianamente y, en el caso particular de la medicina, por la cantidad de datos sobre nuestra salud disponible en, para decirlo eufemísticamente, “la nube”.

Volvemos así, sin quererlo, a un estado olímpico de nuestra salud: son los dioses en la nube, los que saben cómo estamos y qué nos va a pasar.

¿Qué se ha evidenciado con el monitoreo exhaustivo de la salud? Que los seres humanos tenemos una gran variabilidad, adaptabilidad y control sobre muchas alteraciones que antes creíamos indefectiblemente destinadas a poner en peligro nuestra vida: tumores, arritmias, alteraciones metabólicas se sobrediagnostican con este tipo de escrutinio de nuestro estado.

¿Qué es sobrediagnosticar? Diagnosticar alteraciones estructurales o funcionales que evolucionarán de un modo benigno y no requieren tratamiento alguno. ¿Cuál es el problema? Que no podemos distinguirlas de aquellas alteraciones similares que sí pondrían en peligro nuestra vida ¿Entonces? Las tratamos a todas, es decir el problema de la infoxicación es el sobrediagnóstico que lleva al sobretratamiento. Bienvenido a la nueva medicina.

El segundo problema es confundir dato con señal, pues todo dato conlleva ruido, la señal es importante, el ruido no ¿Pero con millones de datos? Hay millones de ruidos. Es decir cuando queremos saber cuál es la realidad de la salud de un individuo sobre diagnosticamos y cuando queremos saber la salud de una población nos desviamos, tenemos ruido que habitualmente representa los sesgos de la población estudiada.

Esto lo puso en evidencia el experto en estadísticas de la universidad de Harvard Xiao-Li Meng al estudiar la tasa de vacunación contra el covid.(1)

Pero lo que refleja el mayor riesgo de los Big data en términos de la generación de conocimiento es que son datos que no están estructurados para poder responder científicamente a una pregunta. Esto no es menor, pues la respuesta que obtenemos puede no sólo ser incorrecta sino engañosa, es decir puede que creamos que es verdadera y nosotros los humanos somos fácilmente engañables.

Para tratar de resolver este problema es conveniente repasar dos artículos de Meng: uno que demuestra las razones de la falibilidad de los pronósticos políticos (2) y el segundo los diez puntos del análisis estadístico que no debemos olvidar (3).

En síntesis los Big data representan para la medicina notables desafíos ¿Qué es un sano? ¿Qué enfermedad padecemos? ¿Cómo tratar una dolencia que puede ser un sobrediagnóstico? ¿Cuál es el sesgo de las respuestas que obtenemos cuando la evidencia es mala? ¿De qué manera seleccionar la señal del ruido en un ambiente infoxicado?

En fin…Big problems.

De todas maneras ¿qué sería una vida sin problemas y sin desafíos?

1. Bradley VC, Kuriwaki S, Isakov M, Sejdinovic D, Meng XL, Flaxman S. Unrepresentative big surveys significantly overestimated US vaccine uptake. Nature. 2021;600(7890):695-700. doi:10.1038/s41586-021-04198-4

2. Meng XL. Statistical paradises and paradoxes in big data (I): Law of large populations, big data paradox, and the 2016 us presidential election. Annals of Applied Statistics. 2018;12(2):685-726. doi:10.1214/18-AOAS1161SF

3. Kass RE, Caffo BS, Davidian M, Meng XL, Yu B, Reid N. Ten Simple Rules for Effective Statistical Practice. PLoS Comput Biol. 2016;12(6). doi:10.1371/journal.pcbi.1004961