Minería de datos clínicos como apoyo en el diagnóstico médico: herramientas y cursos

abril 16, 2018 de micromedix Deja un comentario

¿Cómo se puede contar con la opinión consensuada de un centenar de especialistas, sin incurrir en un gasto excesivo? Con un software de minería de datos (data mining) y la capacitación apropiada para comprender bien su operación. El aprendizaje de máquina está rebasando las expectativas de los médicos y naturópatas que continuamente se actualizan para mejorar sus diagnósticos, e independientemente de si el problema ha de solucionarse con medicina alternativa o alopática, hoy en día ya no basta con la opinión de un solo profesional de la salud para pronosticar si un paciente va a sobrevivir o no a una enfermedad.

Aun cuando un experto haya diagnosticado a un paciente como incurable, no está de más conocer la opinión de un mayor número de colegas. De hecho, hay muchos médicos que estarían encantados de contar con el consenso de otros especialistas del ramo, para corroborar si lo que han dictaminado es realmente irrefutable. Los seres humanos a veces nos equivocamos (falsos positivos/negativos), y eso puede contribuir a que un paciente se rinda a consecuencia del efecto nocebo que un pronóstico médico pesimista suele producir.

El propósito de la minería de datos

Durante el presente trabajo explicaré cómo es que una rama de la informática biomédica conocida como minería de datos, pone a disposición de un profesional de la salud, la opinión consensuada de cientos de médicos, basándose en los casos atendidos anteriormente por expertos que ni siquiera conoce. ¿Que cómo lo hace? Esa es precisamente la pregunta que a lo largo de este artículo pretendo responder. Para determinar la condición de un paciente, el especialista tendrá que plantearle unas cuantas preguntas que una herramienta de diagnóstico es capaz de formular automáticamente, basándose en un registro histórico acumulado de cientos de casos.

Por favor no me mal interprete, lo que estoy proponiendo aquí no es remplazar la función del médico con un software de diagnóstico, sino apoyarlo en la toma de decisiones. El software de minería de datos es un recurso más al que se puede recurrir a la hora de emitir un dictamen. Lo más interesante de esta otra herramienta, es que captura y procesa las variables (atributos) recogidas por el resto del instrumental médico, para analizar su influencia en el estado de salud del paciente. La presión arterial, los signos vitales, los síntomas y demás rasgos de un paciente pueden ser registrados y posteriormente analizados simultánea y expeditamente por un programa de minería de datos, a fin de generar un diagnóstico más completo y confiable.

En referencia a la hepatitis por ejemplo, preguntas como ¿está presentando ascitis el paciente?, ¿padece de arañas vasculares? y ¿a cuánto asciende su tiempo de protrombina (rapidez de coagulación sanguínea)?, pueden resultar cruciales al momento de emitir un diagnóstico. Así por ejemplo, cabe la posibilidad de que aun cuando el tiempo de protrombina sea mayor a 43 segundos, el paciente todavía pueda sanar si no presenta ascitis ni arañas vasculares (pulse sobre la imagen adjunta para ver las reglas de decisión que generó la herramienta de software WEKA, una vez que encontré el modelo de diagnóstico óptimo). Como veremos más adelante, las reglas de clasificación se pueden representar gráficamente con un árbol de decisión.

Mediante ese mismo modelo, se puede obtener un pronóstico de la esperanza de vida de una mujer que ha llegado a la sala de emergencias experimentando fatiga y arañas vasculares, con un hígado sin endurecimiento; pero con un nivel de albúmina por debajo de los 3.8 g/dl y uno de fosfatasa alcalina inferior a los 147 U/L. ¿Y habría necesidad de internar a otra mujer habiéndole detectado un hígado endurecido, un nivel de albúmina por encima de los 2.8 g/dl y una bilirrubina inferior a los 1.42 mg/dl? De acuerdo con la tercera regla de decisión del modelo de minería de datos que presenté en la imagen inmediata anterior, la respuesta es no, porque esa última condición ha sido pronosticada por el modelo en cuestión como curable.

Si usted es un(a) hepatólogo(a) con experiencia, es muy probable que algunas de las reglas de decisión anteriormente expuestas le resulten familiares, y tal vez otras le parezcan simplistas o incluso cuestionables. Y lo comprendo, porque quiero suponer que está acostumbrado a efectuar dictámenes más estrictos; pero permítame aclarar que el modelo propuesto, además de ser probabilístico, es perfectible, ya que el número de casos en los que están basadas las reglas anteriores es de 155, que para ser exactos corresponden a 123 casos curables y 32 incurables (véase la captura de pantalla adjunta). Al pulsar sobre el histograma, notará que la barra roja está representando los casos incurables.

En el campo de la minería de datos, al igual que en la medicina, a medida que aumenta el número de casos atendidos, también lo hace la experiencia acumulada, y con ella, la certidumbre de los diagnósticos. Las máquinas aprenden de manera muy similar a como lo hacen los seres humanos y como alguna vez lo hicieron aquellos programas de computación a los que no hace mucho tiempo se les llamó sistemas expertos, es decir, a través de una base de conocimientos. De manera que usted mismo puede ir optimizando su propio modelo, siempre que vaya integrando más casos a esa base de conocimientos: ese conjunto de casos que ya resolvió en el pasado y que seguirá diagnosticando cada día mejor, conforme pasen los años. El punto aquí es que la máquina y usted aprendan, tanto si aciertan en sus diagnósticos como si no, porque ¿sabe usted cuántas variables predictoras es capaz de manejar simultáneamente un software de minería de datos para diagnosticar un padecimiento? Cientos de ellas.

En el artículo intitulado «La informática biomédica en el diagnóstico y la prevención de la esquizofrenia y otros trastornos de la personalidad«, propuse un modelo con 72 variables predictoras que a la postre optimicé empleando únicamente 35 atributos, mediante una selección apropiada de los mismos. A la izquierda muestro los histogramas de las 15 variables que componen el modelo que les propuse construir a mis participantes, en uno de los cursos que imparto: «Informática Biomédica para el Descubrimiento de Nuevas Terapias y el Diagnóstico de Enfermedades«. Más adelante explico por qué esas 15 variables resultaron ser las más relevantes en el caso de la hepatitis. Sin una herramienta de minería de datos a la mano, es probable que a un ser humano se le dificulte manejar al mismo tiempo, 15 variables para emitir diagnósticos confiables de hepatitis, o 35 variables en el caso del modelo de diagnóstico para la esquizofrenia. Entiéndase aquí por confiable no tanto la opinión de un experto, sino la precisión que se consigue utilizando un conjunto de datos de prueba que permite confrontar los diagnósticos realizados por un algoritmo matemático, con lo que opinaron un gran número de expertos en el pasado. Al resultado de esa comparación se le conoce como matriz de confusión (derecha), que no es más que una tabla en donde el analista puede distinguir los llamados falsos positivos/negativos, de los verdaderos positivos/negativos.

Tendría usted que desarrollar uno de los talleres del curso que mencioné con anterioridad, para aquilatar debidamente el hecho de que un ser humano no es capaz de manejar simultáneamente, ya no digamos 35, sino al menos 15 variables, como para discernir bien entre un falso diagnóstico y otro probablemente correcto. Para una discusión más profunda sobre lo que implicaría por ejemplo, dar de alta a un paciente cuando en realidad sí está presentando una cardiopatía (falso negativo), véase: «Cardiopatías: en las cosas del corazón no basta con una segunda opinión«, también de mi autoría.

Aclarando los conceptos clave de la minería de datos

A reserva de que con el curso de minería de datos usted consiga dominar esa jerga técnica que describe mejor cómo aprende una máquina, considero conveniente explicar sin tanto tecnicismo, algunos conceptos básicos que le ayudarán a comprender el teje y el maneje de esta fascinante área del conocimiento (si desea usted conocer más detalles sobre los temas que se tratan a lo largo del curso, puede pulsar sobre el mapa mental de la derecha para agrandarlo). Recuerde que si este esfuerzo no bastara para dejar claro los conceptos clave de la minería de datos, para mí siempre será un placer responder cualquier pregunta que quisiera usted plantear a modo de comentario, al final de esta entrega.

Es importante conocer por ejemplo la diferencia que existe entre un modelo y su algoritmo. Un modelo es el efecto que resulta de aplicar un algoritmo a un conjunto de atributos en particular.
El algoritmo por su parte, es una serie de instruciones escritas en algún lenguaje de programación, que al ser aplicadas a ese conjunto de atributos, provocan un cambio en el diagnóstico o variable de salida. A esta variable también se le llama clase, precisamente porque su finalidad es clasificar cada uno de los casos registrados en el pasado.

Los atributos constituyen las variables de entrada al modelo y reciben también el nombre de variables predictoras, porque afectan el comportamiento que tendrá la variable de salida en el futuro, es decir, cuando se trate de diagnosticar casos de pacientes cuyo diagnóstico se desconoce. En la tabla que aparece en la imagen adjunta (pulse sobre la captura de pantalla de la hoja de Excel para agrandarla), cada renglón de la tabla representa un caso de un paciente afectado de hepatitis, cuyo diagnóstico fue determinado en el pasado con dos posibles valores: curable e incurable. Ambos valores están representando a la clase asignada a cada caso en particular.

Así por ejemplo, de los 155 casos de hepatitis que obtuve del repositorio de datos de la Universidad de California con sede en Irvin (solo se muestran los primeros 25), el caso asociado al séptimo renglón de la tabla, que corresponde a una mujer de 51 años que reportó no haber consumido esteroides ni antivirales, y cuyos síntomas estaban caracterizados por la presencia (denotada como sí en la celda/casilla correspondiente) de fatiga, anorexia, hígado agrandado, bazo palpable y arañas vasculares, fue desahuciada por el médico que la atendió, a pesar de que en ese momento no contaba con los datos de los atributos bilirrubina, fosfatasa alcalina, SGOT (AST o aspartato aminotransferasa), albúmina y tiempo de protrombina (hecho denotado como «?» en la casilla).

El preprocesamiento de los datos y su repercusión en la precisión del modelo

Tan solo con convertir apropiadamente algunas de las variables numéricas a categóricas, sustituir los campos vacíos de estas últimas con el valor de su moda, y remplazar los valores faltantes de las variables numéricas con el promedio de su correspondiente atributo, ya estaríamos aumentando la precisión de un modelo que podríamos usar como referencia, para irlo optimizando sucesivamente (análisis comparativo o benchmarking). Dentro de las estrategias de aprendizaje supervisado, existen varios algoritmos con los que se puede comenzar a trabajar. En la imagen de la derecha enumero varios de ellos. Puesto que ya en una publicación anterior utilicé como referencia el algoritmo ZeroR, en esta ocasión recurriré al árbol de decisión J48 como primera aproximación. Este método de aprendizaje selecciona automáticamente los atributos que a «su juicio» son los más relevantes, entendiendo por relevantes aquellos atributos que más afectan al diagnóstico, o que están más correlacionados con éste. La correlación de un atributo con la variable de salida nos permite ubicarlo dentro de una lista jerárquica, para saber qué tanto puede influir en los diagnósticos. Nótese como las ramas del árbol de decisión mostrado a su izquierda (pulse sobre la imagen para agrandarla), terminan en un nodo al que se le llama «hoja», en donde se puede conocer el resultado del proceso de clasificación a lo largo del camino (rama) que conduce a ese nodo terminal (curable/incurable).

Optimizando el modelo con los atributos de mayor relevancia (proxy)

En una primera aproximación, mis participantes suelen obtener con el árbol J48 una precisión del 80.64%. No obstante, este cifra no parece muy prometedora si de lo que se trata es pronosticar la posibilidad de sobrevivir a una hepatitis. Conociendo las precisiones que otros investigadores han obtenido en cuanto a diagnósticos de hepatitis se refiere, nuestro trabajo dejaría mucho que desear si no hiciéramos un esfuerzo por mejorar sus respectivas propuestas.

Karthikeyan y Thangaraju [1] por ejemplo, desarrollaron un modelo basado en J48 que exhibió una precisión del 83%, la cual demostraron se puede conseguir también con un árbol de clasificación tipo Random Forest, y una red neuronal multicapa (perceptrón). No quedando conformes con eso, en una etapa posterior encontraron un par de modelos basados en redes bayesianas con un 84% de precisión. Por su parte, Nilgün y Özgür [2] lograron conseguir una precisión en sus diagnósticos del 84.5%, con las reglas de decisión PART comentadas en un párrafo anterior.

Para no quedarnos atrás, a continuación describiré cómo en el curso de «Informática Biomédica para el Descubrimiento de Terapias Inteligentes y el Diagnóstico de Enfermedades«, los participantes construyeron un modelo con una precisión mayor a la que consiguieron los referentes que cité con anterioridad. La diferencia radicó en una mejor selección de los atributos.

Hay varios métodos para determinar cuáles son los atributos más relevantes. A este conjunto de atributos se le conoce como proxy. En la imagen de la izquierda muestro la lista de las variables consideradas en el modelo inicial, así como las que seleccionamos en el curso, a partir de una jerarquización de las mismas basada en los promedios de sus correlaciones con la variable diagnóstico (listadas en orden descendente). Como se advierte en esa misma captura de pantalla (pulse sobre la misma para agrandarla), los atributos que terminamos descartando fueron los que aparecen resaltados en amarillo: esteroides, anorexia, hígado agrandado y SGOT. Los demás fueron los que escogimos como los más relevantes.
El procedimiento que se sigue para descartar o conservar los diferentes atributos forma parte de lo que se conoce como calibración del modelo, y constituye todo un apartado dentro del temario del curso «Informática Biomédica para el Descubrimiento de Terapias Inteligentes y el Diagnóstico de Enfermedades«. Para los efectos de este trabajo, lo importante no es tanto saber cómo se seleccionaron los atributos, sino qué variables resultaron ser las más relevantes, y cómo afecta dicha selección la precisión de los diagnósticos. En la imagen de la derecha presento un cuadro resumen de los modelos evaluados a lo largo del taller, con sus correspondientes coeficientes estadísticos. Si desea saber para qué sirven estos parámetros, le recomiendo consultar: «Cardiopatías: en las cosas del corazón no basta con una segunda opinión«; ahí expliqué con mayor detenimiento algunas de sus propiedades.

El análisis de los datos: una alternativa para optimizar el modelo

De acuerdo con la tabla anterior, el modelo que resultó de aplicar las reglas de decisión PART a los 15 atributos previamente seleccionados, fue sin lugar a dudas el mejor, por habernos entregado en el menor tiempo posible, una precisión del 88.38%, con un coefficiente de Kappa mayor a todos los demás y una tasa de error mínima.

Aun cuando hay autores que afirman haber encontrado precisiones mayores a las que aquí estamos reportando [3]-[4], para los propósitos del taller que mis participantes estaban cursando, dicha cifra fue más que suficiente, pues superó en 3.8 puntos porcentuales, los resultados conseguidos por esos otros dos referentes anteriormente mencionados (análisis comparativo). Y aunque la jerarquización de correlaciones promediadas es un método más formal que el análisis de los datos, ésta otra técnica se podría aplicar también para seleccionar los atributos que más influyen en el diagnóstico.

El análisis de datos no requiere de operaciones matemáticas laboriosas pero sí de cierta habilidad para interpretar histogramas y detectar correlaciones entre atributos. Dos atributos están correlacionados cuando uno depende del otro, y uno de los dos se puede descartar en caso de confirmarse una correlación entre ellos.

La independencia entre dos atributos se puede comprobar matemáticamente con el teorema de Bayes. No obstante, una correlación de atributos se puede inferir también a partir de su diagrama de dispersión. Habrá situaciones sin embargo en las que no se podrá descartar un atributo, por estar correlacionado tanto con otro atributo como con la variable de salida. Tal es el caso de la albúmina, la ascitis y el diagnóstico de la hepatitis. Sabiendo que un nivel anormalmente bajo de albúmina constituye un rasgo de daño hepático grave, y que una cantidad insuficiente de albúmina podría estar implicando una ascitis, se intuye que debe haber una correlación entre las variables de entrada ascitis y albúmina. Pero de acuerdo con los promedios jerarquizados de las correlaciones entre cada una de estas variables y el diagnóstico, todo indica que no podríamos descartar ninguna de ellas, porque ya vimos que ambas ejercen un gran impacto en la variable de salida. De acuerdo con el histograma mostrado a la izquierda, los pacientes con menos posibilidades de sobrevivir (área en color rojo) suelen ser los que presentan el nivel de albúmina mas bajo. Análogamente, observe en la captura de pantalla de la derecha, cómo la ascitis impacta de manera muy marcada en la esperanza de vida: el porcentaje de los casos incurables (en rojo), es mucho mayor en los casos de ascitis que en aquellos en los que no se detectó acumulación de líquido en el abdomen.

En contraste con los dos atributos anteriores, mediante un análisis de los histogramas asociados a las variables esteroides, anorexia, hígado agrandado y SGOT, puede uno fácilmente darse cuenta del poco impacto que ejercen éstas en el diagnóstico.

A modo de ejemplo, obsérvese la variación del atributo esteroides en la captura de pantalla de la imagen adjunta. El histograma revela que el porcentaje de pacientes que sobrevivieron y que no consumían esteroides fue del 73% aproximadamente, mientras que el porcentaje de los que sobrevivieron y que sí consumían esteroides fue del 87%. Como yo lo veo, no hay una gran diferencia entre consumir o no esteroides, si de lo que se trata es pronosticar lo que sucederá después de haber contraído una hepatitis, cualesquiera que sea su tipo (A,B,C,D,E, F o G). Considero que esa diferencia de tan solo el 14%, es suficiente para contemplar la posibilidad de descartar este atributo de nuestra lista de variables relevantes.

Pero entonces… ¿Qué diagnóstico le entregaría usted al paciente que acaba de llegar a su consultorio?

Prueba de validación y confiabilidad del modelo

Una vez habiendo evaluado al menos 3 modelos y seleccionado uno de ellos como el óptimo, lo que resta es ingresar los datos de uno o más pacientes a nuestra herramienta de diagnóstico. En la imagen de la derecha estoy mostrando lo que el software WEKA me entregó al sustituir la opción de prueba conocida en el argot de la minería de datos como validación cruzada (indicada en la imagen de la derecha como Cross-validation), por la opción suministro de datos de validación (Supplied test set). Este conjunto de datos constituye el archivo de pacientes a diagnosticar, o mejor dicho, representa los valores de los atributos de unos pacientes cuyos datos no están en ningún repositorio de California, sino en el archivo clínico del hospital o de la institución en donde el médico o naturópata trabaja. Supóngase que los casos a diagnosticar corresponden a seis pacientes, con los síntomas y datos de validación que aparecen en la hoja de datos de la izquierda. Note que el campo correspondiente a la variable de salida diagnóstico, contiene un signo de interrogación, el cual se ha ingresado así deliberadamente, porque al momento de ingresar los datos, el diagnóstico aún es una incógnita. Al pulsar sobre el botón etiquetado como Start, WEKA aplica el algoritmo PART a los 15 atributos de los que consta cada uno de los 155 casos almacenados en la memoria de la máquina, con la diferencia de que esta vez ya no emplea una validación cruzada. En lugar de tomar la décima parte de los datos de entrenamiento como datos de prueba (de ahí que Folds=10), sustituye a éstos con los datos de nuestros pacientes para realizar sus diagnósticos. Esos datos son los que aparecen en la imagen de la izquierda.

¿Cuál sería entonces el diagnóstico del paciente con lo datos de la instancia (caso) #1? (véanse de nuevo las últimas dos imágenes). La respuesta se traduciría como una esperanza de vida del 96.7%, puesto que fue diagnosticado como curable. ¿Y que me dice de la esperanza de vida del paciente con los datos de la instancia #6 ? Ahora el panorama es desolador, porque basándonos en las cifras que ha entregado la herramienta de diagnóstico, inferimos que la esperanza de vida para este paciente es del 14.3%, dado que fue diagnosticado como incurable. ¿Pero qué tan confiables son estos diagnósticos?

Hemos visto que la bondad de un modelo depende del algoritmo y de los atributos seleccionados. Pero tenemos que ser muy cuidadosos a la hora de interpretar los resultados, porque las evaluaciones de los cuatro modelos anteriormente analizados, fueron realizadas empleando una validación cruzada. Si fuéramos más estrictos, tendríamos que hacer una segunda evaluación, usando los mismos datos de entrenamiento del repositorio de Irvin; pero con un conjunto de datos de prueba mucho mayor que el archivo de 6 pacientes que usaron mis participantes en el taller, en donde no debería faltar el valor de la clase. En estas condiciones, el modelo seguiría siendo el mismo pero aprendería más de sus errores, como resultado de la comparación de los valores diagnosticados con los reales.

Como cabría esperar, bajo este nuevo esquema el modelo arrojaría una precisión ciertamente menor; pero más confiable (realista) que la que obtuvimos aquí con la validación cruzada.

Conclusiones

1) La confiabilidad de un modelo crecerá conforme aumente el número de casos, tanto de los que se usan para entrenarlo, como los que sirven para probarlo. Entre más grande sean el volumen y la calidad de los datos, más confiables serán los diagnósticos.
2) La precisión de un modelo depende tanto del algoritmo como de los atributos seleccionados.
3) Además de la precisión y el tiempo de ejecución, la evaluación de un modelo debe considerar también ciertos parámetros estadísticos, como son el coeficiente de Kappa, la raíz del error cuadrático medio y la matriz de confusión, por mencionar los más importantes.

4) Una herramienta de minería de datos fácil de usar y gratuita, así como una buena capacitación, aumentan la competitividad de un profesional de la salud, pues no es lo mismo confiar en la experiencia de un solo experto, que considerar el consenso de un gran número de especialistas. El descubrimiento de tendencias y patrones en un gran volumen de datos de buena calidad, contribuye más a minimizar los diagnósticos falsos positivos/negativos y a maximizar los pronósticos verdaderos positivos/negativos, que cuando se opta exclusivamente por la auscultación, la vigilancia de signos vitales, los exámenes de laboratorio y el seguimiento de la evolución de síntomas y rasgos del paciente.

Tanto en la medicina como en los demás campos del saber, los datos pueden reflejar una realidad que no es posible descubrir a través de la lectura o del estudio de una que otra hipótesis científica, sino por medio de la interpretación apropiada de una tendencia, un patrón, o de esa pista que nos ayudará a comprender mejor los misterios de la naturaleza y que nos ampliará aún más la visión que tenemos del mundo que nos rodea. Hay algo en los datos que no está en los libros y que es menester descubrir: el conocimiento.

«No hay inversión más rentable que la del conocimiento» … Benjamin Franklin
© Sergio López González. Fundación MicroMédix. 16 de abril de 2018

Reseña este artículo y únete a nuestro equipo de teletrabajo

REFERENCIAS

[1] Karthikeyan & Thangaraju. Analysis of Classification Algorithms Applied to Hepatitis Patients. International Journal of Computer Applications (0975 – 8887), Volume 62– No.15, January 2013.
[2] Nilgün & Özgür. Evaluation of risk of death in hepatitis by rule induction algorithms. Scientific Research and Essays Vol. 5(20), pp. 3059-3062, 18 October, 2010.
[3] Fadl Mutaher Ba-Alwi, Houzifa M. Hintaya. Comparative Study For Analysis The Prognostic In Hepatitis Data: Data Mining Approach. International Journal of Scientific & Engineering Research, Volume 4, Issue 8, August-2013.
[4] Pushpalatha & Pandya. Data model comparison for Hepatitis diagnosis. International Journal of Emerging Research in Management & Technology. ISSN: 2278-9359 (Volume-3, Issue-7).

Autor: micromedix

Sergio López González. Ing. en Informática Biomédica

Terapias Naturales

Recetas, suplementos, microdosis y escuchas binaurales

Minería de datos clínicos como apoyo en el diagnóstico médico: herramientas y cursos

El propósito de la minería de datos

Aclarando los conceptos clave de la minería de datos

El preprocesamiento de los datos y su repercusión en la precisión del modelo

Optimizando el modelo con los atributos de mayor relevancia (proxy)

El análisis de los datos: una alternativa para optimizar el modelo

Prueba de validación y confiabilidad del modelo

Conclusiones

Reseña este artículo y únete a nuestro equipo de teletrabajo

Autor: micromedix

Deja un comentario Cancelar la respuesta

El propósito de la minería de datos

Aclarando los conceptos clave de la minería de datos

El preprocesamiento de los datos y su repercusión en la precisión del modelo

Optimizando el modelo con los atributos de mayor relevancia (proxy)

El análisis de los datos: una alternativa para optimizar el modelo

Prueba de validación y confiabilidad del modelo

Conclusiones

Reseña este artículo y únete a nuestro equipo de teletrabajo

Comparte esto:

Relacionado

Autor: micromedix

Deja un comentario Cancelar la respuesta