PreModelado en IA en Salud

Spoiler alert!

La fase de PreModelado es la más extensa y la más «compleja», pero, una vez construida y ejecutada de una manera óptima, el modelado y PosModelado son fases más directas y fáciles de ejecutar.

Esta amigable advertencia es un recordatorio de la ventaja de trabajar y pertenecer al campo de la salud y a su vez diseñar, crear, supervisar, ejecutar proyectos de ciencia de datos y/o inteligencia artificial en salud. Ventaja, ya que – como se mencionó en los Fundamentos de IA en salud – el éxito de un modelo de machine learning o deep learning se da en una amalgama que combina tres aspectos: experticia temática, ciencias computacionales y matemáticas.

La fase de PreModelado se caracteriza por usar muchos de los conceptos de los fundamentos, sobre todo de los que tienen que ver con la exploración, preparación, análisis y visualización de datos, usando en gran medida Python como lenguaje de programación, técnicas matemáticas/estadísticas y SQL como llave para interactuar con bases de datos.

Todos quieren implementar IA en sus instituciones, pocos saben en qué!

En mi experiencia como científico de datos en salud, en mis trabajos y en otras empresas como asesor de temas en ciencia de datos en salud, siempre me he topado con el mismo dilema: ¿IA, pero en qué?. Y es que al ser un paradigma en auge existe mucha confusión en qué es lo que hace o debe hacer un enfoque de inteligencia artificial en salud.

En este apartado se traza una secuencia de pasos para reconocer el primer escalón y así identificar, entender el problema y orientar el o los proyectos en ciencia de datos e IA en salud.

Posterior a la identificación y entendimiento del problema se debe explorar y entender los datos con los que se cuenta.

Actualmente existen empresas, iniciativas y personas que ofertan servicios de «implementación de modelos de IA a su institución», son iniciativas costosas y explorando cotizaciones que realizan a instituciones, he revisado el detalle del servicio y es una «receta de cocina» aplicada a los datos que solicitan a la institución a intervenir (con el peligro que eso conlleva con la normatividad de la privacidad y seguridad de los datos). A cualquier grupo de datos se aplica la misma receta de cocina, sin tomar en cuenta el negocio de la institución. Me explico, cada institución, sea una IPS privada (ej. Clínica Reina Sofía), sea una IPS pública, sea una EPS, todas tienen intereses distintos y su forma de «supervivencia» o modelo comercial es diferente. El entendimiento del problema va en línea con el entender dicho modelo, pero según ello, cada una de dichas instituciones genera o almacena datos diferentes (incluso también depende de qué sistema de gestión de información utilicen), así que:

❓¿Cómo dichas iniciativas, personas o empresas aplican la misma receta de cocina a instituciones que tienen diferentes ingredientes?

En esta sección discutimos las formas de explorar los datos disponibles según el problema, la institución y el modelo de negocio, así perfilar la estrategia para los escalones subsiguientes.

Una vez definido el problema e identificados los datos necesarios pero disponibles de la institución en cuestión, se debe establecer mecanismos para aprovechar la capacidad instalada de la institución, de esa manera extraer los datos de las bodegas de información (locales, nube, etc.), transformarlos según nuestras necesidades y objetivos, y cargarlos en un servidor local, en documentos en SharePoint de Microsoft, en la nube, etc., según la capacidad instalada, el presupuesto y las necesidades de la institución. Cada uno de dichos pasos cuenta con detalles técnicos y logísticos que se abordan en esta sección.

En la imagen se describen los pasos anteriores, luego de la identificación y entendimiento del problema, hay que abrir la bodega de datos, entender los datos con los que se cuenta y posteriormente clasificarlos y organizarlos (entre ello extraerlos y transformarlos) para posteriormente subirlos al sitio donde se va a enlazar una aplicación como Power BI, Tableau, incluso Excel para realizar el análisis exploratorio y visualización de datos en salud o presentarlos visualmente y contar una historia de manera gráfica, entendible y que realmente ayude al personal de la salud a tomar decisiones en sus campos.