La ciencia de datos requiere más que aplicar algoritmos: necesita un proceso estructurado que permita transformar información cruda en soluciones efectivas. En este post veremos la metodología de IBM (creada por John Rollins) para la ciencia de datos, que se compone de 10 etapas iterativas. Esto quiere decir que, en cada ciclo, se revisan, refinan y ajustan todos los pasos – desde la comprensión del negocio hasta la retroalimentación – adaptándose a los cambios en el entorno, en los datos y en las necesidades del negocio. A continuación, te explico detalladamente cada una de estas etapas, ilustrándolas con tres ejemplos prácticos para que el concepto sea lo más claro posible.

1. Comprensión del negocio

El primer paso es entender a fondo el problema que se desea resolver. Esto implica reunirse con las partes interesadas para clarificar la pregunta central, definir metas y objetivos, y establecer el contexto en el que se va a trabajar. Es esencial formular preguntas claras y precisas, ya que estas guiarán todas las decisiones posteriores.
Ejemplo en finanzas (prevención de fraude): Un banco busca mejorar la detección temprana de transacciones fraudulentas. La pregunta clave es: “¿Qué patrones distinguen una transacción legítima de una fraudulenta?” Aquí, comprender el negocio implica revisar protocolos de seguridad, impactos financieros y las expectativas de los clientes.
Ejemplo hospitalario: Un centro de salud, con recursos limitados, necesita saber cómo asignar su presupuesto para reducir la readmisión de pacientes con insuficiencia cardíaca. Aquí se deben definir no solo las cifras de readmisión, sino también las variables que pueden influir (como diagnósticos, tratamientos, y datos demográficos).
Ejemplo e-commerce: Una tienda en línea quiere disminuir el abandono del carrito de compras. Se deben identificar las causas subyacentes, como la experiencia de usuario, tiempos de carga o incluso la falta de incentivos en el proceso de compra.
2. Enfoque analítico

Una vez que se ha comprendido el negocio, se debe elegir el enfoque analítico que mejor responda a la pregunta formulada. Esta etapa implica decidir si se realizará un análisis descriptivo, diagnóstico, predictivo, prescriptivo o de clasificación. Cada enfoque tiene técnicas y herramientas específicas.
Conceptos clave:
- Análisis descriptivo: Resume la situación actual mediante agregación y visualización de datos.
- Análisis diagnóstico: Investiga las causas subyacentes de un fenómeno.
- Análisis predictivo: Utiliza modelos estadísticos o de aprendizaje automático para predecir el futuro.
- Análisis prescriptivo: Sugiere acciones a seguir basadas en simulaciones y modelos de optimización.
- Clasificación: Asigna categorías o etiquetas a los datos mediante algoritmos supervisados.
Ejemplo hospitalario: Se opta por un modelo predictivo, en concreto, un árbol de decisión para clasificar a los pacientes según su riesgo de readmisión.
Ejemplo e-commerce: Se aplican técnicas de clasificación y análisis de correlaciones para identificar patrones que indiquen por qué los usuarios abandonan el carrito.
Ejemplo en finanzas: Se utiliza un enfoque de clasificación para detectar transacciones fraudulentas, implementando modelos de regresión logística y árboles de decisión que permitan distinguir comportamientos atípicos.
3. Requisitos de datos

Antes de recolectar datos, es fundamental definir qué información es necesaria para dar respuesta a la pregunta planteada. Esto incluye identificar el contenido de los datos, los formatos requeridos y las fuentes de donde se extraerán.
Aspectos a considerar:
- Contenido: Variables relevantes para el análisis (por ejemplo, diagnósticos, procedimientos, interacciones de usuario o historial de transacciones).
- Formato: Estructuras de datos que permitan el análisis (por ejemplo, registros transaccionales, tablas consolidadas, datos en tiempo real).
- Fuentes: Bases de datos internas, sistemas de gestión, APIs externas, etc.
Ejemplo hospitalario: Es necesario recopilar historiales clínicos completos, que incluyan diagnósticos primarios, secundarios y terciarios, procedimientos, prescripciones y datos demográficos.
Ejemplo e-commerce: Se deben recolectar datos de comportamiento en el sitio web, historial de compras, interacciones en redes sociales y métricas de conversión.
Ejemplo en finanzas: Se requieren datos de transacciones bancarias, registros de alertas de fraude, información del cliente y patrones históricos de actividad.
4. Recopilación de datos

Con los requisitos definidos, se procede a la recolección de los datos de las diversas fuentes. Esta etapa también incluye la evaluación preliminar de la calidad y la completitud de la información recolectada.
Puntos importantes:
- Verificar la integridad y consistencia de los datos.
- Identificar posibles lagunas o datos faltantes.
- Coordinar con distintos departamentos o sistemas para obtener la información necesaria.
Ejemplo hospitalario: Se extraen datos de sistemas hospitalarios, bases de datos de aseguradoras y registros electrónicos, evaluando si se cumple con la cohorte definida para analizar la readmisión de pacientes.
Ejemplo e-commerce: Se recopilan datos de navegación, interacción y ventas a partir de plataformas web, CRM y análisis de redes sociales, asegurándose de que la información sea representativa de la experiencia del usuario.
Ejemplo en finanzas: Se integran datos provenientes de diferentes sistemas bancarios y de seguridad, prestando especial atención a la calidad de los registros de transacciones sospechosas y patrones anómalos.
5. Comprensión de los datos

Una vez recopilados, es vital analizar y explorar los datos para confirmar que son adecuados para resolver el problema. Se aplican técnicas estadísticas y visuales que permiten identificar patrones, distribuciones y posibles problemas de calidad.
Técnicas utilizadas:
- Análisis univariante: Calcular media, mediana, desviación estándar, mínimos y máximos.
- Histogramas: Visualizar la distribución de las variables.
- Correlación por pares: Detectar relaciones entre variables y posibles redundancias.
Ejemplo hospitalario: Se generan histogramas de la edad, frecuencia de visitas y otros indicadores, comprobando que la distribución permita diferenciar a los pacientes de alto riesgo.
Ejemplo e-commerce: Se analizan variables como el tiempo de sesión, número de productos vistos y tasa de abandono, para identificar tendencias y anomalías en el comportamiento del usuario.
Ejemplo en finanzas: Se estudian las distribuciones de montos de transacciones, frecuencia de operaciones y correlaciones entre variables, buscando patrones que puedan sugerir actividades fraudulentas.
6. Preparación de los datos

La fase de preparación es fundamental para transformar los datos en un formato adecuado para el modelado. Esto implica limpiar, transformar y enriquecer la información mediante técnicas como la ingeniería de características y el análisis textual.
Pasos a seguir:
- Limpieza de datos: Eliminación de registros duplicados, tratamiento de valores nulos o erróneos.
- Transformación: Normalización, agregación y conversión de datos transaccionales en un registro único por entidad.
- Ingeniería de características: Creación de nuevas variables que capturen patrones importantes y permitan mejorar la capacidad predictiva del modelo.
Ejemplo hospitalario: Se consolidan múltiples registros de cada paciente en un único registro resumen, generando nuevas variables como la frecuencia de visitas, tiempo entre intervenciones y presencia de comorbilidades.
Ejemplo e-commerce: Se integran datos de diferentes plataformas, se eliminan duplicados y se crean indicadores como el “valor medio del carrito” o “número de sesiones antes de la compra”.
Ejemplo en finanzas: Se preparan datos históricos de transacciones, creando variables que representen patrones de gasto, anomalías en la actividad y tendencias temporales, lo que permite detectar con mayor precisión comportamientos atípicos.
7. Modelado

Con los datos limpios y estructurados, llega el momento de construir el modelo que permita responder la pregunta de negocio. Esta fase se basa en el uso de algoritmos que se ajustan y calibran utilizando un conjunto de entrenamiento.
Aspectos clave:
- Selección del algoritmo adecuado (por ejemplo, árboles de decisión, regresión logística, redes neuronales).
- Ajuste de parámetros: Es fundamental calibrar parámetros como el costo relativo de clasificar erróneamente, lo que permite equilibrar la sensibilidad y la especificidad del modelo.
- Uso de un conjunto de entrenamiento para validar el desempeño antes de aplicarlo a datos nuevos.
Ejemplo hospitalario: Se implementa un modelo de árbol de decisión para clasificar el riesgo de readmisión. Se experimenta ajustando el costo de los errores, logrando un modelo que equilibre la detección de pacientes de alto riesgo y minimice falsos positivos.
Ejemplo e-commerce: Se desarrolla un modelo predictivo que identifique usuarios con alta probabilidad de abandonar el carrito, ajustando parámetros y utilizando técnicas de validación cruzada para garantizar la robustez del modelo.
Ejemplo en finanzas: Se crea un modelo de clasificación para detectar transacciones fraudulentas. Se prueban distintos algoritmos y se ajustan parámetros, por ejemplo, incrementando el peso de los falsos negativos para evitar que se pasen por alto actividades sospechosas.
8. Evaluación

La evaluación del modelo es crítica para asegurarse de que cumple con la pregunta de negocio y para identificar posibles áreas de mejora. Se utilizan métricas de rendimiento y técnicas de validación que permiten medir la eficacia del modelo.
Herramientas y métricas:
- Curva ROC: Permite visualizar la tasa de verdaderos positivos versus falsos positivos y seleccionar el umbral óptimo.
- Sensibilidad y especificidad: Indicadores que miden la capacidad del modelo para detectar correctamente casos positivos y negativos.
- Validación con un conjunto de prueba independiente para garantizar que el modelo generaliza bien a nuevos datos.
Ejemplo hospitalario: Se analizan distintas configuraciones del modelo mediante la curva ROC, seleccionando aquella que ofrezca la mejor separación entre pacientes de alto y bajo riesgo.
Ejemplo e-commerce: Se evalúa el modelo con datos de prueba, analizando la tasa de abandono correctamente identificada frente a falsos positivos, y se ajusta el umbral de decisión para mejorar la precisión.
Ejemplo en finanzas: Se comparan modelos mediante métricas de precisión y se realizan pruebas de significación estadística para confirmar que el modelo detecta efectivamente transacciones fraudulentas sin generar demasiados falsos positivos.
9. Despliegue

Con el modelo validado, el siguiente paso es su puesta en producción. Esta fase implica integrar el modelo en el entorno de negocio para que las partes interesadas puedan utilizarlo en tiempo real y tomar decisiones basadas en sus resultados.
Aspectos importantes:
- Implementación en sistemas de producción (por ejemplo, aplicaciones web, dashboards interactivos).
- Capacitación y documentación para que los usuarios comprendan y confíen en el modelo.
- Monitoreo continuo para detectar cambios en el comportamiento de los datos o en la efectividad del modelo.
Ejemplo hospitalario: Se despliega una aplicación que, en tiempo real, muestra el riesgo de readmisión de cada paciente al momento del alta, permitiendo a los médicos planificar intervenciones adicionales.
Ejemplo e-commerce: El modelo se integra en la plataforma online para enviar alertas y activar campañas de retención cuando se detecta un alto riesgo de abandono del carrito.
Ejemplo en finanzas: Se implementa en el sistema de monitoreo bancario para que el equipo de seguridad reciba alertas inmediatas sobre transacciones sospechosas, facilitando una respuesta rápida.
10. Retroalimentación

La última etapa es el cierre del ciclo, en la que se recoge la retroalimentación de los usuarios y se evalúa el impacto del modelo. Este feedback es esencial para iterar y mejorar continuamente la solución.
Elementos clave:
- Revisión de la efectividad del modelo en el entorno real.
- Incorporación de nuevos datos o ajustes en los parámetros según lo aprendido.
- Establecimiento de reuniones periódicas con las partes interesadas para revisar resultados y definir nuevas necesidades.
Ejemplo hospitalario: Los médicos y administradores analizan la efectividad de las intervenciones basadas en el modelo, lo que permite ajustar parámetros o incluir nuevas variables (por ejemplo, información farmacéutica) para mejorar la predicción.
Ejemplo e-commerce: Se recogen comentarios de los usuarios y se monitorizan los indicadores de conversión, lo que lleva a reajustar el modelo y optimizar estrategias de marketing.
Ejemplo en finanzas: El equipo de seguridad revisa los casos detectados y los resultados de las intervenciones, refinando el modelo para reducir falsos positivos y mejorar la detección de fraude.
Conclusión
Esta metodología propuesta por IBM para la ciencia de datos (similar a CRISP-DM) es una guía práctica y detallada que te permite transformar un problema de negocio en una solución basada en datos. Al seguir estas 10 etapas de manera iterativa, se logra:
- Comprender y definir claramente el problema, mediante la identificación de objetivos y preguntas precisas.
- Elegir el enfoque analítico adecuado que permita abordar el problema con las técnicas correctas.
- Recoger, limpiar y preparar los datos, asegurando que sean representativos y estén listos para el modelado.
- Construir, evaluar y desplegar modelos robustos, ajustando parámetros y validando su desempeño.
- Recoger retroalimentación y mejorar continuamente la solución, garantizando su efectividad en el tiempo.
Con ejemplos en ámbitos tan variados como la salud, el comercio electrónico y la detección de fraude en finanzas, este enfoque iterativo te ayudará a aplicar las herramientas adecuadas en el momento correcto, convirtiendo los datos en decisiones de negocio efectivas.