Codificar categorías de alta cardinalidad sin morir en el intento

Cuando una variable categórica tiene muchísimas categorías (códigos de cliente, ciudades, SKU…), el One-Hot Encoding tradicional explota el número de columnas, consume memoria y puede sobre ajustar. En este post vemos tres enfoques prácticos para tratar la alta cardinalidad sin perder el control: 0- Dataset de ejemplo Como ejemplo, usaremos un dataset ficticio con una […]

Leer más

La metodología en Ciencia de Datos: transformar problemas en soluciones

La ciencia de datos requiere más que aplicar algoritmos: necesita un proceso estructurado que permita transformar información cruda en soluciones efectivas. En este post veremos la metodología de IBM (creada por John Rollins) para la ciencia de datos, que se compone de 10 etapas iterativas. Esto quiere decir que, en cada ciclo, se revisan, refinan […]

Leer más

Cómo evitar el error «ValueError: All arrays must be of the same length» al cargar un JSON en Pandas

Es común al intentar cargar un JSON en un dataframe Pandas que obtengamos el error el tipo «ValueError: arrays must all be same length«. El problema se genera porque Pandas necesita que todas las columnas tengan la misma extensión, y en la estructura JSON esta característica no tiene porqué darse. Para solucionar este problema, en […]

Leer más

Creación y gestión de entornos en Anaconda

Los entornos virtuales son espacios independientes a tu instalación local, cuya función es «empaquetar» de forma independiente los diferentes recursos y librerías. Gracias a este recurso podemos tener distintos entornos virtuales con diferentes versiones de Python y de las librerías usadas. Así, por ejemplo, podemos tener un entorno con Python 3.8 y tensorflow que nos sirve […]

Leer más

Eliminación de columnas de un dataframe en R en función del porcentaje de NULLS que contengan

El análisis y limpieza de registros NaNs (aka NULLS) es una tarea común antes de comenzar a trabajar con un conjunto de datos. Eliminar filas que contienen algún hueco es una acción inmediata con la función na.omit(). Pero muchas veces es conveniente realizar un análisis/limpieza de valores NaNs (o NULLS) por columnas en lugar de […]

Leer más