Cómo evitar el error “ValueError: All arrays must be of the same length” al cargar un JSON en Pandas

Es común al intentar cargar un JSON en un dataframe Pandas que obtengamos el error el tipo “ValueError: arrays must all be same length“. El problema se genera porque Pandas necesita que todas las columnas tengan la misma extensión, y en la estructura JSON esta característica no tiene porqué darse. Para solucionar este problema, en […]

Leer más

Creación de entornos en Anaconda

Los entornos virtuales son espacios independientes a tu instalación local, cuya función es “empaquetar” de forma independiente los diferentes recursos y librerías. Gracias a este recurso podemos tener distintos entornos virtuales con diferentes versiones de Python y de las librerías usadas. Así, por ejemplo, podemos tener un entorno con Python 3.8 y tensorflow que nos sirve […]

Leer más

Eliminación de columnas de un dataframe en R en función del porcentaje de NULLS que contengan

El análisis y limpieza de registros NaNs (aka NULLS) es una tarea común antes de comenzar a trabajar con un conjunto de datos. Eliminar filas que contienen algún hueco es una acción inmediata con la función na.omit(). Pero muchas veces es conveniente realizar un análisis/limpieza de valores NaNs (o NULLS) por columnas en lugar de […]

Leer más

Persistencia de modelos en Python: cómo guardar tu modelo entrenado de Machine Learning

Entrenar un modelo de Machine Learning es un proceso muchas veces lento, por lo que no tiene sentido volver a entrenar el modelo cada vez que lo necesitemos en el futuro. Por suerte, una herramienta de SciKit Learn nos permite guardar nuestro modelo ya entrenado para utilizarlo cuando lo necesitemos. Vamos allá: 1. Guardar el […]

Leer más