Cómo evitar el error “ValueError: All arrays must be of the same length” al cargar un JSON en Pandas

Es común al intentar cargar un JSON en un dataframe Pandas que obtengamos el error el tipo “ValueError: arrays must all be same length“. El problema se genera porque Pandas necesita que todas las columnas tengan la misma extensión, y en la estructura JSON esta característica no tiene porqué darse. Para solucionar este problema, en […]

Leer más

Creación de entornos en Anaconda

Los entornos virtuales son espacios independientes a tu instalación local, cuya función es “empaquetar” de forma independiente los diferentes recursos y librerías. Gracias a este recurso podemos tener distintos entornos virtuales con diferentes versiones de Python y de las librerías usadas. Así, por ejemplo, podemos tener un entorno con Python 3.8 y tensorflow que nos sirve […]

Leer más

Discretización de un Pandas dataframe en Python manteniendo el nombre de las columnas

Discretizar datos quiere decir convertir variables que son continuas en variables agrupadas por intervalos. Por ejemplo, podemos discretizar un listado que contiene la edad de ciertas personas, que de forma continua podrían tener un valor entre 0 y 90, en variables discretas de (por ejemplo) 5 intervalos de diferentes edades: infantes, niños, jóvenes, adultos y […]

Leer más

Representación de la media, mediana y cuantiles en un histograma con ggplot2 en R

En ciencia de datos, es muy común la representación de variables en forma de histograma, de forma que podemos obtener fácilmente una primera impresión de la distribución de dicha variable. Podemos “tunear” nuestro histograma, obteniendo información también muy relevante, si añadimos estadísticos como lo pueden ser la media, mediana o los cuantiles 0,25 y 0,75. […]

Leer más