Eliminación de columnas de un DataFrame en Python según el porcentaje de NaNs

El análisis y limpieza de valores faltantes (NaNs) es una tarea muy común antes de comenzar a trabajar con un conjunto de datos. Si bien eliminar filas que contengan algún NaN con df.dropna() es sencillo, en ocasiones es más útil analizar y limpiar los valores nulos por columnas. Esto es especialmente importante cuando se dispone […]

Leer más

Cómo evitar el error «ValueError: All arrays must be of the same length» al cargar un JSON en Pandas

Es común al intentar cargar un JSON en un dataframe Pandas que obtengamos el error el tipo «ValueError: arrays must all be same length«. El problema se genera porque Pandas necesita que todas las columnas tengan la misma extensión, y en la estructura JSON esta característica no tiene porqué darse. Para solucionar este problema, en […]

numeros de mujeres solteras en mexico

http://exponentis.es/citas-cruz-blanca-internet

mujer con hijos y hombre soltera

En un anterior post vimos cómo eliminar filas de un DataFrame de Python Pandas según una condición. Vamos a ver ahora cómo eliminar columnas de tres formas diferentes, usando tanto el nombre de la columna como su posición. 0. Dataset de inicio Partimos de un dataset con datos de observaciones astronómicas que ha sido recortado […]

Leer más

Discretización de un Pandas dataframe en Python manteniendo el nombre de las columnas

Discretizar datos quiere decir convertir variables que son continuas en variables agrupadas por intervalos. Por ejemplo, podemos discretizar un listado que contiene la edad de ciertas personas, que de forma continua podrían tener un valor entre 0 y 90, en variables discretas de (por ejemplo) 5 intervalos de diferentes edades: infantes, niños, jóvenes, adultos y […]

Leer más

Cómo encontrar valores NaN en un DataFrame Pandas de Python y modificarlos

Cuando trabajamos con un DataFrame, especialmente si es extenso, podemos tener problemas con lo valores NaN. Los NaN («Not a Number«) son valores vacíos no computables que debemos tratar en nuestros conjuntos de datos antes de trabajar con ellos. Veremos algunos códigos de Python que pueden ayudarnos a trabajar con los NaN. Este código nos […]

Leer más

Cómo eliminar filas de un DataFrame de Python Pandas según una condición

Sencillo ejemplo de cómo eliminar una fila de un DataFrame Pandas de Python en función de una expresión condicional. Como bonus track al final vemos cómo eliminar también una columna. Partimos de este sencillo DataFrame creado en Excel como ejemplo: La forma de cargar en Pandas éste DataFrame desde un archivo Excel es la siguiente: […]

Leer más