Aprendizaje estadístico y Minería de Datos

Eliminación de columnas de un DataFrame en Python según el porcentaje de NaNs

marzo 28, 2025marzo 22, 2025 Gliese710 Deja un comentario

El análisis y limpieza de valores faltantes (NaNs) es una tarea muy común antes de comenzar a trabajar con un conjunto de datos. Si bien eliminar filas que contengan algún NaN con df.dropna() es sencillo, en ocasiones es más útil analizar y limpiar los valores nulos por columnas. Esto es especialmente importante cuando se dispone […]

Funciones agregadas dentro de funciones agregadas en SQL

julio 31, 2020agosto 12, 2020 Gliese710 Deja un comentario

Un pequeño problema de SQL al que me tuve que enfrentar el otro día consistía en la necesidad de usar funciones agregadas (sum, max, min…) dentro de otra función agregada. El problema parte de aquí: Es necesario hacer un SUM() de un CASE-WHEN en el que hay otros SUM(). Pero esto produce el siguiente mensaje […]

Eliminación de columnas de un dataframe en R en función del porcentaje de NULLS que contengan

marzo 5, 2020marzo 6, 2020 Gliese710 2 comentarios

El análisis y limpieza de registros NaNs (aka NULLS) es una tarea común antes de comenzar a trabajar con un conjunto de datos. Eliminar filas que contienen algún hueco es una acción inmediata con la función na.omit(). Pero muchas veces es conveniente realizar un análisis/limpieza de valores NaNs (o NULLS) por columnas en lugar de […]

Uso de la función mutate() de dplyr junto a un condicionante ifelse en R

noviembre 27, 2019diciembre 4, 2019 Gliese710 3 comentarios

Uno de los «verbos» que incluye la librería dplyr y que es realmente útil es el llamado mutate(). Mutate() sirve para crear nuevas variables/columnas a partir de la existentes. Esto nos va a permitir crear estas nuevas variables a partir de relaciones o condicionantes. En este post veremos su uso más simple y su uso […]

Cómo eliminar columnas de un DataFrame de Python Pandas

noviembre 18, 2019noviembre 18, 2019 Gliese710 Deja un comentario

En un anterior post vimos cómo eliminar filas de un DataFrame de Python Pandas según una condición. Vamos a ver ahora cómo eliminar columnas de tres formas diferentes, usando tanto el nombre de la columna como su posición. 0. Dataset de inicio Partimos de un dataset con datos de observaciones astronómicas que ha sido recortado […]

Discretización de un Pandas dataframe en Python manteniendo el nombre de las columnas

septiembre 30, 2019octubre 2, 2019 Gliese710 Deja un comentario

Discretizar datos quiere decir convertir variables que son continuas en variables agrupadas por intervalos. Por ejemplo, podemos discretizar un listado que contiene la edad de ciertas personas, que de forma continua podrían tener un valor entre 0 y 90, en variables discretas de (por ejemplo) 5 intervalos de diferentes edades: infantes, niños, jóvenes, adultos y […]

Extracción de datos de un vector según una condición en R

abril 30, 2019diciembre 5, 2019 Gliese710 Deja un comentario

Esto es un caso sencillo pero que puede resultar útil. Se trata de un vector del cuál queremos extraer datos que cumplan cierta condición. Además, eliminaremos los valores NA antes de hacer la operación. Por ejemplo, nuestro vector, llamado current_full, contiene 8.530.261 elementos: Un vistazo rápido ya nos muestra que hay muchos valores NA. Vamos […]

Cómo encontrar valores NaN en un DataFrame Pandas de Python y modificarlos

enero 25, 2019agosto 5, 2019 Gliese710 Deja un comentario

Cuando trabajamos con un DataFrame, especialmente si es extenso, podemos tener problemas con lo valores NaN. Los NaN («Not a Number«) son valores vacíos no computables que debemos tratar en nuestros conjuntos de datos antes de trabajar con ellos. Veremos algunos códigos de Python que pueden ayudarnos a trabajar con los NaN. Este código nos […]

Cómo eliminar filas de un DataFrame de Python Pandas según una condición

enero 14, 2019octubre 18, 2019 Gliese710 9 comentarios

Sencillo ejemplo de cómo eliminar una fila de un DataFrame Pandas de Python en función de una expresión condicional. Como bonus track al final vemos cómo eliminar también una columna. Partimos de este sencillo DataFrame creado en Excel como ejemplo: La forma de cargar en Pandas éste DataFrame desde un archivo Excel es la siguiente: […]

El proceso KDD para extraer conocimiento útil de volúmenes de datos

mayo 31, 2018julio 25, 2018 Gliese710 Deja un comentario

La forma tradicional de convertir datos en conocimiento se basa en el análisis y en la interpretación manual, como por ejemplo el análisis de expertos buscando tendencias y puntos de inflexión de los datos. Este análisis manual de los datos es lento, costoso y tiene un alto grado de subjetividad. E incluso se vuelve impracticable […]