Un pequeño problema de SQL al que me tuve que enfrentar el otro día consistía en la necesidad de usar funciones agregadas (sum, max, min…) dentro de otra función agregada. El problema parte de aquí: Es necesario hacer un SUM() de un CASE-WHEN en el que hay otros SUM(). Pero esto produce el siguiente mensaje […]
Categoría: Aprendizaje estadístico y Minería de Datos
Eliminación de columnas de un dataframe en R en función del porcentaje de NULLS que contengan
El análisis y limpieza de registros NaNs (aka NULLS) es una tarea común antes de comenzar a trabajar con un conjunto de datos. Eliminar filas que contienen algún hueco es una acción inmediata con la función na.omit(). Pero muchas veces es conveniente realizar un análisis/limpieza de valores NaNs (o NULLS) por columnas en lugar de […]
conocer chicas de otros paises
Uno de los “verbos” que incluye la librería dplyr y que es realmente útil es el llamado mutate(). Mutate() sirve para crear nuevas variables/columnas a partir de la existentes. Esto nos va a permitir crear estas nuevas variables a partir de relaciones o condicionantes. En este post veremos su uso más simple y su uso […]
Cómo eliminar columnas de un DataFrame de Python Pandas
En un anterior post vimos cómo eliminar filas de un DataFrame de Python Pandas según una condición. Vamos a ver ahora cómo eliminar columnas de tres formas diferentes, usando tanto el nombre de la columna como su posición. 0. Dataset de inicio Partimos de un dataset con datos de observaciones astronómicas que ha sido recortado […]
Discretización de un Pandas dataframe en Python manteniendo el nombre de las columnas
Discretizar datos quiere decir convertir variables que son continuas en variables agrupadas por intervalos. Por ejemplo, podemos discretizar un listado que contiene la edad de ciertas personas, que de forma continua podrían tener un valor entre 0 y 90, en variables discretas de (por ejemplo) 5 intervalos de diferentes edades: infantes, niños, jóvenes, adultos y […]
Extracción de datos de un vector según una condición en R
Esto es un caso sencillo pero que puede resultar útil. Se trata de un vector del cuál queremos extraer datos que cumplan cierta condición. Además, eliminaremos los valores NA antes de hacer la operación. Por ejemplo, nuestro vector, llamado current_full, contiene 8.530.261 elementos: Un vistazo rápido ya nos muestra que hay muchos valores NA. Vamos […]
Cómo encontrar valores NaN en un DataFrame Pandas de Python y modificarlos
Cuando trabajamos con un DataFrame, especialmente si es extenso, podemos tener problemas con lo valores NaN. Los NaN (“Not a Number“) son valores vacíos no computables que debemos tratar en nuestros conjuntos de datos antes de trabajar con ellos. Veremos algunos códigos de Python que pueden ayudarnos a trabajar con los NaN. Este código nos […]
Cómo eliminar filas de un DataFrame de Python Pandas según una condición
Sencillo ejemplo de cómo eliminar una fila de un DataFrame Pandas de Python en función de una expresión condicional. Como bonus track al final vemos cómo eliminar también una columna. Partimos de este sencillo DataFrame creado en Excel como ejemplo: La forma de cargar en Pandas éste DataFrame desde un archivo Excel es la siguiente: […]
El proceso KDD para extraer conocimiento útil de volúmenes de datos
La forma tradicional de convertir datos en conocimiento se basa en el análisis y en la interpretación manual, como por ejemplo el análisis de expertos buscando tendencias y puntos de inflexión de los datos. Este análisis manual de los datos es lento, costoso y tiene un alto grado de subjetividad. E incluso se vuelve impracticable […]