Programación – Exponentis

Eliminación de columnas de un DataFrame en Python según el porcentaje de NaNs

marzo 28, 2025marzo 22, 2025 Gliese710 Deja un comentario

El análisis y limpieza de valores faltantes (NaNs) es una tarea muy común antes de comenzar a trabajar con un conjunto de datos. Si bien eliminar filas que contengan algún NaN con df.dropna() es sencillo, en ocasiones es más útil analizar y limpiar los valores nulos por columnas. Esto es especialmente importante cuando se dispone […]

Cómo evitar el error «ValueError: All arrays must be of the same length» al cargar un JSON en Pandas

abril 18, 2023abril 18, 2023 Gliese710 Deja un comentario

Es común al intentar cargar un JSON en un dataframe Pandas que obtengamos el error el tipo «ValueError: arrays must all be same length«. El problema se genera porque Pandas necesita que todas las columnas tengan la misma extensión, y en la estructura JSON esta característica no tiene porqué darse. Para solucionar este problema, en […]

Creación y gestión de entornos en Anaconda

enero 25, 2023octubre 29, 2025 Gliese710 Deja un comentario

Los entornos virtuales son espacios independientes a tu instalación local, cuya función es «empaquetar» de forma independiente los diferentes recursos y librerías. Gracias a este recurso podemos tener distintos entornos virtuales con diferentes versiones de Python y de las librerías usadas. Así, por ejemplo, podemos tener un entorno con Python 3.8 y tensorflow que nos sirve […]

Ejecución secuencial de scripts de Python dentro de otro script con control de errores

octubre 14, 2020octubre 14, 2020 Gliese710 Deja un comentario

Muchas veces es necesario ejecutar una serie de scripts de forma secuencial por lo que crear un script maestro o script de automatización que ejecute todos nuestros scripts en el orden deseado es una buena opción. De esta forma, es fácil también implementar un control de errores dentro de nuestro script que nos avise en […]

Funciones agregadas dentro de funciones agregadas en SQL

julio 31, 2020agosto 12, 2020 Gliese710 Deja un comentario

Un pequeño problema de SQL al que me tuve que enfrentar el otro día consistía en la necesidad de usar funciones agregadas (sum, max, min…) dentro de otra función agregada. El problema parte de aquí: Es necesario hacer un SUM() de un CASE-WHEN en el que hay otros SUM(). Pero esto produce el siguiente mensaje […]

Uso de la función mutate() de dplyr junto a un condicionante ifelse en R

noviembre 27, 2019diciembre 4, 2019 Gliese710 3 comentarios

Uno de los «verbos» que incluye la librería dplyr y que es realmente útil es el llamado mutate(). Mutate() sirve para crear nuevas variables/columnas a partir de la existentes. Esto nos va a permitir crear estas nuevas variables a partir de relaciones o condicionantes. En este post veremos su uso más simple y su uso […]

Ejemplo de uso de un Mapa Auto-Organizado (SOM) de Kohonen en R

octubre 9, 2019octubre 21, 2019 Gliese710 8 comentarios

Los Mapas Auto-Organizados (con las siglas SOM en inglés) son un tipo de red neuronal entrenada como aprendizaje no supervisado, de forma que se modifican repetidamente los pesos de dicha red en respuesta a patrones de activación hasta que una configuración final queda desarrollada. El modelo, creado por Teuvo Kohonen en 1982, consiste en establecer […]

Discretización de un Pandas dataframe en Python manteniendo el nombre de las columnas

septiembre 30, 2019octubre 2, 2019 Gliese710 Deja un comentario

Discretizar datos quiere decir convertir variables que son continuas en variables agrupadas por intervalos. Por ejemplo, podemos discretizar un listado que contiene la edad de ciertas personas, que de forma continua podrían tener un valor entre 0 y 90, en variables discretas de (por ejemplo) 5 intervalos de diferentes edades: infantes, niños, jóvenes, adultos y […]

Representación de la media, mediana y cuantiles en un histograma con ggplot2 en R

agosto 28, 2019septiembre 2, 2019 Gliese710 1 comentario

En ciencia de datos, es muy común la representación de variables en forma de histograma, de forma que podemos obtener fácilmente una primera impresión de la distribución de dicha variable. Podemos «tunear» nuestro histograma, obteniendo información también muy relevante, si añadimos estadísticos como lo pueden ser la media, mediana o los cuantiles 0,25 y 0,75. […]

Ejemplo de clustering con k-means en Python

julio 15, 2019agosto 28, 2019 Gliese710 6 comentarios

Sin duda k-means es uno de los algoritmos de aprendizaje automático no supervisado más popular. El objetivo de k-means es simple: agrupa puntos de datos similares con el objetivo de descubrir patrones subyacentes. Para lograr este objetivo, k-means busca un número fijo (k) de agrupamientos (clústers) en el conjunto de datos . 1. Funcionamiento básico […]