R – Exponentis

Eliminación de columnas de un dataframe en R en función del porcentaje de NULLS que contengan

marzo 5, 2020marzo 6, 2020 Gliese710 2 comentarios

El análisis y limpieza de registros NaNs (aka NULLS) es una tarea común antes de comenzar a trabajar con un conjunto de datos. Eliminar filas que contienen algún hueco es una acción inmediata con la función na.omit(). Pero muchas veces es conveniente realizar un análisis/limpieza de valores NaNs (o NULLS) por columnas en lugar de […]

Uso de la función mutate() de dplyr junto a un condicionante ifelse en R

noviembre 27, 2019diciembre 4, 2019 Gliese710 3 comentarios

Uno de los «verbos» que incluye la librería dplyr y que es realmente útil es el llamado mutate(). Mutate() sirve para crear nuevas variables/columnas a partir de la existentes. Esto nos va a permitir crear estas nuevas variables a partir de relaciones o condicionantes. En este post veremos su uso más simple y su uso […]

Ejemplo de uso de un Mapa Auto-Organizado (SOM) de Kohonen en R

octubre 9, 2019octubre 21, 2019 Gliese710 8 comentarios

Los Mapas Auto-Organizados (con las siglas SOM en inglés) son un tipo de red neuronal entrenada como aprendizaje no supervisado, de forma que se modifican repetidamente los pesos de dicha red en respuesta a patrones de activación hasta que una configuración final queda desarrollada. El modelo, creado por Teuvo Kohonen en 1982, consiste en establecer […]

Representación de la media, mediana y cuantiles en un histograma con ggplot2 en R

agosto 28, 2019septiembre 2, 2019 Gliese710 1 comentario

En ciencia de datos, es muy común la representación de variables en forma de histograma, de forma que podemos obtener fácilmente una primera impresión de la distribución de dicha variable. Podemos «tunear» nuestro histograma, obteniendo información también muy relevante, si añadimos estadísticos como lo pueden ser la media, mediana o los cuantiles 0,25 y 0,75. […]

Parametrización automática de DBSCAN en R a partir de la curva elbow

junio 14, 2019agosto 27, 2019 Gliese710 Deja un comentario

En el anterior post titulado Ejemplo de uso de DBSCAN en Python para eliminación de outliers se vio cómo ejecutar un algoritmo DBSCAN para detección de outliers en Python; sus parámetros se eligieron de forma más o menos visual a partir de la nube de puntos y de la curva elbow. El problema que esto […]

Extracción de datos de un vector según una condición en R

abril 30, 2019diciembre 5, 2019 Gliese710 Deja un comentario

Esto es un caso sencillo pero que puede resultar útil. Se trata de un vector del cuál queremos extraer datos que cumplan cierta condición. Además, eliminaremos los valores NA antes de hacer la operación. Por ejemplo, nuestro vector, llamado current_full, contiene 8.530.261 elementos: Un vistazo rápido ya nos muestra que hay muchos valores NA. Vamos […]