Machine Learning – Exponentis

Codificar categorías de alta cardinalidad sin morir en el intento

diciembre 5, 2025diciembre 6, 2025 Gliese710 Deja un comentario

Cuando una variable categórica tiene muchísimas categorías (códigos de cliente, ciudades, SKU…), el One-Hot Encoding tradicional explota el número de columnas, consume memoria y puede sobre ajustar. En este post vemos tres enfoques prácticos para tratar la alta cardinalidad sin perder el control: 0- Dataset de ejemplo Como ejemplo, usaremos un dataset ficticio con una […]

Persistencia de modelos en Python: cómo guardar tu modelo entrenado de Machine Learning

noviembre 12, 2019noviembre 18, 2021 Gliese710 Deja un comentario

Entrenar un modelo de Machine Learning es un proceso muchas veces lento, por lo que no tiene sentido volver a entrenar el modelo cada vez que lo necesitemos en el futuro. Por suerte, una herramienta de SciKit Learn nos permite guardar nuestro modelo ya entrenado para utilizarlo cuando lo necesitemos. Vamos allá: 1. Guardar el […]

Cómo dividir un conjunto de datos en dos partes (train/test split) en Python

noviembre 5, 2019octubre 15, 2020 Gliese710 Deja un comentario

Una operación que es común en todos los modelos de aprendizaje supervisado es la división de nuestro conjunto de datos en -al menos- dos partes: una parte Train, de entrenamiento, que corresponderá a la mayor parte de nuestro dataset y que usaremos para entrenar nuestro modelo y un parte Test, de menor tamaño, sobre la […]

Ejemplo de uso de un Mapa Auto-Organizado (SOM) de Kohonen en R

octubre 9, 2019octubre 21, 2019 Gliese710 8 comentarios

Los Mapas Auto-Organizados (con las siglas SOM en inglés) son un tipo de red neuronal entrenada como aprendizaje no supervisado, de forma que se modifican repetidamente los pesos de dicha red en respuesta a patrones de activación hasta que una configuración final queda desarrollada. El modelo, creado por Teuvo Kohonen en 1982, consiste en establecer […]

Ejemplo de clustering con k-means en Python

julio 15, 2019agosto 28, 2019 Gliese710 6 comentarios

Sin duda k-means es uno de los algoritmos de aprendizaje automático no supervisado más popular. El objetivo de k-means es simple: agrupa puntos de datos similares con el objetivo de descubrir patrones subyacentes. Para lograr este objetivo, k-means busca un número fijo (k) de agrupamientos (clústers) en el conjunto de datos . 1. Funcionamiento básico […]

Parametrización automática de DBSCAN en R a partir de la curva elbow

junio 14, 2019agosto 27, 2019 Gliese710 Deja un comentario

En el anterior post titulado Ejemplo de uso de DBSCAN en Python para eliminación de outliers se vio cómo ejecutar un algoritmo DBSCAN para detección de outliers en Python; sus parámetros se eligieron de forma más o menos visual a partir de la nube de puntos y de la curva elbow. El problema que esto […]

Ejemplo de uso de DBSCAN en Python para eliminación de outliers

junio 4, 2019agosto 27, 2019 Gliese710 2 comentarios

Dentro de los algoritmos de clustering de aprendizaje no supervisado, uno de los más interesantes -y quizás no tan conocido- es DBSCAN, un algoritmo de agrupamiento basado en la densidad, que modela los clústers como cúmulos de alta densidad de puntos. Por lo cual, si un punto pertenece o no a un clúster, debe estar […]