Codificar categorías de alta cardinalidad sin morir en el intento

Cuando una variable categórica tiene muchísimas categorías (códigos de cliente, ciudades, SKU…), el One-Hot Encoding tradicional explota el número de columnas, consume memoria y puede sobre ajustar. En este post vemos tres enfoques prácticos para tratar la alta cardinalidad sin perder el control: 0- Dataset de ejemplo Como ejemplo, usaremos un dataset ficticio con una […]

Leer más

Persistencia de modelos en Python: cómo guardar tu modelo entrenado de Machine Learning

Entrenar un modelo de Machine Learning es un proceso muchas veces lento, por lo que no tiene sentido volver a entrenar el modelo cada vez que lo necesitemos en el futuro. Por suerte, una herramienta de SciKit Learn nos permite guardar nuestro modelo ya entrenado para utilizarlo cuando lo necesitemos. Vamos allá: 1. Guardar el […]

Leer más