Python – Exponentis

Creación de entornos en Anaconda

enero 25, 2023enero 25, 2023 Gliese710 Deja un comentario

Los entornos virtuales son espacios independientes a tu instalación local, cuya función es “empaquetar” de forma independiente los diferentes recursos y librerías. Gracias a este recurso podemos tener distintos entornos virtuales con diferentes versiones de Python y de las librerías usadas. Así, por ejemplo, podemos tener un entorno con Python 3.8 y tensorflow que nos sirve […]

Ejecución secuencial de scripts de Python dentro de otro script con control de errores

octubre 14, 2020octubre 14, 2020 Gliese710 Deja un comentario

Muchas veces es necesario ejecutar una serie de scripts de forma secuencial por lo que crear un script maestro o script de automatización que ejecute todos nuestros scripts en el orden deseado es una buena opción. De esta forma, es fácil también implementar un control de errores dentro de nuestro script que nos avise en […]

Cómo eliminar columnas de un DataFrame de Python Pandas

noviembre 18, 2019noviembre 18, 2019 Gliese710 Deja un comentario

En un anterior post vimos cómo eliminar filas de un DataFrame de Python Pandas según una condición. Vamos a ver ahora cómo eliminar columnas de tres formas diferentes, usando tanto el nombre de la columna como su posición. 0. Dataset de inicio Partimos de un dataset con datos de observaciones astronómicas que ha sido recortado […]

Discretización de un Pandas dataframe en Python manteniendo el nombre de las columnas

septiembre 30, 2019octubre 2, 2019 Gliese710 Deja un comentario

Discretizar datos quiere decir convertir variables que son continuas en variables agrupadas por intervalos. Por ejemplo, podemos discretizar un listado que contiene la edad de ciertas personas, que de forma continua podrían tener un valor entre 0 y 90, en variables discretas de (por ejemplo) 5 intervalos de diferentes edades: infantes, niños, jóvenes, adultos y […]

Ejemplo de clustering con k-means en Python

julio 15, 2019agosto 28, 2019 Gliese710 6 comentarios

Sin duda k-means es uno de los algoritmos de aprendizaje automático no supervisado más popular. El objetivo de k-means es simple: agrupa puntos de datos similares con el objetivo de descubrir patrones subyacentes. Para lograr este objetivo, k-means busca un número fijo (k) de agrupamientos (clústers) en el conjunto de datos . 1. Funcionamiento básico […]

Ejemplo de uso de DBSCAN en Python para eliminación de outliers

junio 4, 2019agosto 27, 2019 Gliese710 2 comentarios

Dentro de los algoritmos de clustering de aprendizaje no supervisado, uno de los más interesantes -y quizás no tan conocido- es DBSCAN, un algoritmo de agrupamiento basado en la densidad, que modela los clústers como cúmulos de alta densidad de puntos. Por lo cual, si un punto pertenece o no a un clúster, debe estar […]

Ejemplo de uso de PySpark en Linux y algunos comandos básicos de transformación/acción en Spark

enero 30, 2019agosto 5, 2019 Gliese710 Deja un comentario

Apache Spark está escrito en lenguaje de programación Scala. Para admitir la programación Python con Spark, la comunidad Apache Spark lanzó la herramienta PySpark. Esta herramienta interactiva puede trabajar con RDD (los datasets distribuidos de Spark) en el lenguaje de programación Python. Quizás te interese seguir antes el siguiente post: Instalación paso a paso de […]

Instalación paso a paso de Spark en Linux y ejecución de PySpark

enero 27, 2019agosto 5, 2019 Gliese710 2 comentarios

Esta es una guía sencilla, que explica paso a paso cómo instalar y ejecutar Apache Spark en una máquina Linux. Para el ejemplo utilizaremos la distribución CentOS pero los pasos dados también son válidos para Ubuntu o Linux Mint. En primer lugar debemos instalar Scala, ya que Spark está implementado en dicho lenguaje de programación y lo necesita para […]

Cómo encontrar valores NaN en un DataFrame Pandas de Python y modificarlos

enero 25, 2019agosto 5, 2019 Gliese710 Deja un comentario

Cuando trabajamos con un DataFrame, especialmente si es extenso, podemos tener problemas con lo valores NaN. Los NaN (“Not a Number“) son valores vacíos no computables que debemos tratar en nuestros conjuntos de datos antes de trabajar con ellos. Veremos algunos códigos de Python que pueden ayudarnos a trabajar con los NaN. Este código nos […]

Creación y ejecución de un programa Python para Hadoop Map Reduce en Linux

enero 21, 2019enero 22, 2020 Gliese710 3 comentarios

Vamos a ejecutar un sencillo programa Python en Hadoop Map Reduce. El programa va a calcular la temperatura máxima de cada año a partir de un registro histórico. Para el ejemplo usaremos CentOS aunque es válido para cualquier otra distribución de Linux. Si no tienes aún instalado Hadoop quizás te interese el siguiente post: Instalación […]