enero 2019 – Exponentis

Ejemplo de uso de PySpark en Linux y algunos comandos básicos de transformación/acción en Spark

enero 30, 2019agosto 5, 2019 Gliese710 Deja un comentario

Apache Spark está escrito en lenguaje de programación Scala. Para admitir la programación Python con Spark, la comunidad Apache Spark lanzó la herramienta PySpark. Esta herramienta interactiva puede trabajar con RDD (los datasets distribuidos de Spark) en el lenguaje de programación Python. Quizás te interese seguir antes el siguiente post: Instalación paso a paso de […]

Instalación paso a paso de Spark en Linux y ejecución de PySpark

enero 27, 2019agosto 5, 2019 Gliese710 2 comentarios

Esta es una guía sencilla, que explica paso a paso cómo instalar y ejecutar Apache Spark en una máquina Linux. Para el ejemplo utilizaremos la distribución CentOS pero los pasos dados también son válidos para Ubuntu o Linux Mint. En primer lugar debemos instalar Scala, ya que Spark está implementado en dicho lenguaje de programación y lo necesita para […]

Cómo encontrar valores NaN en un DataFrame Pandas de Python y modificarlos

enero 25, 2019agosto 5, 2019 Gliese710 Deja un comentario

Cuando trabajamos con un DataFrame, especialmente si es extenso, podemos tener problemas con lo valores NaN. Los NaN («Not a Number«) son valores vacíos no computables que debemos tratar en nuestros conjuntos de datos antes de trabajar con ellos. Veremos algunos códigos de Python que pueden ayudarnos a trabajar con los NaN. Este código nos […]

Cinco comandos de depuración de código para Hadoop Map Reduce

enero 22, 2019agosto 6, 2019 Gliese710 Deja un comentario

Se listan algunos comandos interesantes de Hadoop Map Reduce para obtener resultados intermedios y poder depurar nuestro código para evitar errores: Salida de los mappers: Entrada de los combiners: Salida de los combiners: Entrada de los reducers: Salida del reducer tras ejecutar un combiner: Para saber más:Mordiendo Hadoop: Instalación y primeras pruebas.Ejemplo WordCount y primeros […]

Creación y ejecución de un programa Python para Hadoop Map Reduce en Linux

enero 21, 2019enero 22, 2020 Gliese710 3 comentarios

Vamos a ejecutar un sencillo programa Python en Hadoop Map Reduce. El programa va a calcular la temperatura máxima de cada año a partir de un registro histórico. Para el ejemplo usaremos CentOS aunque es válido para cualquier otra distribución de Linux. Si no tienes aún instalado Hadoop quizás te interese el siguiente post: Instalación […]

Instalación paso a paso de Hadoop en Linux y un ejemplo de uso

enero 20, 2019agosto 6, 2019 Gliese710 3 comentarios

Esta es una guía sencilla, que explica paso a paso como instalar y ejecutar Hadoop en una máquina Linux. Si ya tienes instalado Hadoop, quizás te interese: Creación y ejecución de un programa Python para Hadoop Map Reduce en Linux En primer lugar instalamos Java, ya que Hadoop se ejecuta sobre este lenguaje. Para el […]

Cómo eliminar filas de un DataFrame de Python Pandas según una condición

enero 14, 2019octubre 18, 2019 Gliese710 9 comentarios

Sencillo ejemplo de cómo eliminar una fila de un DataFrame Pandas de Python en función de una expresión condicional. Como bonus track al final vemos cómo eliminar también una columna. Partimos de este sencillo DataFrame creado en Excel como ejemplo: La forma de cargar en Pandas éste DataFrame desde un archivo Excel es la siguiente: […]