Instalación paso a paso de Spark en Linux y ejecución de PySpark

Esta es una guía sencilla, que explica paso a paso cómo instalar y ejecutar Apache Spark en una máquina Linux. Para el ejemplo utilizaremos la distribución CentOS pero los pasos dados también son válidos para Ubuntu o Linux Mint. En primer lugar debemos instalar Scala, ya que Spark está implementado en dicho lenguaje de programación y lo necesita para […]

Leer más

Cinco comandos de depuración de código para Hadoop Map Reduce

Se listan algunos comandos interesantes de Hadoop Map Reduce para obtener resultados intermedios y poder depurar nuestro código para evitar errores: Salida de los mappers: Entrada de los combiners: Salida de los combiners: Entrada de los reducers: Salida del reducer tras ejecutar un combiner: Para saber más:Mordiendo Hadoop: Instalación y primeras pruebas.Ejemplo WordCount y primeros […]

Leer más