Representación de la media, mediana y cuantiles en un histograma con ggplot2 en R

En ciencia de datos, es muy común la representación de variables en forma de histograma, de forma que podemos obtener fácilmente una primera impresión de la distribución de dicha variable. Podemos “tunear” nuestro histograma, obteniendo información también muy relevante, si añadimos estadísticos como lo pueden ser la media, mediana o los cuantiles 0,25 y 0,75. […]

Leer más

Ejemplo de uso de PySpark en Linux y algunos comandos básicos de transformación/acción en Spark

Apache Spark está escrito en lenguaje de programación Scala. Para admitir la programación Python con Spark, la comunidad Apache Spark lanzó la herramienta PySpark. Esta herramienta interactiva puede trabajar con RDD (los datasets distribuidos de Spark) en el lenguaje de programación Python. Quizás te interese seguir antes el siguiente post: Instalación paso a paso de […]

Leer más

Instalación paso a paso de Spark en Linux y ejecución de PySpark

Esta es una guía sencilla, que explica paso a paso cómo instalar y ejecutar Apache Spark en una máquina Linux. Para el ejemplo utilizaremos la distribución CentOS pero los pasos dados también son válidos para Ubuntu o Linux Mint. En primer lugar debemos instalar Scala, ya que Spark está implementado en dicho lenguaje de programación y lo necesita para […]

Leer más

Cinco comandos de depuración de código para Hadoop Map Reduce

Se listan algunos comandos interesantes de Hadoop Map Reduce para obtener resultados intermedios y poder depurar nuestro código para evitar errores: Salida de los mappers: Entrada de los combiners: Salida de los combiners: Entrada de los reducers: Salida del reducer tras ejecutar un combiner: Para saber más:Mordiendo Hadoop: Instalación y primeras pruebas.Ejemplo WordCount y primeros […]

Leer más