Discretización de un Pandas dataframe en Python manteniendo el nombre de las columnas

Discretizar datos quiere decir convertir variables que son continuas en variables agrupadas por intervalos. Por ejemplo, podemos discretizar un listado que contiene la edad de ciertas personas, que de forma continua podrían tener un valor entre 0 y 90, en variables discretas de (por ejemplo) 5 intervalos de diferentes edades: infantes, niños, jóvenes, adultos y […]

Leer más

Representación de la media, mediana y cuantiles en un histograma con ggplot2 en R

En ciencia de datos, es muy común la representación de variables en forma de histograma, de forma que podemos obtener fácilmente una primera impresión de la distribución de dicha variable. Podemos “tunear” nuestro histograma, obteniendo información también muy relevante, si añadimos estadísticos como lo pueden ser la media, mediana o los cuantiles 0,25 y 0,75. […]

Leer más

Ejemplo de uso de PySpark en Linux y algunos comandos básicos de transformación/acción en Spark

Apache Spark está escrito en lenguaje de programación Scala. Para admitir la programación Python con Spark, la comunidad Apache Spark lanzó la herramienta PySpark. Esta herramienta interactiva puede trabajar con RDD (los datasets distribuidos de Spark) en el lenguaje de programación Python. Quizás te interese seguir antes el siguiente post: Instalación paso a paso de […]

Leer más