Exponentis – Página 3 – Big Data & Data Science

Instalación paso a paso de Spark en Linux y ejecución de PySpark

enero 27, 2019agosto 5, 2019 Gliese710 2 comentarios

Esta es una guía sencilla, que explica paso a paso cómo instalar y ejecutar Apache Spark en una máquina Linux. Para el ejemplo utilizaremos la distribución CentOS pero los pasos dados también son válidos para Ubuntu o Linux Mint. En primer lugar debemos instalar Scala, ya que Spark está implementado en dicho lenguaje de programación y lo necesita para […]

Cómo encontrar valores NaN en un DataFrame Pandas de Python y modificarlos

enero 25, 2019agosto 5, 2019 Gliese710 Deja un comentario

Cuando trabajamos con un DataFrame, especialmente si es extenso, podemos tener problemas con lo valores NaN. Los NaN («Not a Number«) son valores vacíos no computables que debemos tratar en nuestros conjuntos de datos antes de trabajar con ellos. Veremos algunos códigos de Python que pueden ayudarnos a trabajar con los NaN. Este código nos […]

Cinco comandos de depuración de código para Hadoop Map Reduce

enero 22, 2019agosto 6, 2019 Gliese710 Deja un comentario

Se listan algunos comandos interesantes de Hadoop Map Reduce para obtener resultados intermedios y poder depurar nuestro código para evitar errores: Salida de los mappers: Entrada de los combiners: Salida de los combiners: Entrada de los reducers: Salida del reducer tras ejecutar un combiner: Para saber más:Mordiendo Hadoop: Instalación y primeras pruebas.Ejemplo WordCount y primeros […]

Creación y ejecución de un programa Python para Hadoop Map Reduce en Linux

enero 21, 2019enero 22, 2020 Gliese710 3 comentarios

Vamos a ejecutar un sencillo programa Python en Hadoop Map Reduce. El programa va a calcular la temperatura máxima de cada año a partir de un registro histórico. Para el ejemplo usaremos CentOS aunque es válido para cualquier otra distribución de Linux. Si no tienes aún instalado Hadoop quizás te interese el siguiente post: Instalación […]

Instalación paso a paso de Hadoop en Linux y un ejemplo de uso

enero 20, 2019agosto 6, 2019 Gliese710 3 comentarios

Esta es una guía sencilla, que explica paso a paso como instalar y ejecutar Hadoop en una máquina Linux. Si ya tienes instalado Hadoop, quizás te interese: Creación y ejecución de un programa Python para Hadoop Map Reduce en Linux En primer lugar instalamos Java, ya que Hadoop se ejecuta sobre este lenguaje. Para el […]

Cómo eliminar filas de un DataFrame de Python Pandas según una condición

enero 14, 2019octubre 18, 2019 Gliese710 9 comentarios

Sencillo ejemplo de cómo eliminar una fila de un DataFrame Pandas de Python en función de una expresión condicional. Como bonus track al final vemos cómo eliminar también una columna. Partimos de este sencillo DataFrame creado en Excel como ejemplo: La forma de cargar en Pandas éste DataFrame desde un archivo Excel es la siguiente: […]

Listado de números primos en Python

octubre 30, 2018febrero 3, 2022 Gliese710 6 comentarios

Pues estaba haciendo un pequeño programa para listar un secuencia de números primos y he pensado que seria interesante compartirla en el blog. Lo primero, recordar que un número primo no es más que un número que sólo es divisible entre 1 y si mismo. Por ejemplo, el número 7 es primo ya que solo […]

¿Cuánto tarda en salir un número aleatorio en Python?

octubre 21, 2018agosto 6, 2019 Gliese710 Deja un comentario

Propongo un ejercicio en Python que consiste en lo siguiente: Se elige un número aleatorio comprendido entre ‘1’ y un valor especificado por el usuario. El algoritmo debe mostrar el número de veces que tarda en volver a salir ese mismo número de forma aleatoria un número ‘n’ especificado por el usuario de veces. ‘a’ es […]

El test de “Random Fizz Buzz” en Python

octubre 20, 2018agosto 6, 2019 Gliese710 Deja un comentario

Si echáis un rápido vistazo por este blog ya habréis visto que le he dedicado un par de posts al test de «Fizz Buzz«, una simple pero curiosa prueba que algunas empresas utilizan como test entre aspirantes a un puesto de trabajo. La premisa es sencilla: Escribir un código en cualquier lenguaje de programación (incluso […]

El test de “Fizz Buzz” en Python

julio 25, 2018agosto 6, 2019 Gliese710 2 comentarios

Ya escribí un post en este blog sobre el test de «Fizz Buzz», una pequeña prueba usada por muchas compañías durante una entrevista de trabajo para evaluar los conocimientos de programación del candidato al puesto. No es una prueba difícil pero durante una entrevista ya se sabe que los nervios pueden jugarte una mala pasada. […]