Instalación paso a paso de Spark en Linux y ejecución de PySpark

Esta es una guía sencilla, que explica paso a paso cómo instalar y ejecutar Apache Spark en una máquina Linux. Para el ejemplo utilizaremos la distribución CentOS pero los pasos dados también son válidos para Ubuntu o Linux Mint.

En primer lugar debemos instalar Scala, ya que Spark está implementado en dicho lenguaje de programación y lo necesita para ejecutarse. Podemos hacerlo desde la siguiente url:

https://scala-lang.org/files/archive/

Para este tutorial vamos a descargar el archivo scala-2.12.7.tgz

Guardamos el archivo descargado en nuestro escritorio y desde la terminal Linux logeamos como root:

Si no tienes contraseña de root puedes loguear con el siguiente comando:

Ahora entramos en el escritorio con el siguiente comando:

Sustituye “nombre_usuario” por el usuario de tu máquina y si tu sistema está en inglés cambia “Escritorio” por “Desktop”. Una vez ejecutado correctamente nuestra línea de comandos debe quedar de la siguiente forma:

Ahora descomprimo el archivo descargado:

Ahora, muevo la carpeta descomprimida a /usr/local ya que en Linux es costumbre colocar en ese espacio las instalaciones:

El siguiente paso es indicarle a nuestro entorno dónde está Scala. Para ello primero nos salimos de root:

Y después modificamos el archivo baschrc. Nota: el símbolo virgulilla en Linux se escribe con “Alt Gr + 4”, mientras que en Windows es “Alt + 126”.

Se nos abrirá el editor y escribimos la siguiente línea:

Con esa línea indicamos dentro de nuestro sistema dónde está Scala instalado. Ahora, dentro de la línea PATH vamos a indicar que nos muestre todos los ficheros binarios que estén dentro de scala/home:

Si ya tenemos instalado Hadoop lo añadimos en la misma línea:

Con esto lo que hacemos es indicar qué dentro de la carpeta de Scala que hemos instalado en usr/local, hay una carpeta que se llama bin y que contiene los ejecutables para ejecutar Scala, y que queremos ejecutar de forma directa, para facilitarnos el trabajo, escribiendo solo “scala”.

Ahora actualizamos el entorno con los datos introducidos:

Nos debe salir algo así:

Una vez instalado Scala procedemos a instalar Spark. Para ello nos dirigimos a la siguiente url:

https://spark.apache.org/downloads.html

Para este tutorial hemos seleccionado la versión spark-2.4.0-bin-hadoop2.7.tgz

Descargamos el archivo en el Escritorio y realizamos todos los pasos que hicimos antes para descomprimir e instalar Spark:

Ahora editamos el archivo bashrc al igual que antes:

E indicamos también dónde están los ejecutables de Spark añadiendo al PATH lo siguiente:

El resultado debe ser algo así:

Actualizamos el entorno y comprobamos que Spark se ha instalado correctamente:

Debe salir algo así:

Spark tiene una versión interactiva de Python que es PySpark. La podemos ejecutar fácilmente con el siguiente código:

Ahora podemos ejecutar cualquier comando Python desde la consola dentro de Spark. Por ejemplo:

Podemos salir de PySpark de la siguiente forma:

Para saber más:
Instalar Spark en Ubuntu por modo-consola.
Installing Scala and Spark on Ubuntu.
Cómo usar PySpark en tu computadora.

Una respuesta a “Instalación paso a paso de Spark en Linux y ejecución de PySpark”

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Solve : *
5 + 30 =