Instalación paso a paso de Spark en Linux y ejecución de PySpark

Esta es una guía sencilla, que explica paso a paso cómo instalar y ejecutar Apache Spark en una máquina Linux. Para el ejemplo utilizaremos la distribución CentOS pero los pasos dados también son válidos para Ubuntu o Linux Mint.

En primer lugar debemos instalar Scala, ya que Spark está implementado en dicho lenguaje de programación y lo necesita para ejecutarse. Podemos hacerlo desde la siguiente url:

https://scala-lang.org/files/archive/

Para este tutorial vamos a descargar el archivo scala-2.12.7.tgz

Guardamos el archivo descargado en nuestro escritorio y desde la terminal Linux logeamos como root:

su -

Si no tienes contraseña de root puedes loguear con el siguiente comando:

sudo su

Ahora entramos en el escritorio con el siguiente comando:

cd /home/nombre_usuario/Escritorio

Sustituye “nombre_usuario” por el usuario de tu máquina y si tu sistema está en inglés cambia “Escritorio” por “Desktop”. Una vez ejecutado correctamente nuestra línea de comandos debe quedar de la siguiente forma:

Ahora descomprimo el archivo descargado:

tar xvf scala-2.12.7.tgz

Ahora, muevo la carpeta descomprimida a /usr/local ya que en Linux es costumbre colocar en ese espacio las instalaciones:

mv ./scala-2.12.7 /usr/local/

El siguiente paso es indicarle a nuestro entorno dónde está Scala. Para ello primero nos salimos de root:

exit

Y después modificamos el archivo baschrc. Nota: el símbolo virgulilla en Linux se escribe con “Alt Gr + 4”, mientras que en Windows es “Alt + 126”.

gedit ~/.bashrc

Se nos abrirá el editor y escribimos la siguiente línea:

export SCALA_HOME=/usr/local/scala-2.12.7

Con esa línea indicamos dentro de nuestro sistema dónde está Scala instalado. Ahora, dentro de la línea PATH vamos a indicar que nos muestre todos los ficheros binarios que estén dentro de scala/home:

export PATH=$PATH:$SCALA_HOME/bin

Si ya tenemos instalado Hadoop lo añadimos en la misma línea:

export PATH=$PATH:$HADOOP_HOME/bin:$SCALA_HOME/bin

Con esto lo que hacemos es indicar qué dentro de la carpeta de Scala que hemos instalado en usr/local, hay una carpeta que se llama bin y que contiene los ejecutables para ejecutar Scala, y que queremos ejecutar de forma directa, para facilitarnos el trabajo, escribiendo solo “scala”.

Ahora actualizamos el entorno con los datos introducidos:

source ~/.bashrc
Comprobamos que Scala se ha instalado correctamente:
scala -version

Una vez instalado Scala procedemos a instalar Spark. Para ello nos dirigimos a la siguiente url:

https://spark.apache.org/downloads.html

Para este tutorial hemos seleccionado la versión spark-2.4.0-bin-hadoop2.7.tgz

Descargamos el archivo en el Escritorio y realizamos todos los pasos que hicimos antes para descomprimir e instalar Spark:

su -
cd /home/nombre_usuario/Escritorio
tar xvf ./spark-2.4.0-bin-hadoop2.7.tgz
mv ./spark-2.4.0-bin-hadoop2.7 /usr/local/
exit
gedit ~/.bashrc

Ahora editamos el archivo bashrc al igual que antes:

export SPARK_HOME=/usr/local/spark-2.4.0-bin-hadoop2.7

E indicamos también dónde están los ejecutables de Spark añadiendo al PATH lo siguiente:

export PATH=$PATH:$HADOOP_HOME/bin:$SCALA_HOME/bin:$SPARK_HOME/bin

Actualizamos el entorno y comprobamos que Spark se ha instalado correctamente:

source ~/.bashrc
spark-submit --version

Spark tiene una versión interactiva de Python que es PySpark. La podemos ejecutar fácilmente con el siguiente código:

pyspark

Ahora podemos ejecutar cualquier comando Python desde la consola dentro de Spark. Por ejemplo:

Podemos salir de PySpark de la siguiente forma:

exit()
Para saber más:
Instalar Spark en Ubuntu por modo-consola.
Installing Scala and Spark on Ubuntu.
Cómo usar PySpark en tu computadora.

2 comentarios en “Instalación paso a paso de Spark en Linux y ejecución de PySpark”

Responder a pepe mari Cancelar la respuesta