Instalación paso a paso de Spark en Linux y ejecución de PySpark

Esta es una guía sencilla, que explica paso a paso cómo instalar y ejecutar Apache Spark en una máquina Linux. Para el ejemplo utilizaremos la distribución CentOS pero los pasos dados también son válidos para Ubuntu o Linux Mint.

En primer lugar debemos instalar Scala, ya que Spark está implementado en dicho lenguaje de programación y lo necesita para ejecutarse. Podemos hacerlo desde la siguiente url:

https://scala-lang.org/files/archive/

Para este tutorial vamos a descargar el archivo scala-2.12.7.tgz

Guardamos el archivo descargado en nuestro escritorio y desde la terminal Linux logeamos como root:

su -

Si no tienes contraseña de root puedes loguear con el siguiente comando:

sudo su

Ahora entramos en el escritorio con el siguiente comando:

cd /home/nombre_usuario/Escritorio

Sustituye «nombre_usuario» por el usuario de tu máquina y si tu sistema está en inglés cambia «Escritorio» por «Desktop». Una vez ejecutado correctamente nuestra línea de comandos debe quedar de la siguiente forma:

Ahora descomprimo el archivo descargado:

tar xvf scala-2.12.7.tgz

Ahora, muevo la carpeta descomprimida a /usr/local ya que en Linux es costumbre colocar en ese espacio las instalaciones:

mv ./scala-2.12.7 /usr/local/

El siguiente paso es indicarle a nuestro entorno dónde está Scala. Para ello primero nos salimos de root:

exit

Y después modificamos el archivo baschrc. Nota: el símbolo virgulilla en Linux se escribe con “Alt Gr + 4”, mientras que en Windows es “Alt + 126”.

gedit ~/.bashrc

Se nos abrirá el editor y escribimos la siguiente línea:

export SCALA_HOME=/usr/local/scala-2.12.7

Con esa línea indicamos dentro de nuestro sistema dónde está Scala instalado. Ahora, dentro de la línea PATH vamos a indicar que nos muestre todos los ficheros binarios que estén dentro de scala/home:

export PATH=$PATH:$SCALA_HOME/bin

Si ya tenemos instalado Hadoop lo añadimos en la misma línea:

export PATH=$PATH:$HADOOP_HOME/bin:$SCALA_HOME/bin

Con esto lo que hacemos es indicar qué dentro de la carpeta de Scala que hemos instalado en usr/local, hay una carpeta que se llama bin y que contiene los ejecutables para ejecutar Scala, y que queremos ejecutar de forma directa, para facilitarnos el trabajo, escribiendo solo «scala».

Ahora actualizamos el entorno con los datos introducidos:

source ~/.bashrc

Comprobamos que Scala se ha instalado correctamente:

scala -version

Una vez instalado Scala procedemos a instalar Spark. Para ello nos dirigimos a la siguiente url:

https://spark.apache.org/downloads.html

Para este tutorial hemos seleccionado la versión spark-2.4.0-bin-hadoop2.7.tgz

Descargamos el archivo en el Escritorio y realizamos todos los pasos que hicimos antes para descomprimir e instalar Spark:

su -
cd /home/nombre_usuario/Escritorio
tar xvf ./spark-2.4.0-bin-hadoop2.7.tgz
mv ./spark-2.4.0-bin-hadoop2.7 /usr/local/
exit
gedit ~/.bashrc

Ahora editamos el archivo bashrc al igual que antes:

export SPARK_HOME=/usr/local/spark-2.4.0-bin-hadoop2.7

E indicamos también dónde están los ejecutables de Spark añadiendo al PATH lo siguiente:

export PATH=$PATH:$HADOOP_HOME/bin:$SCALA_HOME/bin:$SPARK_HOME/bin

Actualizamos el entorno y comprobamos que Spark se ha instalado correctamente:

source ~/.bashrc
spark-submit --version

Spark tiene una versión interactiva de Python que es PySpark. La podemos ejecutar fácilmente con el siguiente código:

pyspark

Ahora podemos ejecutar cualquier comando Python desde la consola dentro de Spark. Por ejemplo:

Podemos salir de PySpark de la siguiente forma:

exit()

Para saber más:
Instalar Spark en Ubuntu por modo-consola.
Installing Scala and Spark on Ubuntu.
Cómo usar PySpark en tu computadora.

2 comentarios en “Instalación paso a paso de Spark en Linux y ejecución de PySpark”

Pingback: Ejemplo de uso de PySpark en Linux y algunos comandos básicos de transformación/acción en Spark – Exponentis
pepe mari dice:

julio 5, 2021 a las 3:38 pm

Con el tutorial he conseguido elobjetivo.Me ha ido bien. Gracias.

Accede para responder

Deja una respuesta Cancelar la respuesta

Lo siento, debes estar conectado para publicar un comentario.

Para saber más:Instalar Spark en Ubuntu por modo-consola.Installing Scala and Spark on Ubuntu.Cómo usar PySpark en tu computadora.

2 comentarios en “Instalación paso a paso de Spark en Linux y ejecución de PySpark”

Deja una respuesta Cancelar la respuesta

Para saber más:
Instalar Spark en Ubuntu por modo-consola.
Installing Scala and Spark on Ubuntu.
Cómo usar PySpark en tu computadora.