Esta es una guía sencilla, que explica paso a paso cómo instalar y ejecutar Apache Spark en una máquina Linux. Para el ejemplo utilizaremos la distribución CentOS pero los pasos dados también son válidos para Ubuntu o Linux Mint.
En primer lugar debemos instalar Scala, ya que Spark está implementado en dicho lenguaje de programación y lo necesita para ejecutarse. Podemos hacerlo desde la siguiente url:
https://scala-lang.org/files/archive/
Para este tutorial vamos a descargar el archivo mujeres solteras en la rioja argentina
Guardamos el archivo descargado en nuestro escritorio y desde la terminal Linux logeamos como http://exponentis.es/sky-ligar-gratis:
su -
Si no tienes contraseña de root puedes loguear con el siguiente comando:
sudo su
Ahora entramos en el escritorio con el siguiente comando:
cd /home/nombre_usuario/Escritorio
Sustituye “nombre_usuario” por el usuario de tu máquina y si tu sistema está en inglés cambia “Escritorio” por “Desktop”. Una vez ejecutado correctamente nuestra línea de comandos debe quedar de la siguiente forma:
Ahora descomprimo el archivo descargado:
tar xvf scala-2.12.7.tgz
Ahora, muevo la carpeta descomprimida a /usr/local ya que en Linux es costumbre colocar en ese espacio las instalaciones:
mv ./scala-2.12.7 /usr/local/
El siguiente paso es indicarle a nuestro entorno dónde está Scala. Para ello primero nos salimos de root:
exit
Y después modificamos el archivo baschrc. Nota: el http://exponentis.es/hospital-tunal-citas-por-internet en Linux se escribe con “Alt Gr + 4”, mientras que en Windows es “Alt + 126”.
gedit ~/.bashrc
Se nos abrirá el editor y escribimos la siguiente línea:
export SCALA_HOME=/usr/local/scala-2.12.7
Con esa línea indicamos dentro de nuestro sistema dónde está Scala instalado. Ahora, dentro de la línea PATH vamos a indicar que nos muestre todos los ficheros binarios que estén dentro de scala/home:
export PATH=$PATH:$SCALA_HOME/bin
Si ya tenemos instalado http://exponentis.es/como-conocer-las-verdaderas-intenciones-de-un-hombre lo añadimos en la misma línea:
export PATH=$PATH:$HADOOP_HOME/bin:$SCALA_HOME/bin
Con esto lo que hacemos es indicar qué dentro de la carpeta de Scala que hemos instalado en usr/local, hay una carpeta que se llama bin y que contiene los ejecutables para ejecutar Scala, y que queremos ejecutar de forma directa, para facilitarnos el trabajo, escribiendo solo “scala”.
Ahora actualizamos el entorno con los datos introducidos:
source ~/.bashrc
Comprobamos que Scala se ha instalado correctamente:
scala -version
Una vez instalado Scala procedemos a instalar Spark. Para ello nos dirigimos a la siguiente url:
Para este tutorial hemos seleccionado la versión spark-2.4.0-bin-hadoop2.7.tgz
Descargamos el archivo en el Escritorio y realizamos todos los pasos que hicimos antes para descomprimir e instalar Spark:
su -
cd /home/nombre_usuario/Escritorio
tar xvf ./spark-2.4.0-bin-hadoop2.7.tgz
mv ./spark-2.4.0-bin-hadoop2.7 /usr/local/
exit
gedit ~/.bashrc
Ahora editamos el archivo bashrc al igual que antes:
export SPARK_HOME=/usr/local/spark-2.4.0-bin-hadoop2.7
E indicamos también dónde están los ejecutables de Spark añadiendo al PATH lo siguiente:
export PATH=$PATH:$HADOOP_HOME/bin:$SCALA_HOME/bin:$SPARK_HOME/bin
Actualizamos el entorno y comprobamos que Spark se ha instalado correctamente:
source ~/.bashrc
spark-submit --version
Spark tiene una versión interactiva de Python que es PySpark. La podemos ejecutar fácilmente con el siguiente código:
pyspark
Ahora podemos ejecutar cualquier comando Python desde la consola dentro de Spark. Por ejemplo:
Podemos salir de PySpark de la siguiente forma:
exit()
Con el tutorial he conseguido elobjetivo.Me ha ido bien. Gracias.