Instalación paso a paso de Hadoop en Linux y un ejemplo de uso

Esta es una guía sencilla, que explica paso a paso como instalar y ejecutar Hadoop en una máquina Linux.

Si ya tienes instalado Hadoop, quizás te interese: Creación y ejecución de un programa Python para Hadoop Map Reduce en Linux

En primer lugar instalamos Java, ya que Hadoop se ejecuta sobre este lenguaje. Para el ejemplo utilizaremos la consola de CentOS pero también es válido para Ubuntu o Linux Mint. Como primer paso nos logeamos como usuario root:

Si no tienes contraseña de root creada, puedes usar este comando:

Ahora procedemos a instalar Java:

Podemos comprobar que la instalación se ha realizado correctamente viendo la versión de Java instalada:

Debe salirnos algo como esto:

Descargamos Hadoop desde la siguiente página:

https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.8.5/hadoop-2.8.5.tar.gz

En este caso estamos descargando el binario de la versión 2.8.5, pero puede ser otra versión a tu elección:

Se trata, como se puede observar, de un fichero comprimido que hay que descomprimir. Podemos descomprimirlo desde la consola entrando primero en la carpeta donde se halle el archivo. Si por ejemplo éste se hallase en el Escritorio, en primer lugar se saldría del usuario root:

Y en segundo lugar entraría en la carpeta Escritorio (Desktop si lo tenemos en inglés):

Ahora podemos descomprimir con el siguiente comando:

Esto nos creará una nueva carpeta con el contenido descomprimido. Ahora vamos a mover esa carpeta recién creada con el siguiente comando, y para ello debemos volver a ser usuario root:

Está será la localización dónde instalaremos Hadoop. Ahora volvemos a salir de usuario root:

Ahora creamos unas claves SSH sin contraseña, para que Hadoop realice conexiones con servidores y consigo mismo de forma automática:

Le damos a ENTER cuando nos pregunte por el archivo dónde guardar la clave sin escribir nada (la opción por defecto nos sirve perfectamente).

Ahora vamos a indicarle que la clave pública creada la vamos a introducir dentro de las claves autorizadas:

Nota: el símbolo virgulilla en Linux se escribe con “Alt Gr + 4”, mientras que en Windows es “Alt + 126”.

Lo siguiente es eliminar todos los permisos que hubiésemos tenido en authorized_keys:

Ahora hacemos que la capeta ssh pertenezca a nuestro a usuario:

Debemos sustituir en el código anterior la palabra “usuario” por nuestro nombre de usuario en la máquina Linux, que será el hombre que sale en la misma línea de comandos de la terminal antes del símbolo @.

Ahora realizamos una conexión SSH con nosotros mismos, con la máquina localhost:

Si te falla el comando anterior y te da un error del tipo “port 22: Connection refused” prueba con el siguiente código:

Ya estamos conectados con nosotros mismos a través de SSH, que es lo que va a hacer Hadoop. Una vez que hemos comprobado que la conexión es correcta la cerramos:

Una vez configurado el SSH, vamos a definir la variables de entorno que vamos a necesitar para ejecutar Hadoop. Vamos a comprobar dónde está Java instalado:

El resultado debe ser algo parecido a esto:

Vemos hacia dónde nos redirige con el siguiente código:

El resultado debe ser algo similar a esto:

Nos quedamos especialmente con la ruta que hay justo antes del “/bin/javac” final, ya que la necesitaremos después, así que la seleccionamos y hacemos un Shift+Ctrl+C.

Ahora indicamos en qué carpeta está Java y en qué carpeta está Hadoop modificando el fichero bashrc:

Si no te funciona el comando gedit es que necesitas instalarlo previamente con el siguiente comando en CentOS:

En Linux Mint o Ubuntu sería:

Esto nos abrirá el fichero bashrc con el editor de texto gedit. Nos vamos al final del documento y escribimos las siguientes líneas, indicando dónde se encuentran instalados Java y Hadoop tal como hemos visto anteriormente. El último export es solo para simplificar la ruta de acceso a Hadoop:

En mi caso el fichero bashrc editado queda de la siguiente forma (recuerda escribir el nuevo código al final del documento):

Para actualizar en la terminal la configuración que acabamos de introducir escribirnos los siguiente:

Procedemos ya a configurar Hadoop con todo lo que necesitemos:

Aquí simplemente comprobamos que Hadoop ejecutará Java en la localización que ya le hemos indicado. Debe existir una línea de la siguiente forma:

Si es correcta no necesitamos hacer nada más y cerramos el fichero. Comprobamos que Hadoop está correctamente instalado:

Nos debe dar un resultado similar a este:

Vamos a ejecutar un primer comando en Hadoop para ver si va todo correctamente. Para ello nos movemos al escritorio y creamos una nueva carpeta y un archivo de datos:

Vamos a crear un programa en Hadoop que cuente las palabras que hay en ese archivo. Para ello nos vamos a la carpeta creada en el escritorio, lo abrimos con doble click, escribimos cualquier texto y guardamos. En mi caso ha quedado así:

Mike Oldfield – Five Miles Out (1982)

En este caso usaremos un programa nativo de Hadoop llamado WordCount en el que usaremos Hadoop Map Reduce. Cada mapper en este caso recibirá cada una de las líneas y emitirá a los reducer todas las palabras presentes junto a un número que indica la veces que se repite cada palabra. Reducer suma todos los números y calcula el total.

Ejecutamos el programa:

El código anterior, en primer lugar especifica la ruta y el programa de Hadoop a utilizar (wordcount), luego el archivo de entrada y por último el archivo de salida que creará el propio Hadoop.

Al ejecutarlo obtenemos un resultado en pantalla que nos da información interesante sobre el proceso de Map Reduce:


Map input records=64” indica que Map recibió 64 entradas, que son las 64 líneas del texto. Por cada una de las líneas de entrada fue a un Map. Con esas entradas, se generaron “Map output records=292” salidas, es decir, 292 claves-valor o palabras que hay en el documento. “Clave” seria cada palabra en la frase y “valor” es un número que indica las veces que se repite dicha palabra en la frase.

Combine input records=292” y “Combine output records=127” indica que el combiner ha reducido la información transmitida desde el mapper el reducer de 292 a 127. Por último “Reduce input records=127” son las 127 palabras que ha recibido el reducer que también son la salida.

Si accedemos al escritorio de nuevo, veremos una nueva carpeta llamada salidaWordCount con un fichero dentro llamado part-r-00000 dónde viene listado la cuenta de palabras. Hadoop crearía un fichero de salida por cada reducer empleado, pero dado que solo tenemos un servidor y un fichero con pocos datos, Hadoop solo ha creado un reducer para la operación.

El resultado obtenido en el fichero part-r-00000 es el siguiente:

Para saber más:
¿Cómo instalar Apache Hadoop?
Hadoop – Configuración Entorno.
Primeros pasos con Hadoop: instalación y configuración en Linux.

Una respuesta a “Instalación paso a paso de Hadoop en Linux y un ejemplo de uso”

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Solve : *
14 + 30 =