Cinco comandos de depuración de código para Hadoop Map Reduce

Se listan algunos comandos interesantes de Hadoop Map Reduce para obtener resultados intermedios y poder depurar nuestro código para evitar errores:

  • Salida de los mappers:
cat datos.txt | python ./miMapper.py
  • Entrada de los combiners:
cat datos.txt | python ./miMapper | sort -k1,1
  • Salida de los combiners:
cat datos.txt | python ./miMapper | sort -k1,1 | python ./miCombiner.py
  • Entrada de los reducers:
cat datos.txt | python ./miMapper | sort -k1,1 | python ./miCombiner.py | sort -k1,1
  • Salida del reducer tras ejecutar un combiner:
cat datos.txt | python ./miMapper | sort -k1,1 | python ./miCombiner.py | sort -k1,1 | python ./miReducer.py
Para saber más:
Mordiendo Hadoop: Instalación y primeras pruebas.
Ejemplo WordCount y primeros ejercicios
Análisis de registros de Apache Hadoop

Deja una respuesta