Apache Spark está escrito en lenguaje de programación Scala. Para admitir la programación Python con Spark, la comunidad Apache Spark lanzó la herramienta PySpark. Esta herramienta interactiva puede trabajar con RDD (los datasets distribuidos de Spark) en el lenguaje de programación Python. Quizás te interese seguir antes el siguiente post: Instalación paso a paso de […]
Etiqueta: Big Data
Instalación paso a paso de Spark en Linux y ejecución de PySpark
Esta es una guía sencilla, que explica paso a paso cómo instalar y ejecutar Apache Spark en una máquina Linux. Para el ejemplo utilizaremos la distribución CentOS pero los pasos dados también son válidos para Ubuntu o Linux Mint. En primer lugar debemos instalar Scala, ya que Spark está implementado en dicho lenguaje de programación y lo necesita para […]
citas por internet gratis chile
Se listan algunos comandos interesantes de Hadoop Map Reduce para obtener resultados intermedios y poder depurar nuestro código para evitar errores: Salida de los mappers: Entrada de los combiners: Salida de los combiners: Entrada de los reducers: Salida del reducer tras ejecutar un combiner: Para saber más:Mordiendo Hadoop: Instalación y primeras pruebas.Ejemplo WordCount y primeros […]
Creación y ejecución de un programa Python para Hadoop Map Reduce en Linux
Vamos a ejecutar un sencillo programa Python en Hadoop Map Reduce. El programa va a calcular la temperatura máxima de cada año a partir de un registro histórico. Para el ejemplo usaremos CentOS aunque es válido para cualquier otra distribución de Linux. Si no tienes aún instalado Hadoop quizás te interese el siguiente post: Instalación […]
Instalación paso a paso de Hadoop en Linux y un ejemplo de uso
Esta es una guía sencilla, que explica paso a paso como instalar y ejecutar Hadoop en una máquina Linux. Si ya tienes instalado Hadoop, quizás te interese: Creación y ejecución de un programa Python para Hadoop Map Reduce en Linux En primer lugar instalamos Java, ya que Hadoop se ejecuta sobre este lenguaje. Para el […]
Guía básica de iniciación a SPARQL con ejemplos de búsquedas en DBpedia
1. Introducción: ¿qué es SPARQL? SPARQL es un lenguaje para interrogar bases de datos RDF, es decir, hacer búsquedas (querys) en repositorios Web (Web semántica). Sirve para extraer valores de datos estructurados y semiestructurados, explorar datos mediante consultas a relaciones desconocidas y realizar búsquedas con combinaciones complejas de bases de datos dispares en una única […]
Data Scientist vs Data Engineer: ¿cuál es la diferencia?
El rol de Data Scientist (científico de datos) y el de Data Engineer (ingeniero de datos) suena a modernos puestos de trabajo, pero las funciones principales que realizan ambos han existido desde hace ya algunos años. Tradicionalmente, cualquiera que analizara datos se denominaría “analista de datos” y cualquiera que creara plataformas back-end para soportar el […]
Definiciones relacionadas con el Big Data
Data Analytics: Data Analytics (DA) o análisis de datos, es el proceso de examinar conjuntos de datos para extraer conclusiones sobre la información que contienen, cada vez más con la ayuda de sistemas y software especializados. – “Data Science and Data Scientist” de Alex Liu (2015) Data Science: Es un campo interdisciplinario sobre procesos y sistemas […]
Las 6 áreas del Big Data
Dentro del Big Data hay varias áreas, subdivisiones, que solucionan problemas diferentes relacionados con el Big Data. Se puede realizar una división en 6 áreas principales: Integración: Big Data no es más que una herramienta de la que dispone una empresa u organización para que pueda sacar beneficio o valor de sus datos. Para ello, […]
¿Qué es Big Data y qué no lo es?
Unas de las primera definiciones del Big Data la ofreció el diccionario en inglés de Oxford. Decía más o menos así: “El Big Data son los conjuntos de datos extremadamente grandes que pueden analizarse computacionalmente para revelar patrones, tendencias y asociaciones, especialmente relacionados con el comportamiento humano y las interacciones”. Aunque en gran parte correcta, la […]