Unas de las primera definiciones del Big Data la ofreció el diccionario en inglés de Oxford. Decía más o menos así: “El Big Data son los conjuntos de datos extremadamente grandes que pueden analizarse computacionalmente para revelar patrones, tendencias y asociaciones, especialmente relacionados con el comportamiento humano y las interacciones”.
Aunque en gran parte correcta, la definición -al igual que la tecnología- avanza y se hace necesario especificar más. ¿Qué es exactamente un “conjunto de datos extremadamente grande”? ¿todos los conjuntos de datos grandes son Big Data? ¿vale cualquier tipo de dato? La respuesta es que no, y por ello es conveniente ser un poco más específicos en la definición.
McKinsey Global Institute en el año 2011 definió el Big Data como “conjuntos de datos cuyo tamaño supera la capacidad de las herramientas típicas de software de bases de datos para capturar, almacenar, gestionar y analizar”. Es decir, que sólo los datos que superan las capacidades tradicionales de computación, son considerados Big Data.
V. Mayer-Schönberger y K. Cukier, en 2013, llegan aun más lejos y definen el análisis Big Data como “la capacidad de la sociedad para aprovechar la información de maneras novedosas para producir ideas útiles o bienes y servicios de gran valor”. Es decir, que no sólo hablan de tamaño y capacidad, sino que los datos tienen que aportar un valor real.
Uniendo las tres definiciones, mi interpretación del Big Data es la siguiente:
“Big Data es un conjunto de datos grande, heterogéneo, cuyo tamaño y/o complejidad supera las herramientas típicas de computación y por tanto no se puede procesar por métodos tradicionales. Estos datos se analizan para obtener información relevante en un tiempo de cómputo razonable y deben proporcionar información útil de forma que de valor a mi negocio o a la sociedad en general.”