El rol de Data Scientist (científico de datos) y el de Data Engineer (ingeniero de datos) suena a modernos puestos de trabajo, pero las funciones principales que realizan ambos han existido desde hace ya algunos años. Tradicionalmente, cualquiera que analizara datos se denominaría “analista de datos” y cualquiera que creara plataformas back-end para soportar el análisis de datos sería un “Desarrollador de Business Intelligence (BI)”. Sin embargo, con la aparición del Big Data, estos dos nuevos roles comenzaron a surgir en las empresas y centros de investigación: Data Scientist y Data Engineer.
- Data Analyst: Los analistas de datos son profesionales de datos experimentados en su organización que pueden consultar y procesar datos, proporcionar informes y resumir y visualizar información contenida en datos. Tienen una sólida comprensión de cómo aprovechar las herramientas y los métodos existentes para resolver un problema, y ayudan a las personas de toda la empresa a entender las consultas específicas con informes y gráficos ad-hoc. Sin embargo, no se espera que un Data Analyst se ocupe del análisis de Big Data, ni se espera que tengan los conocimientos matemáticos o de investigación para desarrollar nuevos algoritmos para problemas específicos.Habilidades: los analistas de datos deben tener una comprensión básica de: estadísticas, eliminación de datos, visualización de datos, análisis de datos exploratorios.
Herramientas: Microsoft Excel, SPSS, SPSS Modeler, SAS, SAS Miner, SQL, Microsoft Access, Tableau, SSAS. - Business Intelligence Developers: Los Business Intelligence Developers son expertos en datos que interactúan más estrechamente con las partes interesadas internas para comprender las necesidades de informes, y luego recopilar requisitos, diseñar y crear soluciones de BI e informes para la empresa. Deben diseñar, desarrollar y dar soporte a Data Warehouses nuevos y existentes, a paquetes de ETL, cubos, tableros e informes analíticos. Además, trabajan con bases de datos, tanto relacionales como multidimensionales, y deben tener grandes habilidades de desarrollo de SQL para integrar datos de diferentes recursos. Usan todas estas habilidades para cumplir con las necesidades de autoservicio en toda la empresa. Generalmente, no se espera que los desarrolladores de BI realicen análisis de datos.Habilidades: ETL, desarrollo de informes, OLAP, cubos, inteligencia web, diseño de objetos de negocio.
Herramientas: Tableau, dashboard tools, SQL, SSAS, SSIS and SPSS Modeler. - Data Engineer: Los Data Engineers son los profesionales de datos que preparan la infraestructura de “Big Data” para ser analizada por Data Scientists. Son ingenieros de software que diseñan, crean, integran datos de diversos recursos y administran Big Data. Luego, escriben consultas complejas sobre eso, se aseguran de que sea de fácil acceso, funciona sin problemas y su objetivo es optimizar el rendimiento del ecosistema de Big Data de su empresa. También pueden ejecutar algunos ETL (Extraer, Transformar y Cargar) sobre grandes conjuntos de datos y crear grandes almacenes de datos que pueden ser utilizados para informes o análisis por parte de los científicos de datos. Más allá de eso, debido a que los ingenieros de datos se enfocan más en el diseño y la arquitectura, por lo general no se espera que conozcan ningún aprendizaje automático o análisis para Big Data.Habilidades: Hadoop, MapReduce, Hive, Pig, Data streaming, NoSQL, SQL, programación.
Herramientas: DashDB, MySQL, MongoDB, Cassandra. - Data Scientist: Un científico de datos es el alquimista del siglo XXI: alguien que puede convertir datos brutos en ideas purificadas. Los científicos de datos aplican estadística, aprendizaje automático y enfoques analíticos para resolver problemas comerciales críticos. Su función principal es ayudar a las organizaciones a convertir sus volúmenes de Big Data en ideas valiosas. De hecho, la ciencia de datos no es necesariamente un campo nuevo como tal, pero puede considerarse como un nivel avanzado de análisis de datos que es impulsado y automatizado por el aprendizaje automático y la informática.En otras palabras, en comparación con los “analistas de datos” clásicos, además de las capacidades de análisis de datos, se espera que los Data Scientists tengan habilidades de programación sólidas, la capacidad de diseñar nuevos algoritmos y manejar grandes volúmenes de datos.En ocasiones, los científicos de datos pueden recibir Big Data sin tener en cuenta un problema empresarial en particular. En este caso, se espera que el curioso Data Scientist explore los datos, presente las preguntas correctas y proporcione hallazgos interesantes. Esto es complicado porque, para analizar los datos, un sólido Data Scientists debe tener un conocimiento muy amplio de las diferentes técnicas de aprendizaje automático, minería de datos, estadísticas e infraestructuras de Big Data.Habilidades: Python, R, Scala, Apache Spark, Hadoop, machine learning, deep learning, y estadística.
Herramientas: Data Science Experience, Jupyter, and RStudio.
No esta tan mal la nota. Creo que lo que falto son dos roles fundamentales para no confundir. El de y el Business Analyst(Analista de negocios) y el Business Analytics(Data Mining). Sin dudas un Data scientist es la suma de un Data Analyst(debe tener base fuerte del negocio)+Data Engineer(quien prepara todo el set de datos, con modelo incluido)+Habilidades de storytelling. No es un programador de Big Data ni un actuario/matemático/economista que solo realiza análisis con con R o Phython- Un DS debe hacer el punta a punta+ ademas tener grandes habilidades de comunicación.