La forma tradicional de convertir datos en conocimiento se basa en el análisis y en la interpretación manual, como por ejemplo el análisis de expertos buscando tendencias y puntos de inflexión de los datos. Este análisis manual de los datos es lento, costoso y tiene un alto grado de subjetividad. E incluso se vuelve impracticable cuando el volumen de los datos de alto.
El valor de almacenar estos volúmenes de datos dependerá siempre de nuestra capacidad para extraer informes útiles, detectar eventos y tendencias interesantes, respaldar decisiones y políticas basadas en el análisis estadístico y la inferencia, y explotar los datos para lograr objetivos comerciales, operativos o científicos.
El término KDD se usa para referirnos en general, al proceso de descubrimiento del conocimiento útil a partir de los datos que tenemos. Dentro del proceso KDD, la minería de datos es un paso particular que implica la aplicación de algoritmos específicos para extraer patrones (o modelos) de datos.
Otro pasos del proceso KDD, como son la preparación de datos, la selección de datos, la limpieza de datos, la incorporación del conocimiento previo apropiado y la interpretación adecuada de los resultados aseguran que se obtenga un conocimiento útil de los datos.
Resumen de el proceso KDD:
1- Seleccionar un target data, es decir, un subconjunto de datos adecuado para el resultado final esperado.
2- Limpieza y pre-proceso de datos: incluye operaciones básicas como eliminar ruido o valores atípicos si corresponde o decidir estrategias para manejar campos de datos faltantes.
3- Reducción y proyección de datos: incluye encontrar funciones útiles para representar los datos, dependiendo del objetivo de la tarea, y usar métodos de reducción o transformación.
4- Elección de algoritmo/s de minería de datos para encontrar patrones en los datos.
5- Interpretación: incluye la interpretación de los patrones descubiertos y, posiblemente la reanudación de cualquiera de los pasos anteriores, así como la posible visualización de los patrones extraídos.
6- Usar el conocimiento descubierto: incluye incorporar este conocimiento en el sistema, tomar acciones basadas en el conocimiento, o simplemente documentarlo e informarlo a las partes interesadas.