El proceso KDD

El proceso KDD es interactivo e iterativo, involucrando numerosos pasos con muchas decisiones tomadas por el usuario. Brachman y Anand (1996) dan una visión práctica del proceso KDD, enfatizando la naturaleza interactiva del proceso. Aquí, describimos ampliamente algunos de sus pasos básicos:


Primero, desarrollar una comprensión del dominio de la aplicación y el conocimiento previo relevante, e la identificar la meta del proceso KDD desde el punto de vista del cliente.

Segundo, crear un conjunto de datos objetivo: seleccionar el conjunto de datos, o centrarse en un subconjunto de variables o muestras de datos, en el que se ejecutará el descubrimiento.

Tercero es la limpieza y preprocesamiento de datos. Las operaciones básicas incluyen eliminar el ruido si es apropiado, recopilar la información necesaria para modelar o contabilizar el ruido, determinar las estrategias para manejar los campos de datos faltantes y contabilizar información de secuencia temporal y cambios conocidos.

Cuarto es la reducción y proyección de datos: encontrar características útiles para representar los datos dependiendo del objetivo de la tarea. Con los métodos de transformación o reducción dimensional, se puede reducir el número efectivo de variables en consideración, o se pueden encontrar representaciones invariables para los datos.

Quinto, corresponder los objetivos del proceso KDD (paso 1) con un método particular de minería de datos. Por ejemplo: el resumen o summarización, la clasificación, la regresión, el agrupamiento o clusterización, y otras más que se describen más adelante, así como en Fayyad, Piatetsky-Shapiro y Smyth (1996).

Sexto es el análisis y modelo exploratorio, y la selección de hipótesis: elegir el o los algoritmos de datamining o minería de datos y seleccionar el o los método a ser utilizados para la búsqueda de patrones de datos. Este proceso incluye decidir qué modelos y parámetros pueden ser apropiados (por ejemplo, los modelos de datos categóricos son diferentes de los modelos de vectores sobre los reales) y hacer coincidir un método particular de minería de datos con el criterio general del proceso KDD (por ejemplo, el usuario final podría estar más interesado en entender el modelo que en su capacidad predictiva).

Séptimo es la minería de datos: buscar patrones de interés en una forma representativa particular o un conjunto de tales representaciones, incluyendo reglas de clasificación o árboles, regresión y clusterización. El usuario puede asistir significativamente al método de minería de datos realizando correctamente los pasos anteriores.

Octavo es interpretar los patrones minados, posiblemente regresando a cualquiera de los pasos 1 a 7 para una iteración adicional. Este paso también puede implicar la visualización de los patrones y modelos extraídos o la visualización de los datos dados los modelos extraídos.

Noveno, tomar acción sobre el conocimiento descubierto: usando el conocimiento directamente, incorporando el conocimiento en otro sistema para acciones futuras, o simplemente documentándolo y reportándolo a las partes interesadas. Este proceso también incluye buscar y resolver conflictos potenciales con conocimiento previamente aceptado (o extraído).

El proceso KDD puede implicar una iteración significativa y puede contener bucles entre dos pasos cualquiera. El flujo básico de pasos (aunque no la multitud potencial de iteraciones y bucles) se ilustra en la figura 1. La mayoría de los trabajos anteriores sobre KDD se ha centrado en el paso 7, la minería de datos. Sin embargo, los otros pasos son tan importantes (y probablemente más) para la aplicación exitosa del KDD en la práctica. Una vez definidas las nociones básicas e introducido el proceso KDD, nos centramos ahora en el componente de minería de datos, que ha recibido, con mucho, la mayor atención en la literatura.

Siguiente título: Minería de Datos o Data Mining como parte del proceso KDD

Del título original: From Data Mining to knowledge Discovery in Databases. Por Usama Fayyad, Gregory Piatetsky-Shapiro, y Padhraic Smyth

Comentarios

Entradas populares de este blog

Minería de datos y KDD

Los métodos del Data Mining o Minería de datos