Minería de Datos o Data Mining como parte del proceso KDD
El componente de minería de datos del proceso KDD a menudo implica la aplicación iterativa repetida de métodos particulares de minería de datos. Esta sección presenta una visión general de los objetivos principales de la minería de datos, una descripción de los métodos utilizados para abordar estos objetivos y una breve descripción de los algoritmos de minería de datos que incorporan estos métodos.
Los objetivos de descubrimiento de conocimiento se definen por el uso previsto del sistema. Podemos distinguir dos tipos de metas: (1) verificación y (2) descubrimiento. Con la verificación, el sistema se limita a verificar la hipótesis del usuario. Con el descubrimiento, el sistema encuentra de forma autónoma nuevos patrones. Además, subdividimos el objetivo de descubrimiento en predicción, donde el sistema encuentra patrones para predecir el comportamiento futuro de algunas entidades, y descripción, donde el sistema encuentra patrones para presentarlos a un usuario en una forma comprensible para el ser humano. En este artículo, estamos principalmente interesados en la minería de datos orientada al descubrimiento.
La minería de datos implica la adaptación de modelos hacia, o la determinación de patrones desde, los datos observados. Los modelos ajustados desempeñan el papel de conocimiento inferido: si los modelos reflejan conocimientos útiles o interesantes, forman parte del proceso KDD global e interactivo en el que suele requerirse el juicio humano subjetivo. Dos formalismos matemáticos primarios se utilizan en el ajuste del modelo: (1) la estadística y (2) la lógica.
El enfoque estadístico permite efectos no determinísticos en el modelo, mientras que un modelo lógico es puramente determinista. Nos centramos principalmente en el enfoque estadístico de la minería de datos, que tiende a ser la base más utilizada para aplicaciones prácticas de minería de datos dada la presencia típica de incertidumbre en los procesos generadores de datos de la vida real.
La mayoría de los métodos de minería de datos se basan en técnicas comprobadas de aprendizaje automático o machine learning, reconocimiento de patrones, y estadísticas: clasificación, agrupación, regresión, etc. La formación de diferentes algoritmos bajo cada uno de estos encabezados a menudo puede ser desconcertante para el analista de datos novato o experto. Debe hacerse hincapié en que, de los muchos métodos de minería de datos anunciados en la literatura, en realidad sólo hay unas pocas técnicas fundamentales.
La representación del modelo subyacente real que está siendo utilizada por un método particular viene típicamente de la composición de un pequeño número de opciones bien conocidas: polinomios, splines, kernel y funciones de base, funciones de umbral-booleanas y demás. Por lo tanto, los algoritmos tienden a diferir principalmente en el criterio bondad de ajuste utilizado para evaluar el ajuste del modelo o, en el método de búsqueda, utilizado para encontrar un buen ajuste.
En nuestro breve resumen de los métodos de minería de datos, tratamos en particular de transmitir la noción que la mayoría de los métodos (si no todos) pueden ser vistos como extensiones o híbridos de unas pocas técnicas básicas y principios. Primero discutimos los métodos primarios de minería de datos y luego mostramos que los métodos de minería de datos pueden ser vistos como consistentes en tres componentes algorítmicos primarios: (1) representación del modelo, (2) evaluación del modelo y (3) búsqueda. En la discusión del KDD y los métodos de minería de datos, utilizamos un ejemplo simple para hacer algunas de las nociones más concretas.
La Figura 2 muestra un conjunto simple de datos ficticios bidimensionales que consta de 23 casos. Cada punto del gráfico representa a una persona a la que se le ha otorgado un préstamo por un banco particular en algún momento pasado. El eje horizontal representa el ingreso de la persona; el eje vertical representa la deuda personal total de la persona (hipoteca, pagos de automóvil, etc.). Los datos se han clasificado en dos clases: (1) las x representan a las personas que han incumplido sus préstamos y (2) los o representan personas cuyos préstamos están en buen estado con el banco. Por lo tanto, este simple conjunto de datos ficticios podría representar un conjunto de datos históricos que pueden contener conocimientos útiles desde el punto de vista del banco que hace los préstamos. Tenga en cuenta que en las aplicaciones KDD reales, normalmente hay muchas más dimensiones (tantos como varios cientos) y muchos más puntos de datos (muchos miles o incluso millones).
El propósito aquí es ilustrar ideas básicas sobre un pequeño problema en espacio bidimensional.
Siguiente título: Los métodos de Data Mining o Minería de datos
Del título original: From Data Mining to knowledge Discovery in Databases. Por Usama Fayyad, Gregory Piatetsky-Shapiro, y Padhraic Smyth
Del título original: From Data Mining to knowledge Discovery in Databases. Por Usama Fayyad, Gregory Piatetsky-Shapiro, y Padhraic Smyth
Comentarios
Publicar un comentario