Los métodos del Data Mining o Minería de datos
Los dos objetivos principales de alto nivel de la minería de datos en la práctica tienden a ser la predicción y la descripción.Como se dijo anteriormente, la predicción implica el uso de algunas variables o campos en la base de datos para predecir valores desconocidos o futuros de otras variables de interés, y la descripción se centra en encontrar patrones -interpretables por humanos- que describan los datos. Aunque los límites entre predicción y descripción no son agudos (algunos de los modelos predictivos pueden ser descriptivos, en la medida en que son comprensibles, y viceversa), la distinción es útil para comprender la meta general de descubrimiento. La importancia relativa de la predicción y la descripción para aplicaciones específicas de minería de datos puede variar considerablemente. Los objetivos de predicción y descripción se pueden lograr usando una variedad de métodos de minería de datos particulares.
La clasificación es el aprendizaje de una función que asigna (clasifica) un elemento de datos en una de varias clases predefinidas (Weiss y Kulikowski 1991, Hands 1981). Ejemplos de métodos de clasificación utilizados como parte de aplicaciones de descubrimiento de conocimiento incluyen la clasificación de las tendencias en los mercados financieros (Apte y Hong 1996) y la identificación automatizada de objetos de interés en enormes bases de datos de imágenes (Fayyad, Djorgovski y Weir 1996). La Figura 3 muestra una partición simple de datos de préstamo en dos regiones de variables; tenga en cuenta que no es posible separar las clases perfectamente usando una delimitación de decisión lineal. Es posible que el banco desee utilizar las regiones de clasificación para decidir automáticamente si los futuros solicitantes de préstamos recibirán o no un préstamo.
La clasificación es el aprendizaje de una función que asigna (clasifica) un elemento de datos en una de varias clases predefinidas (Weiss y Kulikowski 1991, Hands 1981). Ejemplos de métodos de clasificación utilizados como parte de aplicaciones de descubrimiento de conocimiento incluyen la clasificación de las tendencias en los mercados financieros (Apte y Hong 1996) y la identificación automatizada de objetos de interés en enormes bases de datos de imágenes (Fayyad, Djorgovski y Weir 1996). La Figura 3 muestra una partición simple de datos de préstamo en dos regiones de variables; tenga en cuenta que no es posible separar las clases perfectamente usando una delimitación de decisión lineal. Es posible que el banco desee utilizar las regiones de clasificación para decidir automáticamente si los futuros solicitantes de préstamos recibirán o no un préstamo.
La regresión es aprender una función que asigna un elemento de datos a una variable de predicción de valor real. Las aplicaciones de regresión son muchas, por ejemplo, la predicción de la cantidad de biomasa presente en un bosque dadas las mediciones de microondas de detección remota; la estimación o la probabilidad de que un paciente sobreviva dados los resultados de un conjunto de pruebas diagnósticas; la predicción de la demanda de un nuevo producto como una función del gasto publicitario; y predicción de series temporales en las que las variables de entrada pueden ser versiones retardadas de la variable de predicción. La figura 4 muestra el resultado de la regresión lineal simple donde la deuda total se ajusta como una función lineal del ingreso: El ajuste es pobre porque sólo existe una correlación débil entre las dos variables.
El agrupamiento o clusterización es una tarea descriptiva común en la que se busca identificar un conjunto finito de categorías o agrupaciones para describir los datos (Jain y Dubes, 1988; Titterington, Smith y Makov, 1985). Las categorías pueden ser mutuamente exclusivas y exhaustivas o consistir en una representación más rica, como categorías jerárquicas o superpuestas. Ejemplos de aplicaciones de agrupación o clusterización en un contexto de descubrimiento de conocimiento incluyen: el descubrimiento de subpoblaciones homogéneas para los consumidores en las bases de datos de marketing, y la identificación de subcategorías de espectros de las mediciones infrarrojas del cielo (Cheeseman y Stutz 1996). La Figura 5 muestra una posible agrupación del conjunto de datos de préstamo en tres grupos; tenga en cuenta que los clústeres se superponen, permitiendo que los puntos de datos pertenezcan a más de un clúster. Las etiquetas de clase originales (indicadas por x y o en las figuras anteriores) han sido reemplazadas por un + para indicar que la pertenencia a la clase ya no se supone conocida. Muy relacionado a la clusterización está la tarea de estimar la densidad de probabilidad, que consiste en técnicas para estimar a partir de los datos la función de densidad de probabilidad multivariada de todas las variables o campos de la base de datos (Silverman 1986).
La sumarización o resumen supone métodos para encontrar una descripción compacta para un subconjunto de datos. Un ejemplo sencillo sería tabular la media y las desviaciones estándar para todos los campos. Métodos más sofisticados implican la derivación de reglas de resumen (Agrawal et al., 1996), técnicas de visualización multivariante y el descubrimiento de relaciones funcionales entre variables (Zembowicz y Zytkow 1996). Las técnicas de sumarización se aplican con frecuencia al análisis interactivo de datos exploratorios ya la generación automatizada de informes.
El modelado de dependencias consiste en encontrar un modelo que describa dependencias significativas entre variables. Los modelos de dependencia existen en dos niveles: (1) el nivel estructural del modelo, que especifica (a menudo en forma gráfica) cuáles son las variables localmente dependientes entre sí y (2) el nivel cuantitativo del modelo que especifica las fortalezas de las dependencias usando algunas escalas numéricas. Por ejemplo, las redes de dependencia probabilísticas utilizan la independencia condicional para especificar el aspecto estructural del modelo, y las probabilidades o correlaciones para especificar las fortalezas de las dependencias (Glymour et al., 1987, Heckerman 1996). Las redes de dependencia probabilísticas están encontrando cada vez más aplicaciones en áreas tan diversas como el desarrollo de sistemas médicos probabilísticos expertos a partir de las bases de datos, la recuperación de información y la modelización del genoma humano.
La detección de cambios y desviaciones se centra en descubrir los cambios más significativos en los datos de valores previamente medidos o normalizados (Berndt y Clifford 1996, Guyon, Matic y Vapnik 1996, Kloesgen 1996, Matheus, Piatetsky-Shapiro y McNeill 1996, Basseville y Nikiforov 1993).
Los componentes de los algoritmos de minería de datos
El siguiente paso es construir algoritmos específicos para implementar los métodos generales que describimos. Se pueden identificar tres componentes primarios en cualquier algoritmo de minería de datos: (1) representación del modelo, (2) evaluación del modelo y (3) búsqueda.
Esta visión reduccionista no es necesariamente completa ni totalmente abarcadora; Más bien, es una manera conveniente de expresar los conceptos clave de los algoritmos de minería de datos de una manera relativamente unificada y compacta. Cheeseman (1990) describe una estructura similar.
La representación del modelo es el lenguaje utilizado para describir los patrones descubiertos. Si la representación es demasiado limitada, entonces ninguna cantidad de tiempo de entrenamiento o ejemplos puede producir un modelo preciso para los datos. Es importante que un analista de datos entienda completamente las suposiciones representacionales que podrían ser inherentes en un método particular. Es igualmente importante que un diseñador de algoritmos indique claramente qué suposiciones representacionales están siendo hechas por un algoritmo particular. Tenga en cuenta que el aumento de la potencia de representación de los modelos aumenta el peligro de sobrecargar los datos de entrenamiento, lo que resulta en una reducción de la exactitud de la predicción en los datos no vistos.
Los criterios de evaluación de modelos son estados cuantitativos (o funciones de ajuste) de lo bien que un patrón particular (un modelo y sus parámetros) cumple los objetivos del proceso KDD. Por ejemplo, los modelos predictivos a menudo se juzgan por la exactitud de la predicción empírica en algún conjunto de pruebas. Los modelos descriptivos se pueden evaluar a lo largo de las dimensiones de precisión predictiva, novedad, utilidad y comprensibilidad del modelo ajustado.
El método de búsqueda consta de dos componentes: (1) búsqueda de parámetros y (2) búsqueda de modelos. Una vez fijados la representación del modelo (o familia de representaciones) y los criterios de evaluación de modelos, el problema de minería de datos se reduce a una simple tarea de optimización: Buscar los parámetros y modelos de la familia seleccionada que optimicen los criterios de evaluación. En la búsqueda de parámetros, el algoritmo debe buscar los parámetros que optimicen los criterios de evaluación del modelo, dados los datos observados y una representación fija del modelo. La búsqueda del modelo se produce como un bucle sobre el método de búsqueda de parámetros: La representación del modelo se cambia para que se considere una familia de modelos.
Siguiente título: Algunos métodos de Data Mining o Minería de datos
Del título original: From Data Mining to knowledge Discovery in Databases. Por Usama Fayyad, Gregory Piatetsky-Shapiro, y Padhraic Smyth
La sumarización o resumen supone métodos para encontrar una descripción compacta para un subconjunto de datos. Un ejemplo sencillo sería tabular la media y las desviaciones estándar para todos los campos. Métodos más sofisticados implican la derivación de reglas de resumen (Agrawal et al., 1996), técnicas de visualización multivariante y el descubrimiento de relaciones funcionales entre variables (Zembowicz y Zytkow 1996). Las técnicas de sumarización se aplican con frecuencia al análisis interactivo de datos exploratorios ya la generación automatizada de informes.
El modelado de dependencias consiste en encontrar un modelo que describa dependencias significativas entre variables. Los modelos de dependencia existen en dos niveles: (1) el nivel estructural del modelo, que especifica (a menudo en forma gráfica) cuáles son las variables localmente dependientes entre sí y (2) el nivel cuantitativo del modelo que especifica las fortalezas de las dependencias usando algunas escalas numéricas. Por ejemplo, las redes de dependencia probabilísticas utilizan la independencia condicional para especificar el aspecto estructural del modelo, y las probabilidades o correlaciones para especificar las fortalezas de las dependencias (Glymour et al., 1987, Heckerman 1996). Las redes de dependencia probabilísticas están encontrando cada vez más aplicaciones en áreas tan diversas como el desarrollo de sistemas médicos probabilísticos expertos a partir de las bases de datos, la recuperación de información y la modelización del genoma humano.
La detección de cambios y desviaciones se centra en descubrir los cambios más significativos en los datos de valores previamente medidos o normalizados (Berndt y Clifford 1996, Guyon, Matic y Vapnik 1996, Kloesgen 1996, Matheus, Piatetsky-Shapiro y McNeill 1996, Basseville y Nikiforov 1993).
Los componentes de los algoritmos de minería de datos
El siguiente paso es construir algoritmos específicos para implementar los métodos generales que describimos. Se pueden identificar tres componentes primarios en cualquier algoritmo de minería de datos: (1) representación del modelo, (2) evaluación del modelo y (3) búsqueda.
Esta visión reduccionista no es necesariamente completa ni totalmente abarcadora; Más bien, es una manera conveniente de expresar los conceptos clave de los algoritmos de minería de datos de una manera relativamente unificada y compacta. Cheeseman (1990) describe una estructura similar.
La representación del modelo es el lenguaje utilizado para describir los patrones descubiertos. Si la representación es demasiado limitada, entonces ninguna cantidad de tiempo de entrenamiento o ejemplos puede producir un modelo preciso para los datos. Es importante que un analista de datos entienda completamente las suposiciones representacionales que podrían ser inherentes en un método particular. Es igualmente importante que un diseñador de algoritmos indique claramente qué suposiciones representacionales están siendo hechas por un algoritmo particular. Tenga en cuenta que el aumento de la potencia de representación de los modelos aumenta el peligro de sobrecargar los datos de entrenamiento, lo que resulta en una reducción de la exactitud de la predicción en los datos no vistos.
Los criterios de evaluación de modelos son estados cuantitativos (o funciones de ajuste) de lo bien que un patrón particular (un modelo y sus parámetros) cumple los objetivos del proceso KDD. Por ejemplo, los modelos predictivos a menudo se juzgan por la exactitud de la predicción empírica en algún conjunto de pruebas. Los modelos descriptivos se pueden evaluar a lo largo de las dimensiones de precisión predictiva, novedad, utilidad y comprensibilidad del modelo ajustado.
El método de búsqueda consta de dos componentes: (1) búsqueda de parámetros y (2) búsqueda de modelos. Una vez fijados la representación del modelo (o familia de representaciones) y los criterios de evaluación de modelos, el problema de minería de datos se reduce a una simple tarea de optimización: Buscar los parámetros y modelos de la familia seleccionada que optimicen los criterios de evaluación. En la búsqueda de parámetros, el algoritmo debe buscar los parámetros que optimicen los criterios de evaluación del modelo, dados los datos observados y una representación fija del modelo. La búsqueda del modelo se produce como un bucle sobre el método de búsqueda de parámetros: La representación del modelo se cambia para que se considere una familia de modelos.
Siguiente título: Algunos métodos de Data Mining o Minería de datos
Del título original: From Data Mining to knowledge Discovery in Databases. Por Usama Fayyad, Gregory Piatetsky-Shapiro, y Padhraic Smyth
Comentarios
Publicar un comentario