Minería de datos y KDD
Históricamente, a la noción de encontrar patrones útiles en datos se le ha dado distintos nombres, incluyendo minería de datos, extracción de conocimiento, descubrimiento de información, recolección de información, arqueología de datos y procesamiento de patrones de datos. El término minería de datos ha sido utilizado principalmente por las comunidades de estadísticos, analistas de datos y sistemas de información de gestión (MIS). También ha ganado popularidad en el campo de base de datos. La frase descubrimiento de conocimiento en bases de datos fue acuñada en el primer taller de KDD en 1989 (Piatetsky-Shapiro 1991) para enfatizar que el conocimiento es el producto final de un descubrimiento basado en datos. Se ha popularizado en la IA y en los campos de aprendizaje automático o machine learning.
En nuestra opinión, el KDD se refiere al proceso general de descubrir conocimientos útiles a partir de datos, y la minería de datos se refiere a un paso particular en este proceso. La minería de datos es la aplicación de algoritmos específicos para extraer patrones a partir de los datos. La distinción entre el proceso KDD y el paso de minería de datos (dentro del proceso) es un punto central de este artículo. Los pasos adicionales en el proceso KDD, tales como preparación de datos, selección de datos, limpieza de datos, incorporación de conocimiento previo apropiado e interpretación apropiada de los resultados de la minería, son esenciales para asegurar que el conocimiento útil se derive de los datos. La aplicación ciega de métodos de minería de datos (correctamente criticados como dragado de datos en la literatura estadística) puede ser una actividad peligrosa, que fácilmente conduce al descubrimiento de patrones sin sentido e inválidos.
La naturaleza interdisciplinaria de KDD
KDD ha evolucionado y sigue evolucionando desde la intersección de campos de investigación como el aprendizaje de máquinas, reconocimiento de patrones, bases de datos, estadísticas, IA, adquisición de conocimientos para sistemas expertos, visualización de datos y computación de alto rendimiento. La meta unificadora es extraer conocimiento de alto nivel desde datos de bajo nivel en el contexto de grandes conjuntos de datos.
El componente de minería de datos del KDD se basa en gran medida en técnicas conocidas del aprendizaje de automático o machine learning, el reconocimiento de patrones y las estadísticas para encontrar patrones a partir de datos en el paso de minería de datos del proceso KDD. Una pregunta natural es: ¿En qué se diferencia el KDD del reconocimiento de patrones o del aprendizaje automático (y campos relacionados)? La respuesta es que estos campos proporcionan algunos de los métodos de minería de datos que se utilizan en el paso de minería de datos del proceso KDD. El KDD se enfoca en el proceso general de descubrimiento de conocimiento a partir de datos, incluyendo cómo se almacenan y se accede a los datos, cómo los algoritmos pueden ser escalados a conjuntos de datos masivos y funcionan de manera eficiente, cómo se pueden interpretar y visualizar los resultados y cómo la interacción hombre-máquina puede ser útilmente modelada y soportada.
El proceso KDD puede ser visto como una actividad multidisciplinaria que abarca técnicas fuera del alcance de cualquier disciplina en particular, como el aprendizaje automático o machine learning. En este contexto, existen oportunidades claras para que otros campos de IA (aparte del aprendizaje automático) contribuyan al KDD. El KDD pone un énfasis especial en encontrar patrones comprensibles que se pueden interpretar como conocimiento útil o interesante. Así, por ejemplo, las redes neuronales, aunque son una potente herramienta de modelado, son relativamente difíciles de entender en comparación con los árboles de decisión. El KDD también hace hincapié en las propiedades de escalado y robustez de los algoritmos de modelado para grandes conjuntos de datos ruidosos.
Los campos de investigación relacionados con la IA incluyen el descubrimiento de máquinas, que se dirige al descubrimiento de leyes empíricas de observación y experimentación (Shroger y Langley 1990) (ver Kloesgen y Zytkow [1996] para un glosario de términos comunes a KDD y descubrimiento de máquinas), y un modelado causal para la inferencia de modelos causales a partir de datos (Spirtes, Glymour y Scheines, 1993). Las estadísticas en particular tienen mucho en común con KDD (véase Elder y Pregibon [1996] y Glymour et al [1996] para una discusión más detallada de esta sinergia). El descubrimiento de conocimiento a partir de los datos es fundamentalmente un esfuerzo estadístico.
Las estadísticas proporcionan un lenguaje y un marco para cuantificar la incertidumbre obtenida cuando se intenta inferir patrones generales desde una muestra particular de una población total. Como se mencionó anteriormente, el término minería de datos ha tenido connotaciones negativas en las estadísticas desde la década de 1960, cuando se introdujeron por primera vez las técnicas de análisis de datos por computadora. La preocupación surgió porque, si uno busca por tiempo suficiente en cualquier conjunto de datos (incluso datos generados al azar), se pueden encontrar patrones que parecen ser estadísticamente significativos pero, de hecho, no lo son. Evidentemente esta cuestión es de fundamental importancia para el KDD.
En los últimos años se han logrado progresos sustanciales en la comprensión de tales cuestiones en las estadísticas. Gran parte de este trabajo es de relevancia directa para el KDD. Por lo tanto, la minería de datos es una actividad legítima, siempre y cuando se entienda cómo hacerlo correctamente; la minería de datos mal realizada (sin tener en cuenta los aspectos estadísticos del problema) debe evitarse. El KDD también puede ser visto como abarcando una visión más amplia del modelado que las estadísticas. KDD tiene como objetivo proporcionar herramientas para automatizar (en la medida de lo posible) todo el proceso de análisis de datos y el "arte" estadístico de la selección de hipótesis.
Una fuerza impulsora detrás de KDD es el campo de base de datos (el segundo D en KDD). De hecho, el problema de la efectiva manipulación de datos cuando los datos no pueden encajar en la memoria principal es de importancia fundamental para el KDD. Las técnicas de base de datos para obtener acceso eficiente a datos, agrupar y ordenar operaciones al acceder a datos, y optimizar las consultas constituyen los fundamentos para escalar algoritmos a conjuntos de datos más grandes. La mayoría de los algoritmos de minería de datos de estadísticas, reconocimiento de patrones y machine learning, asumen que los datos están en la memoria principal y no prestan atención a cómo el algoritmo se descompone si sólo son posibles vistas limitadas de los datos.
Un campo relacionado que evoluciona a partir de las bases de datos es el almacenamiento de datos, que se refiere a la popular tendencia empresarial de recopilar y limpiar los datos transaccionales para ponerlos a disposición del análisis en línea y como apoyo a la toma de decisiones. El almacenamiento de datos ayuda a preparar el escenario para el KDD de dos maneras importantes: (1) limpieza de datos y (2) acceso a datos.
Limpieza de datos: A medida que las organizaciones se ven obligadas a pensar en una visión lógica unificada de la gran variedad de datos y bases de datos que poseen, tienen que abordar los problemas de mapear datos para un único acuerdo de nomenclatura, representando y manipulando uniformemente los datos faltantes, y manipulando los ruidos y errores cuando sea necesario.
Acceso a los datos: Se deben crear métodos uniformes y bien definidos para acceder a los datos y proporcionar rutas de acceso a los datos que históricamente eran difíciles de obtener (por ejemplo, almacenados sin conexión).
Una vez que las organizaciones y las personas han resuelto el problema de cómo almacenar y acceder a sus datos, el siguiente paso natural es la pregunta: ¿Qué más hacemos con todos los datos? Aquí es donde las oportunidades para KDD surgen naturalmente.
Un enfoque popular para el análisis de almacenes de datos se llama procesamiento analítico en línea (OLAP), nombrado para un conjunto de principios propuestos por Codd (1993). Las herramientas OLAP se centran en proporcionar análisis de datos multidimensionales, que es superior al SQL en la computación de resúmenes y desgloses a lo largo de muchas dimensiones. Las herramientas OLAP están orientadas a simplificar y apoyar el análisis interactivo de datos, pero el objetivo de las herramientas de KDD es automatizar tanto del proceso como sea posible. Por lo tanto, KDD es un paso más allá de lo que actualmente es compatible con la mayoría de los sistemas de bases de datos estándar.
Definiciones básicas
El KDD es el proceso no trivial de identificación de patrones válidos, novedosos, potencialmente útiles y, por último, comprensibles, en la data (Fayyad, Piatetsky-Shapiro y Smyth, 1996). Aquí, los datos son un conjunto de hechos (por ejemplo, los casos en una base de datos), y el patrón es una expresión en algún lenguaje que describe un subconjunto de los datos o un modelo aplicable al subconjunto. Por lo tanto, en nuestro uso aquí, la extracción de un patrón también designa la adaptación de un modelo a los datos; encontrar la estructura a partir de los datos; o, en general, realizar cualquier descripción de alto nivel de un conjunto de datos. El término proceso implica que el KDD comprende muchos pasos, que involucran (1) la preparación de datos, (2) la búsqueda de patrones, (3) la evaluación del conocimiento y (4) el refinamiento, todos repetidos en múltiples iteraciones.
Por no trivial, queremos decir que alguna búsqueda o inferencia está involucrada; es decir, no es un cálculo directo de cantidades predefinidas como calcular el valor de la media de un conjunto de números. Los patrones descubiertos deben ser válidos en los nuevos datos con cierto grado de certeza. También queremos que los patrones sean novedosos (al menos para el sistema y preferiblemente para el usuario) y potencialmente útiles, es decir, lleven a algún beneficio para el usuario o la tarea. Por último, los patrones deben ser comprensibles, si no inmediatamente, al menos después de algún post-procesamiento.
La discusión anterior implica que podemos definir medidas cuantitativas para evaluar patrones extraídos. En muchos casos, es posible definir medidas de certeza (por ejemplo, precisión de predicción estimada en nuevos datos) o utilidad (por ejemplo, ganancia, quizás en dólares ahorrados debido a mejores predicciones o agilización en el tiempo de respuesta de un sistema). Nociones como la novedad y comprensibilidad son mucho más subjetivas. En ciertos contextos, la comprensión se puede estimar por simplicidad (por ejemplo, el número de bits para describir un patrón).
Una noción importante, llamada interés (por ejemplo, ver Silberschatz y Tuzhilin [1995] y Piatetsky-Shapiro y Matheus [1994]) es usalmente tomada como una medida general del valor del patrón, combinando validez, novedad, utilidad y simplicidad. Las funciones de interés pueden definirse explícitamente o pueden manifestarse implícitamente a través de un orden colocado por el sistema KDD en los patrones o modelos descubiertos.
Dadas estas nociones, podemos considerar un patrón a ser conocimiento si excede algún umbral de interés, lo cual no es en modo alguno un intento de definir el conocimiento en la visión filosófica o incluso en la popular. De hecho, el conocimiento en esta definición es puramente orientado al usuario y dominio, es específico y está determinado por funciones y umbrales que el usuario elija.
La minería de datos es un paso en el proceso KDD que consiste en aplicar algoritmos de análisis y descubrimiento de datos que, bajo limitaciones aceptables de eficiencia computacional, producen una enumeración particular de patrones (o modelos) sobre los datos. Nótese que el espacio de patrones es a menudo infinito, y la enumeración de patrones implica alguna forma de búsqueda en este espacio. Las restricciones computacionales prácticas colocan estrictos severos en el subespacio que pueden ser explorados por un algoritmo de minería de datos.
El proceso KDD implica el uso de la base de datos junto con cualquier selección requerida, preprocesamiento, submuestreo y transformaciones de la misma; aplicación de métodos de minería de datos (algoritmos) para enumerar los patrones de la misma; y la evaluación de los productos de la minería de datos para identificar el subconjunto de los patrones enumerados considerados conocimiento. El componente de minería de datos del proceso KDD se refiere a los medios algorítmicos mediante los cuales los patrones se extraen y enumeran a partir de datos.
El proceso general de KDD (figura 1) incluye la evaluación e interpretación posible de los patrones minados para determinar qué patrones pueden considerarse nuevos conocimientos. El proceso KDD también incluye todos los pasos adicionales descritos en la siguiente sección. La noción de un proceso general impulsado por el usuario no es exclusiva del KDD: se han presentado propuestas análogas tanto en las estadísticas (Hand 1994) como en el aprendizaje automático (Brodley y Smyth, 1996).
Siguiente título: El proceso KDD
Del título original: From Data Mining to knowledge Discovery in Databases. Por Usama Fayyad, Gregory Piatetsky-Shapiro, y Padhraic Smyth
Siguiente título: El proceso KDD
Del título original: From Data Mining to knowledge Discovery in Databases. Por Usama Fayyad, Gregory Piatetsky-Shapiro, y Padhraic Smyth
Comentarios
Publicar un comentario