De la minería de datos al descubrimiento de conocimiento en bases de datos KDD
La minería de datos y el descubrimiento de conocimiento en bases de datos (KDD por sus cifras en inglés knowledge discovery in databases) han estado atrayendo últimamente una significativa atención de las investigaciones, la industria y los medios de comunicación. ¿Por qué toda esta atención? Este artículo ofrece una visión general de este campo emergente, aclarando cómo la minería de datos y el descubrimiento de conocimiento en bases de datos están relacionados el uno al otro y a campos afines, como el aprendizaje automático, las estadísticas y las bases de datos. El artículo menciona aplicaciones particulares en la vida real, técnicas específicas de minería de datos, desafíos involucrados en las aplicaciones de descubrimiento de conocimiento en la vida real y, actuales y futuros rumbos de investigaciones en el campo.
A través de una amplia variedad de campos, los datos se han estado recolectando y acumulando a un ritmo dramático. Existe una necesidad imperiosa de una nueva generación de teorías y herramientas computacionales para ayudar a los seres humanos en la extracción de información útil (conocimiento) desde los volúmenes de datos digitales rápidamente crecientes. Estas teorías y herramientas son el tema del campo emergente de descubrimiento de conocimiento en bases de datos (KDD).
En un nivel abstracto, el campo KDD se ocupa del desarrollo de métodos y técnicas para dar sentido a la data. El problema básico que aborda el proceso KDD es el de mapear data de bajo nivel (que suelen ser demasiado voluminosos para comprender y asimilar fácilmente) en otras formas que podrían ser más compactas (por ejemplo, un informe corto), más abstractas (por ejemplo, un modelo o aproximación descriptiva del proceso que generó la data), o más útiles (por ejemplo, un modelo predictivo para estimar el valor de casos futuros). En el núcleo del proceso está la aplicación de métodos específicos de minería de datos para el descubrimiento y extracción de patrones.
Este artículo comienza analizando el contexto histórico de KDD y la minería de datos y su intersección con otros campos relacionados. Se proporciona un breve resumen de las aplicaciones recientes del KDD en la vida real. Se proporcionan definiciones de KDD y minería de datos, y se describe el proceso general de múltiples pasos del KDD. Este proceso multipasos tiene a la aplicación de algoritmos de minería de datos como un paso particular en el proceso.
El paso de minería de datos se analiza con más detalle en el contexto de algoritmos específicos de minería de datos y su aplicación. También se describen los problemas de aplicación práctica en la vida real.
Por último, el artículo enumera los retos para la investigación y el desarrollo futuro y, en particular, analiza las oportunidades potenciales de la tecnología de inteligencia artificial en los sistemas KDD.
¿Por qué necesitamos KDD?
El método tradicional de convertir datos en conocimiento se basa en el análisis y la interpretación manual. Por ejemplo, en el sector del cuidado de la salud es común que los especialistas analicen periódicamente (trimestralmente) las tendencias actuales y los cambios en los datos del sector. Estos especialistas, entonces, proporcionan un informe detallando el análisis a la organización patrocinadora del cuidado de la salud; este informe se convierte en la base para la toma de decisiones futuras y la planificación para la gestión del cuidado de la salud. En un tipo de aplicación totalmente diferente, los geólogos planetarios examinan remotamente la detección de imágenes de planetas y asteroides, localizando y catalogando cuidadosamente objetos geológicos de interés tales como cráteres de impacto. Sea la ciencia, el marketing, las finanzas, el cuidado de la salud, el retail o cualquier otro campo, el enfoque clásico del análisis de datos se basa fundamentalmente en que uno o más analistas se familiaricen íntimamente con los datos sirvan como un interfaz entre la data, los usuarios y los productos .
Para
estas (y muchas otras) aplicaciones, esta forma de sondeo manual de un conjunto
de datos es lenta, costosa y altamente subjetiva. De hecho, a medida que los
volúmenes de datos crecen dramáticamente, este tipo de análisis manual de datos
se está volviendo completamente impracticable en muchos dominios. Las bases de
datos están aumentando en tamaño de dos maneras: (1) el número N de registros u
objetos en la base de datos y (2) el número d de campos o atributos para un
objeto. Las bases de datos que contienen del orden de N = 109
objetos son cada vez más comunes, por ejemplo, en las ciencias astronómicas. De
manera similar, el número de campos d puede ser fácilmente del orden de 102
o incluso 103, por ejemplo, en aplicaciones de diagnóstico médico.
¿Quién podría digerir millones de registros, cada uno con decenas o cientos de
campos? Creemos que este trabajo no es ciertamente sólo para el ser humano; por
lo tanto, el trabajo de análisis debe ser automatizado, al menos parcialmente.
La necesidad de ampliar las capacidades de análisis del ser humano para manejar el gran número de bytes que podemos recoger es a la vez económico y científico. Las empresas utilizan los datos para obtener ventaja competitiva, incrementar la eficiencia y ofrecer servicios más valiosos a los clientes.
Los datos que capturamos sobre nuestro entorno son la evidencia básica que utilizamos para construir teorías y modelos del universo en que vivimos. Debido a que los ordenadores han permitido a los humanos reunir más datos de los que podemos digerir, es natural recurrir a técnicas computacionales para ayudarnos a desenterrar patrones y estructuras significativas de los enormes volúmenes de datos. Por lo tanto, KDD es un intento de abordar un problema que la era de la información digital hizo un hecho de vida para todos nosotros: la sobrecarga de datos
Siguiente título: La minería de datos y el descubrimiento de conocimiento en la vida real
Del título original: From Data Mining to knowledge Discovery in Databases. Por Usama Fayyad, Gregory Piatetsky-Shapiro, y Padhraic Smyth
Comentarios
Publicar un comentario