La minería de datos y el descubrimento del conocimiento en la vida real
Un elevado grado del actual interés por el KDD es el resultado del interés mediático que rodea a las aplicaciones exitosas de KDD, por ejemplo, el foco de los artículos de Business Week, Newsweek, Byte, PC Week y otros periódicos de gran circulación en los últimos dos años. Desafortunadamente, no siempre es fácil separar el hecho de la adulación mediática. No obstante, varios ejemplos bien documentados de sistemas exitosos pueden ser correctamente referidos como aplicaciones KDD y haber estado desplegados en uso operativo de problemas reales de gran escala en ciencia y en los negocios.
En ciencias, una de las principales áreas de aplicación es la astronomía. Aquí, SKICAT, logró un notable éxito, siendo un sistema utilizado por los astrónomos para realizar análisis de imágenes, clasificación y catalogación de objetos celestes a partir del reconocimiento de imágenes celestiales (Fayyad, Djorgovski y Weir 1996). En su primera aplicación, el sistema se utilizó para procesar los 3 terabytes (1012 bytes) de datos de la imagen resultantes de la Segunda Encuesta Celestial del Observatorio Palomar, donde se estima que unos 109 objetos del cielo son detectables. SKICAT puede superar a los seres humanos y las técnicas computacionales tradicionales en la clasificación de objetos celestiales tenues. Ver Fayyad, Haussler y Stolorz (1996) para una encuesta de aplicaciones científicas.
En los negocios, las principales áreas de aplicación de KDD incluyen agentes de marketing, finanzas (especialmente inversiones), detección de fraude, manufactura, telecomunicaciones e Internet.
Marketing: En Marketing, la principal aplicación es en sistemas de marketing de base de datos, el cual analiza la base de datos de los clientes para identificar diferentes grupos de ellos y pronosticar su comportamiento. Business Week (Berry 1994) estimó que más de la mitad de todos los minoristas están usando o planeando utilizar el marketing de base de datos, y los que lo utilizan tienen buenos resultados. Por ejemplo, American Express reporta un incremento de 10% a 15% en el uso de tarjetas de crédito. Otra aplicación notable en marketing son los sistemas de Market-Basket-Analysis (Agrawal et al., 1996), que encuentran patrones tales como: "Si el cliente compró X, también es probable que compre Y y Z". Estos patrones son valiosos para los minoristas.
Inversión: Numerosas empresas utilizan la minería de datos para la inversión, pero la mayoría no describe sus sistemas. Una excepción es LBS Capital Management. Su sistema utiliza métodos expertos, redes neuronales y algoritmos genéticos para administrar carteras de un total de $600 millones; desde su inicio en 1993, el sistema ha superado el extenso mercado de capitales (Hall, Mani y Barr 1996).
Detección de fraude: Los sistemas HNC Falcon y Nestor PRISM son utilizados para monitorear fraudes de tarjetas de crédito, vigilando millones de cuentas. El sistema FAIS (Senator et al., 1995), de la Red de Control de Crímenes Financieros del Tesoro de los Estados Unidos, se utiliza para identificar las transacciones financieras que podrían indicar actividad de lavado de dinero.
Fabricación: El sistema de solución de problemas CASSIOPEE, desarrollado como parte de una empresa conjunta entre General Electric y SNECMA, fue aplicado por tres grandes aerolíneas europeas para diagnosticar y predecir problemas del Boeing 737. Para obtener familias de fallas, se utilizaron métodos de clusterización. CASSIOPEE recibió el primer premio europeo por aplicaciones innovadoras y dinámicas (Manago y Auriol 1996).
Telecomunicaciones: El analizador de secuencias de alarma de telecomunicaciones (TASA) fue construido en cooperación con un fabricante de equipos de telecomunicaciones y tres redes telefónicas (Mannila, Toivonen y Verkam 1995). El sistema utiliza un marco novedoso para localizar episodios de alarma que ocurren frecuentemente desde el flujo de alarma y presentarlos como reglas. Se pueden explorar grandes conjuntos de reglas descubiertas con herramientas flexibles de recuperación de información que mantienen la interactividad y la iteración. De este modo, TASA ofrece herramientas de eliminación, agrupación y ordenación para refinar los resultados de una búsqueda de reglas básicas de fuerza bruta.
Limpieza de datos: El sistema MERGE-PURGE se aplicó para la identificación duplicidades en las reclamaciones de bienestar social (Hernández y Stolfo 1995). Fue utilizado exitosamente con datos del Departamento de Bienestar del Estado de Washington.
En otras áreas, un sistema bien publicitado es el ADVANCED SCOUT de IBM, un sistema especializado de minería de datos que ayuda a los entrenadores de la Asociación Nacional de Baloncesto (NBA) a organizar e interpretar datos de los juegos de la NBA (US News 1995). ADVANCED SCOUT fue utilizado por varios de los equipos de la NBA en 1996, incluyendo el Seattle Supersonics, que llegó a la final de la NBA.
Por último, un descubrimiento novedoso y cada vez más importante se basa en el uso de agentes inteligentes para navegar a través de un entorno rico en información. Aunque la idea de disparadores activos se ha analizado durante mucho tiempo en el campo de la base de datos, las aplicaciones realmente exitosas de esta idea aparecieron sólo con la llegada de la Internet. Estos sistemas le piden al usuario que especifique un perfil de interés y busque información relacionada entre una amplia variedad de fuentes de dominio público y privado.
Por ejemplo:
FIREFLY es un agente personal de recomendación de música: pide a un usuario su opinión sobre varias piezas de música y luego sugiere otra música que al usuario le puede gustar (<http://www.ffly.com/>).
CRAYON (http://crayon.net/>) permite a los usuarios crear su propio periódico gratuito (con el apoyo de los anuncios);
NEWSHOUND (<http://www.sjmercury.com/hound/>) de San Jose Mercury News y FARCAST (<http://www.farcast.com/>) buscan automáticamente información de una amplia variedad de fuentes, incluyendo periódicos y servicios de cable, y documentos de correo electrónico relevantes para el usuario.
Estos son sólo algunos de los numerosos sistemas que utilizan las técnicas de KDD para producir automáticamente información útil a partir grandes masas de datos en bruto. Les a Piertsky-Shapiro et al. (1996) para una visión general de los problemas en el desarrollo de aplicaciones industriales KDD.
Por ejemplo:
FIREFLY es un agente personal de recomendación de música: pide a un usuario su opinión sobre varias piezas de música y luego sugiere otra música que al usuario le puede gustar (<http://www.ffly.com/>).
CRAYON (http://crayon.net/>) permite a los usuarios crear su propio periódico gratuito (con el apoyo de los anuncios);
NEWSHOUND (<http://www.sjmercury.com/hound/>) de San Jose Mercury News y FARCAST (<http://www.farcast.com/>) buscan automáticamente información de una amplia variedad de fuentes, incluyendo periódicos y servicios de cable, y documentos de correo electrónico relevantes para el usuario.
Estos son sólo algunos de los numerosos sistemas que utilizan las técnicas de KDD para producir automáticamente información útil a partir grandes masas de datos en bruto. Les a Piertsky-Shapiro et al. (1996) para una visión general de los problemas en el desarrollo de aplicaciones industriales KDD.
Del título original: From Data Mining to knowledge Discovery in Databases. Por Usama Fayyad, Gregory Piatetsky-Shapiro, y Padhraic Smyth
Comentarios
Publicar un comentario