Entradas

Los métodos del Data Mining o Minería de datos

Imagen
Los dos objetivos principales de alto nivel de la minería de datos en la práctica tienden a ser la predicción y la descripción.Como se dijo anteriormente, la predicción implica el uso de algunas variables o campos en la base de datos para predecir valores desconocidos o futuros de otras variables de interés, y la descripción se centra en encontrar patrones -interpretables por humanos- que describan los datos. Aunque los límites entre predicción y descripción no son agudos (algunos de los modelos predictivos pueden ser descriptivos, en la medida en que son comprensibles, y viceversa), la distinción es útil para comprender la meta general de descubrimiento. La importancia relativa de la predicción y la descripción para aplicaciones específicas de minería de datos puede variar considerablemente. Los objetivos de predicción y descripción se pueden lograr usando una variedad de métodos de minería de datos particulares. La clasificación es el aprendizaje de una función que asigna (

Minería de Datos o Data Mining como parte del proceso KDD

Imagen
El componente de minería de datos del proceso KDD a menudo implica la aplicación iterativa repetida de métodos particulares de minería de datos. Esta sección presenta una visión general de los objetivos principales de la minería de datos, una descripción de los métodos utilizados para abordar estos objetivos y una breve descripción de los algoritmos de minería de datos que incorporan estos métodos. Los objetivos de descubrimiento de conocimiento se definen por el uso previsto del sistema. Podemos distinguir dos tipos de metas: (1) verificación y (2) descubrimiento. Con la verificación , el sistema se limita a verificar la hipótesis del usuario. Con el descubrimiento , el sistema encuentra de forma autónoma nuevos patrones. Además, subdividimos el objetivo de descubrimiento en predicción , donde el sistema encuentra patrones para predecir el comportamiento futuro de algunas entidades, y descripción , donde el sistema encuentra patrones para presentarlos a un usuario en una forma com

El proceso KDD

Imagen
El proceso KDD es interactivo e iterativo, involucrando numerosos pasos con muchas decisiones tomadas por el usuario. Brachman y Anand (1996) dan una visión práctica del proceso KDD , enfatizando la naturaleza interactiva del proceso. Aquí, describimos ampliamente algunos de sus pasos básicos: Primero, desarrollar una comprensión del dominio de la aplicación y el conocimiento previo relevante, e la identificar la meta del proceso KDD desde el punto de vista del cliente. Segundo, crear un conjunto de datos objetivo: seleccionar el conjunto de datos, o centrarse en un subconjunto de variables o muestras de datos, en el que se ejecutará el descubrimiento. Tercero es la limpieza y preprocesamiento de datos. Las operaciones básicas incluyen eliminar el ruido si es apropiado, recopilar la información necesaria para modelar o contabilizar el ruido, determinar las estrategias para manejar los campos de datos faltantes y contabilizar información de secuencia temporal y cambios

Minería de datos y KDD

Imagen
Históricamente, a la noción de encontrar patrones útiles en datos se le ha dado distintos nombres, incluyendo minería de datos , extracción de conocimiento, descubrimiento de información, recolección de información, arqueología de datos y procesamiento de patrones de datos. El término minería de datos ha sido utilizado principalmente por las comunidades de estadísticos, analistas de datos y sistemas de información de gestión (MIS). También ha ganado popularidad en el campo de base de datos. La frase descubrimiento de conocimiento en bases de datos fue acuñada en el primer taller de KDD en 1989 (Piatetsky-Shapiro 1991) para enfatizar que el conocimiento es el producto final de un descubrimiento basado en datos. Se ha popularizado en la IA y en los campos de aprendizaje automático o machine learning. En nuestra opinión, el KDD se refiere al proceso general de descubrir conocimientos útiles a partir de datos, y la minería de datos se refiere a un paso particular en este proceso. La

La minería de datos y el descubrimento del conocimiento en la vida real

Un elevado grado del actual interés por el KDD es el resultado del interés mediático que rodea a las aplicaciones exitosas de KDD, por ejemplo, el foco de los artículos de Business Week, Newsweek, Byte, PC Week y otros periódicos de gran circulación en los últimos dos años. Desafortunadamente, no siempre es fácil separar el hecho de la adulación mediática. No obstante, varios ejemplos bien documentados de sistemas exitosos pueden ser correctamente referidos como aplicaciones KDD y haber estado desplegados en uso operativo de problemas reales de gran escala en ciencia y en los negocios. En ciencias, una de las principales áreas de aplicación es la astronomía. Aquí, SKICAT , logró un notable éxito, siendo un sistema utilizado por los astrónomos para realizar análisis de imágenes, clasificación y catalogación de objetos celestes a partir del reconocimiento de imágenes celestiales (Fayyad, Djorgovski y Weir 1996). En su primera aplicación, el sistema se utilizó para procesar los 3 ter

De la minería de datos al descubrimiento de conocimiento en bases de datos KDD

La minería de datos y el descubrimiento de conocimiento en bases de datos  (KDD por sus cifras en inglés knowledge discovery in databases) han estado atrayendo últimamente una significativa atención de las investigaciones, la industria y los medios de comunicación. ¿Por qué toda esta atención? Este artículo ofrece una visión general de este campo emergente, aclarando cómo la minería de datos y el descubrimiento de conocimiento en bases de datos están relacionados el uno al otro y a campos afines, como el aprendizaje automático, las estadísticas y las bases de datos. El artículo menciona aplicaciones particulares en la vida real, técnicas específicas de minería de datos, desafíos involucrados en las aplicaciones de descubrimiento de conocimiento en la vida real y, actuales y futuros rumbos de investigaciones en el campo. A través de una amplia variedad de campos, los datos se han estado recolectando y acumulando a un ritmo dramático. Existe una necesidad imperiosa de una nueva gen

Caso: Identificación de estudiantes en riesgo de no graduarse a tiempo

Imagen
Un modelo basado en datos para la identificación de los estudiantes de la Escuela Secundaria en riesgo de no graduarse a tiempo RESUMEN Algunos estudiantes, debido a una variedad de factores, luchan para completar la escuela secundaria a tiempo. Para direccionar este problema, las escuelas distritales de los EEUU usan programas de intervención con la finalidad de ayudar a los estudiantes que luchan por volver al ruedo. Sin embargo, para aplicar mejor aquellos programas, las escuelas necesitan identificar a los estudiantes que están quedando fuera del camino académico tan temprano como sea posible y enrolarlos en la intervención más apropiada. Desafortunadamente, la identificación y la priorización de estudiantes en necesidad de intervención sigue siendo una tarea difícil. Este documento describe el trabajo que se basa en sistemas actuales empleando métodos avanzados de ciencia de datos para producir un modelo predictivo escalable y expandible con el fin de proveer de sistemas in