Entradas

Mostrando entradas de junio, 2017

Caso: Identificación de estudiantes en riesgo de no graduarse a tiempo

Imagen
Un modelo basado en datos para la identificación de los estudiantes de la Escuela Secundaria en riesgo de no graduarse a tiempo RESUMEN Algunos estudiantes, debido a una variedad de factores, luchan para completar la escuela secundaria a tiempo. Para direccionar este problema, las escuelas distritales de los EEUU usan programas de intervención con la finalidad de ayudar a los estudiantes que luchan por volver al ruedo. Sin embargo, para aplicar mejor aquellos programas, las escuelas necesitan identificar a los estudiantes que están quedando fuera del camino académico tan temprano como sea posible y enrolarlos en la intervención más apropiada. Desafortunadamente, la identificación y la priorización de estudiantes en necesidad de intervención sigue siendo una tarea difícil. Este documento describe el trabajo que se basa en sistemas actuales empleando métodos avanzados de ciencia de datos para producir un modelo predictivo escalable y expandible con el fin de proveer de sistemas in

Medición de distancia entre dos observaciones

Imagen
Capítulo 15 del libro Data Minig for Business Analytics: Concepts, Techniques, and Applications with XlMiner, Third Edition, Galit Shmuleli, Peter C. Bruce, and Nitin R. Patel. 15.2 Medición de distancia entre dos observaciones Denotamos a dij como una métrica de distancia, o medida de disimilitud, entre las observaciones i y j . Para la observación i tenemos el vector de mediciones (x i1 , x i2 , x i3 ,…,x ip ), mientras que para la observación j tenemos el vector de mediciones (x j1 , x j2 , x j3 ,…,x jp ). Por ejemplo, podemos escribir el vector de medición para el Servicio Público de Arizona como [1.06, 9.2, 151, 54.4, 1.6, 9007, 0,0.628]. Las distancias pueden ser definidas en múltiples formas, pero en general, se requieren las siguientes propiedades: - No Negativa: d ij > 0 - Proximidad misma: d ij = 0 - Simetría: d ij = d ji - Desigualdad triangular: d ij < = d ik + d kj (la distancia entre cualquier par no excede la suma de d

Entidades Públicas

Imagen
Capítulo 15 del libro Data Minig for Business Analytics: Concepts, Techniques, and Applications with XlMiner, Third Edition, Galit Shmuleli, Peter C. Bruce, and Nitin R. Patel. La tabla 15.1 brinda información corporativa de 22 entidades públicas en los Estados Unidos (las definiciones de las variables están dadas al pie de la tabla). Nos interesa formar grupos de entidades similares. Las observaciones a ser clusterizadas son las entidades y la clusterización estará basada en las ocho variables de cada entidad. Un ejemplo donde la clusterización podría ser muy útil es, un estudio para predecir el impacto del costo de la desregulación. Para hacer el análisis requerido, los economistas podrían necesitar construir un detallado modelo de costo de varias utilidades. Esto podría ahorrar una cantidad considerable de tiempo y esfuerzos si pudiéramos agrupar tipos   similares   de entidades  y construir detallados modelos de costo para sólo una entidad 'típica' en cada cluster y luego

Análisis de Cluster o Cluster Analysis

Imagen
Capítulo 15 del libro Data Minig for Business Analytics: Concepts, Techniques, and Applications with XlMiner, Third Edition, Galit Shmuleli, Peter C. Bruce, and Nitin R. Patel. Este capítulo es acerca de la popular tarea de aprendizaje no-supervisado de clusterización , donde el objetivo es segmentar la data dentro de un conjunto de clusters de observaciones homogéneas con el propósito de generar insights. Separar un conjunto de datos dentro de un cluster de registros homogéneos es también muy útil para mejorar el rendimiento de los métodos supervisados mediante el modelado de cada cluster por separado en vez del total de conjunto de datos heterogéneos. La clusterización es usada en una amplia variedad de aplicaciones de negocio, desde marketing personalizado hasta análisis industrial. Describimos dos populares aproximaciones de clusterización: jerárquica y k-means. En la clusterización jerárquica las observaciones son agrupadas secuencialmente para crear clusters, basad