Entradas

Medición de distancia entre dos observaciones

Imagen
Capítulo 15 del libro Data Minig for Business Analytics: Concepts, Techniques, and Applications with XlMiner, Third Edition, Galit Shmuleli, Peter C. Bruce, and Nitin R. Patel. 15.2 Medición de distancia entre dos observaciones Denotamos a dij como una métrica de distancia, o medida de disimilitud, entre las observaciones i y j . Para la observación i tenemos el vector de mediciones (x i1 , x i2 , x i3 ,…,x ip ), mientras que para la observación j tenemos el vector de mediciones (x j1 , x j2 , x j3 ,…,x jp ). Por ejemplo, podemos escribir el vector de medición para el Servicio Público de Arizona como [1.06, 9.2, 151, 54.4, 1.6, 9007, 0,0.628]. Las distancias pueden ser definidas en múltiples formas, pero en general, se requieren las siguientes propiedades: - No Negativa: d ij > 0 - Proximidad misma: d ij = 0 - Simetría: d ij = d ji - Desigualdad triangular: d ij < = d ik + d kj (la distancia entre cualquier par no excede la suma de d

Entidades Públicas

Imagen
Capítulo 15 del libro Data Minig for Business Analytics: Concepts, Techniques, and Applications with XlMiner, Third Edition, Galit Shmuleli, Peter C. Bruce, and Nitin R. Patel. La tabla 15.1 brinda información corporativa de 22 entidades públicas en los Estados Unidos (las definiciones de las variables están dadas al pie de la tabla). Nos interesa formar grupos de entidades similares. Las observaciones a ser clusterizadas son las entidades y la clusterización estará basada en las ocho variables de cada entidad. Un ejemplo donde la clusterización podría ser muy útil es, un estudio para predecir el impacto del costo de la desregulación. Para hacer el análisis requerido, los economistas podrían necesitar construir un detallado modelo de costo de varias utilidades. Esto podría ahorrar una cantidad considerable de tiempo y esfuerzos si pudiéramos agrupar tipos   similares   de entidades  y construir detallados modelos de costo para sólo una entidad 'típica' en cada cluster y luego

Análisis de Cluster o Cluster Analysis

Imagen
Capítulo 15 del libro Data Minig for Business Analytics: Concepts, Techniques, and Applications with XlMiner, Third Edition, Galit Shmuleli, Peter C. Bruce, and Nitin R. Patel. Este capítulo es acerca de la popular tarea de aprendizaje no-supervisado de clusterización , donde el objetivo es segmentar la data dentro de un conjunto de clusters de observaciones homogéneas con el propósito de generar insights. Separar un conjunto de datos dentro de un cluster de registros homogéneos es también muy útil para mejorar el rendimiento de los métodos supervisados mediante el modelado de cada cluster por separado en vez del total de conjunto de datos heterogéneos. La clusterización es usada en una amplia variedad de aplicaciones de negocio, desde marketing personalizado hasta análisis industrial. Describimos dos populares aproximaciones de clusterización: jerárquica y k-means. En la clusterización jerárquica las observaciones son agrupadas secuencialmente para crear clusters, basad