Big Data para todos

Entradas

Mostrando las entradas etiquetadas como cluster

Medición de distancia entre dos observaciones

junio 25, 2017

Capítulo 15 del libro Data Minig for Business Analytics: Concepts, Techniques, and Applications with XlMiner, Third Edition, Galit Shmuleli, Peter C. Bruce, and Nitin R. Patel. 15.2 Medición de distancia entre dos observaciones Denotamos a dij como una métrica de distancia, o medida de disimilitud, entre las observaciones i y j . Para la observación i tenemos el vector de mediciones (x i1 , x i2 , x i3 ,…,x ip ), mientras que para la observación j tenemos el vector de mediciones (x j1 , x j2 , x j3 ,…,x jp ). Por ejemplo, podemos escribir el vector de medición para el Servicio Público de Arizona como [1.06, 9.2, 151, 54.4, 1.6, 9007, 0,0.628]. Las distancias pueden ser definidas en múltiples formas, pero en general, se requieren las siguientes propiedades: - No Negativa: d ij > 0 - Proximidad misma: d ij = 0 - Simetría: d ij = d ji - Desigualdad triangular: d ij < = d ik + d kj (la distancia entre cualquier par no excede la suma de d...

Entidades Públicas

junio 24, 2017

Capítulo 15 del libro Data Minig for Business Analytics: Concepts, Techniques, and Applications with XlMiner, Third Edition, Galit Shmuleli, Peter C. Bruce, and Nitin R. Patel. La tabla 15.1 brinda información corporativa de 22 entidades públicas en los Estados Unidos (las definiciones de las variables están dadas al pie de la tabla). Nos interesa formar grupos de entidades similares. Las observaciones a ser clusterizadas son las entidades y la clusterización estará basada en las ocho variables de cada entidad. Un ejemplo donde la clusterización podría ser muy útil es, un estudio para predecir el impacto del costo de la desregulación. Para hacer el análisis requerido, los economistas podrían necesitar construir un detallado modelo de costo de varias utilidades. Esto podría ahorrar una cantidad considerable de tiempo y esfuerzos si pudiéramos agrupar tipos similares de entidades y construir detallados modelos de costo para sólo una entidad 'típica' en cada cluster y...