Entidades Públicas

Capítulo 15 del libro Data Minig for Business Analytics: Concepts, Techniques, and Applications with XlMiner, Third Edition, Galit Shmuleli, Peter C. Bruce, and Nitin R. Patel.

La tabla 15.1 brinda información corporativa de 22 entidades públicas en los Estados Unidos (las definiciones de las variables están dadas al pie de la tabla). Nos interesa formar grupos de entidades similares. Las observaciones a ser clusterizadas son las entidades y la clusterización estará basada en las ocho variables de cada entidad. Un ejemplo donde la clusterización podría ser muy útil es, un estudio para predecir el impacto del costo de la desregulación. Para hacer el análisis requerido, los economistas podrían necesitar construir un detallado modelo de costo de varias utilidades. Esto podría ahorrar una cantidad considerable de tiempo y esfuerzos si pudiéramos agrupar tipos similares de entidades y construir detallados modelos de costo para sólo una entidad 'típica' en cada cluster y luego, escalar desde estos modelos para estimar resultados para todas las entidades.


Para simplificar, vamos a considerar solo dos de las variables: Ventas y Costo de combustible. La figura 15.1 nos muestra un gráfico de dispersión de aquellas dos variables, con etiquetas marcadas de cada entidad. A primera vista, parece haber dos o tres cluster de entidades: un primero con entidades que tienen alto costo de combustible, un segundo con entidades que tienen el más bajo costo de combustible y ventas relativamente bajas, y uno tercero con entidades que tienen bajo costo de combustible pero altas ventas. Podemos aquí pensar en un análisis de cluster como un algoritmo más formal que mide la distancia entre los registros y, conforme a esas distancias (aquí, distancias de dos dimensiones), formar clusters.



El método jerárquico puede ser aglomerativo o divisivo. El método aglomerativo empieza con n clusters y secuencialmente se une a similares cluster hasta que se obtiene un solo cluster. El método divisivo funciona en dirección contraria, empezando con un cluster que incluye todas las observaciones. Los métodos jerárquicos son especialmente usados cuando el objetivo es organizar los cluster dentro de una jerarquía natural.


El método no-jerárquico, como el k-means. Usando un número de cluster pre-especificado, el método asigna observaciones a cada cluster. Estos métodos son generalmente menos intensivos computacionalmente y son, por lo tanto, preferidos con enormes conjuntos de datos. 

Nos concentraremos en los dos métodos más populares: la clusterización jerárquica aglomerativa y la clusterización k-means. En ambos casos, necesitamos definir dos tipos de distancias: la distancia entre dos observaciones y la distancia entre dos clusters. En ambos casos hay una variedad de métricas que pueden ser usadas.

Siguiente contenido>> 15.2 Medición de distancia entre dos observaciones

Comentarios

Entradas populares de este blog

El proceso KDD

Minería de datos y KDD

Los métodos del Data Mining o Minería de datos