Análisis de Cluster o Cluster Analysis
Capítulo 15 del libro Data Minig for Business Analytics: Concepts, Techniques, and Applications with XlMiner, Third Edition, Galit Shmuleli, Peter C. Bruce, and Nitin R. Patel.
Este capítulo es acerca de la popular tarea de aprendizaje no-supervisado de clusterización, donde el objetivo es segmentar la data dentro de un conjunto de clusters de observaciones homogéneas con el propósito de generar insights. Separar un conjunto de datos dentro de un cluster de registros homogéneos es también muy útil para mejorar el rendimiento de los métodos supervisados mediante el modelado de cada cluster por separado en vez del total de conjunto de datos heterogéneos.
La clusterización es usada en una amplia variedad de aplicaciones de negocio, desde marketing personalizado hasta análisis industrial. Describimos dos populares aproximaciones de clusterización: jerárquica y k-means.
En la clusterización jerárquica las observaciones son agrupadas secuencialmente para crear clusters, basado en las distancias entre las observaciones y las distancias entre los clusters. Describimos cómo funciona el algoritmo en términos del proceso de clusterización y mencionamos diversas métricas de distancias usadas comunmente. La clusterización jerárquica además produce una gráfica muy útil llamada dendograma del proceso de clusterización y sus resultados. Presentamos el dendograma e ilustramos su utilidad.
La clusterización k-means es mayormente usada en aplicaciones de enormes conjuntos de datos. En la clusterización k-means las observaciones son asignadas a uno de los conjuntos de cluster pre-definidos, conforme a su distancia desde cada cluster. Describimos el algoritmo de la clusterización k-means y sus ventajas computacionales. Finalmente, presentamos las técnicas que asisten en la generación de insights desde los resultados de la clusterización.
15.1 Introducción
El análisis de cluster es usado para formar grupos o clusters de observaciones similares basado en variables hechas sobre esas observaciones. La idea clave es caracterizar los clusters de manera que puedan ser útiles para los propósitos del análisis. Esta idea ha sido aplicada en muchas áreas, incluyendo la astronomía, arqueología, medicina, química, educación, psicología, lingüística y sociología. Los biólogos, por ejemplo, han hecho un extensivo uso de las clases y subclases para organizar las especies. Un éxito espectacular del concepto de clusterización en química fue la tabla periódica de elementos de Mendeleiev.
Un uso popular del análisis de cluster en marketing es en la segmentación de mercados: los clientes son segmentados basado en la demografía y en el historial de transacciones, y una estrategia de marketing es adaptada a cada segmento. En países como la India, donde la diversidad de clientes es es extremadamente sensible a la ubicación, la cadena de tiendas a menudo realiza la segmentación del mercado a nivel de tienda, en vez de una amplia cadena (llamada micro-segmentación). Otro uso es en el análisis de estructura de mercado: identificando grupos de productos similares según variables competitivas de similitud.
En los pronósticos políticos y de marketing, la clusterización de vecindad usando los códigos postales zip han sido empleados exitosamente para agrupar al vecindario según su estilo de vida. Claritas, una compañía que promovió este enfoque, agrupó a la vecindad en 40 clusters usando diversas variables demográficas y de gasto de los consumidores. Examinar los cluster permitió a Claritas dar a conocer evocativos nombres como "Bohemian mix", "Furs and Station Wagons" y "Money and Brains" a los grupos que ocuparon los estilos de vida dominantes. El conocimiento de los estilos de vida pueden ser usados para estimar la demanda potencial de productos (por ejempo, vehículo de utilería deportiva) y servicios (por ejemplo, cruceros del placer). Similarmente, las organizaciones de ventas inferirán segmentos de clientes y les darán nombres -"personas"- para enfocar los esfuerzos.
En finanzas, el análisis de cluster puede ser usado para crear el balance de portafolios: datos sobre una variedad de oportunidades de inversión (por ejemplo, stocks), una manera de encontrar los cluster basado en las variables de rendimiento financiero tales como el retorno (diario, semanal o mensual), la volatilidad, beta, y otras características, tales como la industria y capitalización del mercado. Seleccionar valores de diferentes clusters puede ayudar a crear un balance de portafolio. Otra aplicación de análisis de cluster en finanzas es en el análisis industrial: para una industria dada, estamos interesados en encontrar grupos de firmas similares basado en variables como el ratio de crecimiento, la rentabilidad, el tamaño del mercado, la gama de productos, y la presencia en varios mercados internacionales. Esos grupos pueden luego ser analizados con la finalidad de entender la estructura de la industria y determinar, por ejemplo, quién es un competidor.
Una interesante e inusual aplicación del análisis de cluster, descrita en Berry y Linoff (1977), es el diseño de un nuevo conjunto de tallas para los uniformes del ejército de mujeres en Army US. El estudio surgió con un nuevo sistema de tallas de vestimenta de sólo 20 tallas, donde diferentes tallas se adaptan a diferentes tipos de cuerpo. Las 20 tallas son combinaciones de cinco variables: pecho, cuello y espalda; la circunferencia del hombro, la costura de manga, y la longitud del cuello al glúteo. Este ejemplo es importante porque muestra cómo una perspicaz vista completamente nueva se pueda obtener examinando grupos de registros.
El análisis de cluster puede ser aplicado en cantidades enormes de data. Por ejemplo, el motor de búsqueda de internet usa una técnica de clusterización para agrupar consultas que los usuarios envían. Aquello puede ser usado luego para mejorar los algoritmos de búsqueda. El objetivo de este capítulo es describir los conceptos claves resaltando las técnicas más comunmente usadas para los análisis de cluster y para trazar sus fortalezas y debilidades.
Típicamente, la data básica usada para formar los cluster son una tabla de diversas variables, donde cada columna representa una variable y una fila representa una observación. Nuestro objetivo es formar grupos de registros de manera que las observaciones similares estén en el mismo grupo. El número de clusters pueden ser pre determinados o determinados desde la data.
Siguiente contenido>> Ejemplo: Utilidades Públicas
Comentarios
Publicar un comentario