Caso: Identificación de estudiantes en riesgo de no graduarse a tiempo

Un modelo basado en datos para la identificación de los estudiantes de la Escuela Secundaria en riesgo de no graduarse a tiempo

RESUMEN
Algunos estudiantes, debido a una variedad de factores, luchan para completar la escuela secundaria a tiempo. Para direccionar este problema, las escuelas distritales de los EEUU usan programas de intervención con la finalidad de ayudar a los estudiantes que luchan por volver al ruedo. Sin embargo, para aplicar mejor aquellos programas, las escuelas necesitan identificar a los estudiantes que están quedando fuera del camino académico tan temprano como sea posible y enrolarlos en la intervención más apropiada. Desafortunadamente, la identificación y la priorización de estudiantes en necesidad de intervención sigue siendo una tarea difícil. Este documento describe el trabajo que se basa en sistemas actuales empleando métodos avanzados de ciencia de datos para producir un modelo predictivo escalable y expandible con el fin de proveer de sistemas individuales de indicadores de alerta temprana a los socios de las escuelas distritales  públicas de los EEUU. Nuestro modelo emplea técnicas de Machine Learning (máquina de aprendizaje) para identificar a los estudiantes en riesgo y describe características que son útiles para esta tarea, y evalúa estas técnicas usando importantes métricas para los administradores escolares. Al hacer esto, nuestro modelo, desarrollado con la necesidad común de diversas escuelas distritales en mente, proporciona un conjunto común de herramientas para identificar a los estudiantes en riesgo y los factores asociados a esos riesgos. Además, al integrar la data de distritos dispares dentro de un sistema común, nuestro modelo permite un análisis de distritos cruzados para investigar indicadores comunes de alerta temprana no sólo dentro de una sola escuela o distrito, sino a través de los EEUU y aun más lejos.

1. INTRODUCCIÓN
Un desafío perenne que enfrentan las escuelas distritales  es mejorar el ratio de graduación de sus estudiantes. La graduación de la escuela secundaria es asociada con ingresos de por vida y esperanza de vida relativamente más altos, y unas tasas de desempleo y encarcelamiento más bajas.  A pesar de todo, aproximadamente uno de cinco estudiantes en los EEUU no completa la escuela secundaria a tiempo, una tasa de más de 700 mil estudiantes cada año.

Para ayudar a que más estudiantes se gradúen a tiempo, las escuelas distritales, a través del país, usan programas de intervención con el fin de que aquellos estudiantes en riesgo vuelvan al ruedo académico. Como sea, con el fin de aplicar mejor aquellos programas, las escuelas necesitan identificar a los estudiantes que están quedando fuera del camino académico tan temprano como sea posible y enrolarlos en la intervención más apropiada. Además, las escuelas necesitan saber qué factores influyen en los estudiantes que abandonan los estudios para así proveer intervenciones enfocadas en las necesidades individuales de cada  estudiante.

 2. ENFOQUE ACTUAL
Tradicionalmente, las escuelas distritales, administradores y consejeros han estado encargados de identificar a los probables estudiantes en necesidad de apoyo. Si bien, no se ha determinado que la habilidad intelectual o capacidad académica varían según factores demográficos como la raza, el sexo o el estatus socioeconómico, el hecho de no completar la escuela secundaria ha estado asociado con tales características en investigaciones desde los años 70, indicando en gran medida factores sociales o ambientales que contribuyen a la deserción de la escuela secundaria. A falta de otros indicadores, los estudiantes en riesgo son frecuentemente identificados por factores demográficos combinados con heurísticas simples, tales como la asistencia y las calificaciones.

Como sea, aquellas heurísticas no carecen de problemas. Debido a características que varían a lo largo de la distancia y el tiempo, el conjunto de heurísticas que deben ayudar a identificar a los estudiantes en riesgo para un grupo de estudiantes en particular dentro de una escuela distrital, no pueden generalizarse o transferirse a otro grupo o escuelas.

El uso de estas heurísticas por sí solo también carece de un medio de priorización cuyos estudiantes están más necesitados o más propensos a beneficiarse de la intervención. Además, se ha demostrado que incluso el empleo de las heurísticas más poderosas no es muy predictivo por sí mismo. Estas cuestiones resaltan la necesidad de alternativas más generalizables para estos sistemas manualmente creados basados en reglas que puedan utilizarse para discernir indicadores predictivos.

Como una alternativa, las escuelas distritales orientadas al futuro están incrementando la exploración de sistemas basados en datos de "indicadores de alerta temprana" (EWI) que pueden ayudar a las escuelas a detectar estudiantes que necesitan apoyo especial. En lugar de utilizar reglas simples, estos sistemas pueden emplear métodos sofisticados de analítica para combinar las EWI en factores compuestos, con un reciente trabajo que emplea métodos tales como modelos de machine learning y análisis de supervivencia. Estos sistemas iniciales se han desarrollado con un enfoque en escuelas distritales o individuales para su incorporación en el software de un distrito en particular. Hasta ahora, sin embargo, estos sistemas carecen de la capacidad de generalizar eficazmente a través de un amplio espectro de escuelas distritales.

3. NUESTRO ENFOQUE
Estamos construyendo un marco que ofrece modelos predictivos precisos e interpretables de 'graduación a tiempo' para las escuelas distritales de los Estados Unidos con el fin de facilitar intervenciones focalizadas. Este marco está siendo construido en colaboración con varias escuelas distritales asociadas con el objetivo de producir predicciones individualizadas que, se espera, tengan un buen desempeño en validaciones fuera de muestra (es decir, pruebas de datos).

3.1 MARCO PREDICTIVO
El marco que estamos desarrollando es generalizable y puede ser adoptado por otras escuelas en el país interesadas en identificar a los estudiantes en riesgo. Esto se aplica a un conjunto flexible de características en granularidad arbitraria, como se observa comúnmente con datos de fuentes múltiples. Dentro de este marco, estamos construyendo un conducto flexible que permite una variedad de manejo de datos y posibilidades de modelado, incluyendo la utilización de conjuntos heterogéneos de datos de grupos, así como una amplia variedad de algoritmos de machine learning.

Esta estructura acomoda los efectos de las escuelas locales y del distritales que pueden no ser capaces de ser captadas a nivel nacional. Al hacerlo, podemos expandir la utilidad de nuestro marco de una escuela a otra, empoderando a los distritos individuales para construir modelos adaptados a sus propias escuelas.

3.2 INGENIERÍA DE FUNCIONES
Además de identificar a los estudiantes en riesgo de forma fiable, es importante proporcionar información que pueda ser usada para entender por qué un estudiante en particular está en riesgo. Para complementar las técnicas de machine learning con esta interpretabilidad, estamos construyendo una clase estructurada potencialmente jerárquica de características que naturalmente corresponden a categorías intuitivas de riesgo.

Cada característica será diseñada para pertenecer a una o más categorías de características bien establecidas con interpretaciones directas, tales como la movilidad de los estudiantes, el lenguaje, la personalidad y la motivación, además de los factores de nivel familiar, comunitario y social.
El análisis de factores puede utilizarse para evaluar el grado en que una característica pertenece a una categoría de características dada a través de cargas de factor.

Por lo tanto, los pesos o la importancia de la característica, generados por un modelo de machine learning, junto con cada miembro de la categoría de la característica puede utilizarse para descomponer una predicción en puntuaciones asociadas a cada categoría de riesgo, proporcionando una base sustantiva para las intervenciones focalizadas sugeridas.

4. DATOS
Los datos de este proyecto provienen de una asociación con cuatro escuelas distritales: Escuelas Públicas de Arlington (Arlington, VA), Escuelas del Condado de Cabarrus (Cabarrus, NC), Escuelas Públicas de Vancouver (Vancouver, WA) y el Sistema de Escuela Pública del Condado Wake (Condado Wake, NC). Cada uno de estos distritos ya ha reconocido la importancia de los sistemas de EWI para identificar a estudiantes en riesgo, con sistemas de indicadores de alerta temprana del lugar basados en reglas que usan varios indicadores importantes como desempeño académico, comportamiento, movilidad y demografía. Nuestra asociación con estas escuelas distritales ha sido difícil en el desarrollo de un sistema de machine learning que no sólo está basado en datos reales sino que también está diseñado para las necesidades y prioridades de los educadores.

Cada distrito proporcionó data histórica no identificada para lo menos dos  grupos que describe el rendimiento actual y pasado de los estudiantes, desde la escuela primaria o media en adelante.

* Escuelas Públicas de Arlington (APS): Las APS está situado en la región del Atlántico Medio, con una inscripción actual de 26,000 estudiantes en 31 escuelas. Todas las escuelas secundarias de APS fueron calificadas en el 2% superior de las escuelas secundarias a nivel nacional en la edición 2014 del "Ranking de las escuelas secundarias de América" ​por The Washington Post.

* Escuelas del Condado de Cabarrus (CCS): Situadas en el sureste, las CCS actualmente inscribe aproximadamente 30,000 estudiantes en 39 escuelas.

* Escuelas Públicas de Vancouver (VPS): Ubicadas en el Noroeste del Pacífico, las VPS tiene una inscripción actual de 23,000 estudiantes en 35 escuelas y se considera "de alta movilidad" con un tercio de sus estudiantes martriculados en el año. Usamos datos de dos grupos recientes, con registros que abarcan desde el sexto a desimo segundo grado.

* Sistema de Escuela Pública del Condado Wake (WCPSS): Localizado en el sur, el WCPSS es la décimo sexta escuela distrital más grande del país, actualmente matricula aproximadamente 155,000 estudiantes en 171 escuelas. Utilizamos una muestra de datos de matrículas de 16 años, empezando con estudiantes matriculados en el sexto grado en 1999.

Los conjuntos de datos contienen varios atributos para cada uno de estos estudiantes, tales como su matrícula en grados y calificaciones, ratio de ausencia, tardanza, etc. La mayoría de los estudiantes en cada grupo se graduaron de la escuela secundaria dentro de los cuatro años de matrícula. Sin embargo, algunos han sido transferidos dentro o fuera del distrito durante el período de estudio y por lo tanto, tenemos campos de datos faltantes por años anteriores (o posteriores) a su matrícula en el distrito.

5. MÉTODOS Y EVALUACIÓN
Nuestro objetivo es hacer predicciones matizadas para cada escuela individual dentro de cada uno de nuestros distritos asociados, al tiempo que generamos una base de código flexible y generalizable que se puede ampliar a otros distritos. Para ello, hemos utilizado sistemas que proporcionan extensibilidad y escalabilidad.

5.1 MÉTODOS
Como nuestros análisis emplean conjuntos de datos relativamente grandes que son de naturaleza relacional, hemos cargado los datos proporcionados en un sistema de administración de base de datos basado en SQL (DBMS), que proporciona un marco consistente y útil para organizar y manipular nuestra data. Para facilitar un proceso que se puede utilizar en una variedad de escuelas distritales, hemos organizado los datos en un esquema de base de datos único que es consistente entre nuestros socios del distrito y que captura la relación entre estudiantes y escuelas dentro de cada distrito.

Como nuestros análisis emplean conjuntos de datos relativamente grandes que son de naturaleza relacional, hemos cargado los datos proporcionados en un sistema de administración de base de datos basado en SQL (DBMS), que proporciona un marco consistente y útil para organizar y manipular nuestra data. Para facilitar un proceso que se puede utilizar en una variedad de escuelas distritales, hemos organizado los datos en un esquema de base de datos único que es consistente entre nuestros socios del distrito y que captura la relación entre estudiantes y escuelas dentro de cada distrito.

Teniendo en cuenta los datos proporcionados, hemos enmarcado nuestro problema de predicción como la siguiente tarea de clasificación binaria: d años antes de la fecha de graduación esperada de un estudiante dado (donde d = 1, 2 o 3), predecimos si él o ella se graduarán a tiempo. Para generar predicciones, hemos elegido utilizar una serie de diferentes clasificadores, incluyendo la regresión logística, na ¨ ª Bayes, bosque random, y máquinas de vectores de soporte.

La regresión logística (LRC) es un tipo de análisis de regresión utilizado para predecir el resultado de una variable categórica. El método se utiliza ampliamente en muchos campos, incluyendo las ciencias médicas y sociales. Na¨ıve Bayes (NB) es un clasificador probabilístico simple basado en la aplicación del teorema de Bayes con suposiciones de independencia fuertes (na'ıve). En términos generales, el método asume que, dada la clase, la presencia o ausencia de una característica particular no está relacionada con la presencia o ausencia de cualquier otra característica. A pesar de esta fuerte hipótesis, el método a menudo funciona bastante bien, sobre todo porque sólo requiere una cantidad relativamente pequeña de datos de entrenamiento para estimar los parámetros necesarios para la clasificación. El bosque random (RF) es un clasificador conjunto que consiste en muchos árboles de la clasificación. Cada árbol de clasificación es apto para una muestra bootstrap de la data, pero a cada nodo, sólo un pequeño número de variables seleccionadas al azar están disponibles para la partición binaria del árbol. Los árboles están completamente desarrollados y la clase prevista de una observación se calcula por el voto mayoritario del conjunto para esa observación. La máquina vectorial de soporte (SVM) busca un hiperplano de separación óptimo capaz de discriminar entre clases. Esto se logra mediante la asignación no lineal de las características de entrada en un espacio de características de alta dimensión, en el que se construye una superficie de decisión lineal.

Estos métodos fueron seleccionados debido a su capacidad predictiva y facilidad de implementación. En conjunto, son bastante representativos de la diversa gamas de métodos de clasificación tradicionalmente empleados en el dominio de machine learning. Nuestro trabajo utiliza las implementaciones proporcionadas por scikit-learn.

5.2 EVALUACIÓN
Al desarrollar nuestra metodología de evaluación, hemos sido cuidadosos de tener en cuenta apropiadamente las dependencias temporales inherentes en nuestra data. A medida que los nuevos grupos de estudiantes comienzan la escuela cada año, se producen fluctuaciones espontáneas en la composición demográfica y en la distribución de resultados de estos estudiantes, así como en el comportamiento conjunto de cualquier subconjunto de estos factores. Por lo tanto, los métodos tradicionales de validación cruzada (incluyendo el "leave-k-out" y el "k-fold") que dependen exclusivamente de las divisiones aleatorias de la data, acatualmente conducen a estimaciones de error de predicción sesgadas (subestimadas) que proporcionan una visión demasiado optimista del modelo adaptado. En esencia, esto significa que la data deben ser divididos temporalmente, donde los modelos sean evaluados sólo en datos futuros, con el fin de evitar lo que equivale a "hacer trampa por mirar en el futuro".

Al enfatizar el rendimiento predictivo fuera de la muestra (es decir, datos de prueba), hemos adoptado el enfoque de la validación del modelo temporal con una ventana deslizante. Considere un modelo predictivo "d-years-ahead": es decir, la predicción del resultado de graduación de un estudiante d años antes de su graduación esperada. Para cada cohorte k, observamos los resultados de abandono d + 1,. . . n. La cohorte en sí, k, así como todas sus cohortes posteriores, k + 1,. . . , n; pueden ser usadas como el conjunto de pruebas. Nativamente, todas las cohortes anteriores, al modelo montado en sus cohortes precedentes, 1,. . . , K - 1. Sin embargo, si asumimos que un modelo d-years-ahead no puede ser validado hasta d años en el futuro, entonces en la práctica, las etiquetas no estarán disponibles para cohortes más recientes que k-d. Por lo tanto, proveido con un número suficiente de cohortes, un modelo d-years-ahead debe ser adaptado sólo en las cohortes anteriores 1,. . . , K - d.
Esto da como resultado n - d conjuntos de resultados de validación cruzada. El modelo final adaptado para entrega puede se puede montar en todas las cohortes de 1 al n.

Evaluamos el rendimiento de cada uno de los modelos calculando la precisión en k% superior, que es la precisión predictiva dentro de las predicciones más confiables de los modelos k%  (es decir, aquellas con las puntuaciones de probabilidad más altas). Dentro de estas predicciones, determinamos qué porcentaje de estudiantes dentro del 10% superior actualmente no se gradua a tiempo. Esta métrica refleja la realidad de que muchas escuelas sólo pueden intervenir en un porcentaje relativamente pequeño de todo su alumnado.

6. RESULTADOS
Proporcionamos resultados preliminares para los datos proporcionados por VPS. Para cada nivel de grado de 6 a 11, ajustamos y evaluamos un modelo. Como la data proporcionados por VPS está limitada a dos cohortes recientes, adaptamos todos los modelos en la primera cohorte y evaluamos todos los modelos en la segunda cohorte. A pesar de que empleamos una variedad de métodos de clasificación estándar de machine learning, incluyendo la regresión logística, bosque random, máquinas de vectores de soporte, y variantes de los mismos, aquí se resumen sólo los resultados obtenidos utilizando el bosque random.

Figura 1: Resultados de rendimiento para las predicciones del modelo de bosques random sobre la data VPS. Se genera un modelo para cada grado 6-11, y cada modelo se evalúa en la precisión al 10% superior. La línea de base se calcula como la tasa de graduación a destiempo.
Las barras de error representan la desviación estándar.

La Figura 1 resume nuestros resultados para VPS. Para cada nivel de grado, evaluamos las predicciones usando la precisión en el 10% superior. En otras palabras, provistos de todas las predicciones de los estudiantes generadas por un modelo para cierto nivel de grado, determinamos que el 10% superior de los estudiantes eran más probables de no graduarse a tiempo y calculamos que la fracción de estos estudiantes realmente no se graduó a tiempo. El valor final es la precisión en el 10% superior en un nivel de grado dado.

Observamos que nuestro método funciona muy por encima de la tasa de referencia de los estudiantes que no se gradúan a tiempo. Incluso nuestro modelo de grado 6, que predice un resultado seis años a futuro, produce una precisión superior al 50%. También observamos que a medida que el tiempo de predicción disminuye, la precisión aumenta, con el mejor desempeño exhibido por nuestro modelo de grado 11.

Si bien nuestra metodología basada en datos y basada en la clasificación parece prometedora, observamos que ésta sólo produce un modelo adaptado para cada nivel de grado. Por lo tanto, mientras que nuestra metodología puede proporcionar una visión profunda a nivel de cohortes, escuelas y distritos, no proporciona explícitamente una visión práctica a nivel de estudiante. Dejamos esas extensiones a trabajos futuros.

7. TRABAJO FUTURO
Nuestro trabajo actual representa sólo un enfoque y un pequeño paso para abordar el problema de identificar a los estudiantes en riesgo de no graduarse a tiempo. En consecuencia, existen diversas vías directas de investigación exhaustiva.

En primer lugar, mientras que nuestra metodología actual no proporciona conocimientos explícitos a nivel de estudiantes, podría extenderse fácilmente para hacerlo. Por ejemplo, el descubrimiento de conocimientos accionables se podría utilizar para identificar las características que son clave para un estudiante que se predice como no graduándose a tiempo. De hecho, el trabajo existente de Cui et al. esboza un método para extraer óptimamente conocimiento accionable de los bosques random, el método principal discutido en nuestro trabajo. Alternativamente, los estudiantes podrían agruparse para identificar grupos con factores de riesgo particulares.

Además, nuestra metodología no proporciona una visión explícita de cuándo se debe aplicar una intervención que tenga un efecto óptimo. El trabajo futuro podría investigar la utilidad de modelos de la literatura de análisis de supervivencia. Por ejemplo, la regresión Cox podría aplicarse fácilmente para proporcionar información sobre cuándo es probable que un estudiante esté en alto riesgo.

Finalmente, mientras que nuestra metodología produce una puntuación de probabilidad para cada estudiante, se necesita más trabajo para asegurar que estos puntajes de probabilidad estén bien calibrados a propensiones de riesgo reales, particularmente entre cohortes y distritos.

8. CONCLUSIÓN
Esperamos que el marco propuesto permita a nuestros socios del distrito identificar no sólo qué estudiantes están en riesgo, sino por qué lo están; haciendo posibles intervenciones enfocadas lo suficientemente temprano en el proceso de ayudar a los estudiantes con dificultades para graduarse a tiempo. El empleo de un enfoque de machine learning basado en datos para el problema de identificar a estudiantes en riesgo tiene una ventaja única sobre el enfoque actual, ya que puede identificar patrones más extensos en el abandono escolar a nivel nacional. Si bien este trabajo se encuentra todavía en una etapa temprana, prevemos una aplicación más amplia de nuestro marco generalizado y un enfoque de modelado más allá de nuestros distritos asociados.

9. AGRADECIMIENTOS
Este trabajo se realizó como parte de la beca Eric & Wendy Schmidt Data Science para Social Good Summer en la Universidad de Chicago. Queremos agradecer a Kerstin Frailey por el tiempo y esfuerzo que contribuyó a una versión temprana de este trabajo. También queremos agradecer a Scott Goldman (Coordinador de Rendición de Cuentas en las Escuelas Públicas de Arlington), Matthew Lenard (Director de Estrategia de Datos y Análisis en las Escuelas Públicas del Condado de Wake), Amy Nelson (Directora de Investigación Social para el UNC Charlotte Urban Institute) y Paul Stern (Analista de Empresas del Distrito en las Escuelas Públicas de Vancouver) por brindarnos sus datos, experiencia y tiempo. Este trabajo no sería posible sin ellos.

Fuente: https://www3.nd.edu/~rjohns15/content/papers/bloomberg2015_hsgrad.pdf

El permiso para hacer copias digitales o en papel de todo o parte de este trabajo para uso personal o en el aula se otorga sin costo, siempre que las copias no sean hechas o distribuidas con fines comerciales o de beneficio y que las copias contengan este aviso y la cita completa en la primera página. Para copiar, volver a publicar, publicar en servidores o para redistribuir a listas, se requiere permiso previo específico y / o una tarifa.
Bloomberg Data for Good Exchange 2015, NY, EE.UU.
Copyright 20XX ACM X-XXXXX-XX-X / XX / XX ... $ 15.00.

Comentarios

Entradas populares de este blog

El proceso KDD

Minería de datos y KDD

Los métodos del Data Mining o Minería de datos