Data Mining basado en Teoría de la Información: Pasos para construir un score

En este artículo explicaré lo simple que es armar un score en Powerhouse. Como ejemplo utilizaré datos de una compañia de seguros publicados para una competencia de Data Mining y que actualmente sirven como benchmark.

El problema a resolver es muy simple:

¿Podría decirme quién está interesado en comprar una póliza de seguros para una casa rodante (caravan) y explicarme por qué?

Para resolver el problema se publicaron dos tablas de datos, una con 85 variables explicatorias acerca de quién compró o no una póliza en el pasado. O sea, cada fila consiste de 85 variables independientes más otra variable dependiente que indica con 1 ó 0 si la persona compró o no. La otra tabla es similar a la anterior excepto porque no contiene la variable que indica si la persona compró la póliza o no.

Si estuviéramos trabajando en un proyecto real con una compañía de seguros, la primera tabla de datos podría venir de una campaña de marketing realizada con una muestra de los clientes y la segunda tabla estaría formada por los clientes que no participaron en la campaña anterior.

Con el propósito de minimizar los costos de la segunda campaña (la que se hará con la segunda lista de clientes), la oferta no será enviada a toda la lista de clientes, sino a aquellos 800 clientes con mayor probabilidad de que compren el seguro.

Así que los pasos a realizar en el proyecto serán:

Construir un modelo usando los datos de la primera tabla
Aplicar el modelo a la segunda tabla para obtener una probabilidad de que el cliente compre el seguro
Seleccionar los 800 clientes con mayor probablidad

En un proyecto real se enviarían los folletos a estos 800 clientes con la esperanza que compraran la póliza un porcentaje similar al obtenido en las pruebas con la primera tabla. Pero en nuestro caso usaremos un dato que fue publicado luego que la competencia finalizó. Este dato fue la lista de los clientes pertenecientes a la segunda tabla y que compraron la póliza. Dicho de otro modo, nuestra segunda tabla contiene la variable a predecir. De este modo podremos probar el modelo y compararlo con los resultados obtenidos por los participantes de la competencia.

En la página web The Insurance Company (TIC) Benchmark hay más detalles del problema con los datos y los resultados.

Un score es un número que tiene asociada una probabilidad. Un score de riesgo de crédito indicará la probabilidad de falta de pago.

En este caso, el score tendrá asociada la probabilidad de que el cliente compre la póliza de seguros.

Bueno, luego de esta larga introducción podemos comenzar con el proyecto.

Powerhouse tiene tres modelos que generan un score, el OPFIT, el MAXIT y el Scorecard. Para esta tarea podemos usar el modelo OPFIT o el Socrecard.

Comenzamos cargando los datos y definiendo CARAVAN como la variable a predecir (es la variable 86). Hay que tener en cuenta que no hace falta hacer ninguna preparación previa de los datos. Cuando los mismos son cargados en Powerhouse, quedan automáticamente preparados para que cada variable exponga al máximo la información que pueda contener acerca de la variable a predecir.

Al terminar la carga y la preparación de los datos (esta preparación en realidad forma parte de algo más complejo que es un mapeo de información, pero para este ejercicio no hace falta considerar este tema), aparece una ventana de estadísticas que sirve para realizar un análisis exploratorio

La pantalla muestra una lista de todas las variables con varias columnas con información acerca de la misma. La parte inferior de la ventana muestra más detalles acerca de la variable que está seleccionada en ese momento.

En un proyecto real esta información es muy útil para verificar si las variables contienen la información que se espera que tengan.

El siguiente paso es seleccionar las variables más importantes. El modelo que vayamos a construir debe estar basado en una pocas variables por varias razones:

Es más simple de entender
Existe mayor probabilidad de que funcione correctamente con datos nuevos
Se facilita la preparación de variables para el área de sistemas

En un siguiente artículo discutiré este tema con mayor profundidad.

Tenemos a disposición 85 variables. ¿Cómo seleccionar un grupo óptimo de variables? La tarea no es simple debido a la explosión combinatoria que aparece si se desean probar todos los grupos posibles. Afortunadamente Powerhouse usa un método basado en la Teoría de la Información que le permite encontrar un grupo óptimo de variables en muy poco tiempo (para este caso Powerhouse tardó 30 segundos para encontrar las variables con mayor información acerca de la variable a predecir). La siguiente tabla muestra las variables seleccionadas

Las variables aparecen en orden. O sea, PPERSAUT es la variable que mayor información aporta acerca de si el cliente comprará o no la póliza. La siguiente variable es la que mayor información adicional aporta., y así sucesivamente. Las 5 variables juntas aportan un 58% de la información necesaria para predecir sin errores si el cliente comprará o no la póliza.

Powerhouse no continuó seleccionando más variables porque la siguiente variable no aportaría la suficiente información adicional para justificar la pérdida de representatividad de la muestra con la que se construirá el modelo. Dicho de otro modo, Powerhouse nos dice: "Para obtener un buen modelo que funcione tanto con datos del training set como con datos nuevos, éstas son las 5 variables recomendadas"

Si bien no es necesario para este artículo profundizar más en el análisis de las variables seleccionadas, vale la pena notar que las últimas dos variables parecen aportar más información que cada una del resto, tomadas por separado. O sea, la última variable aporta 58.11% - 36.90% = 21.21% de información adicional. De la misma manera, la variable anterior aporta 17.26%. Esto parece contradecir lo que dije anteriormente, que la primer variable es la que lleva la mayor cantidad de información posible. Pero esta contradicción es sólo aparente. Lo que está sucediendo es que las variables que van siendo agregadas están interactuando con las ya seleccionadas previamente, entonces la información que aportan es mayor que si las tomáramos aisladamente.

Continuando con la creación del score, lo que falta ahora es realizar un modelo con estas 5 variables. Con un clic sobre esta selección elegimos construir un OPFIT. El modelo se construye en unos pocos segundos y se muestra una ventana con el modelo, pero no analizaremos esta ventana, solo nos concetraremos en el rendimiento, especificamente en la curva de Lift sobre el Test set.

El problema original nos pide elegir los 800 clientes entre 4.000 con mayor probabilidad de comprar una póliza, o sea, el 20%. Del gráfico de Lift podemos notar que 20% de los clientes (escala horizontal) seleccionados con el modelo contiene aproximadamente un 50% de compradores de póliza. Los datos de la primera tabla muestran que un 5.72% de los clientes compraron la póliza (este dato sale de la distribución de la variable a predecir). Por lo tanto podemos estimar la cantidad de clientes que comprarán la póliza en la segunda tabla. Debe ser 5.72% de 4.000 ó lo que es lo mismo, 229 clientes. Así que en base a estos cálculos deberíamos esperar que el modelo seleccione aproximadamente un 50% de 229, o sea unos 114 clientes.

Veamos si esto es cierto. Recordemos que nosotros ya conocemos cuáles clientes de la segunda tabla realmente compraron la póliza, así que simplemente aplicaremos el modelo a la segunda tabla de clientes, los ordenamos en base al score de mayor a menor, seleccionamos los primeros 800 y contamos cuántos clientes compraron la póliza.

Para aplicar el modelo a la segunda tabla, primero debemos agrega esta nueva tabla al proyecto haciendo clic derecho sobre el proyecto y elegiendo "Agregar Fuente de Datos".

Luego hacemos clic sobre el signo + de la tabla agregada y buscamos la variable CARAVAN que es la que nos dice si el cliente compró o no la póliza. La arrastramos hasta el área de trabajo para crear una vista con esta variable. Luego arrastramos el modelo OPFIT hasta esta vista y obtendremos el score para cada cliente.

Ahora podemos exportar esta Vista para cargarla en Excel y seleccionar los clientes con mayor probabilidad. ¿El resultado? 118 clientes, aproximadamente lo que esperábamos (114).

El ganador de este concurso obtuvo 121 clientes y el segundo 115, así que Powerhouse no lo hizo tan mal. Es más, si consideramos que el tiempo total del proyecto fue inferior a 5 minutos, podemos asumir que los resultados han sido más que satisfactorios.

Ya está listo y probado el modelo de score, pero todavía falta algo para terminar con el proyecto, falta explicar por qué. Para esto usaremos el modelo Scorecard. Este modelo podríamos haberlo usado en un principio en vez del OPFIT, pero se supone que OPFIT es levemente más preciso que el Scorecard. De hecho, una prueba rápida revela que el Scorecard encuentra 117 clientes en los 800 (OPFIT encontró 118), así que la diferencia es realmente muy pequeña.

Pero el Scorecard que construiremos será más simple y menos preciso, ya que solo lo quereos para explicar las relaciones encontradas en los datos. Así que en vez de usar los parámetros default en las opciones del modelo, cambiaremos uno de ellos. En vez de usar 5 rangos (o 5 bins) para las variables, usaremos solo dos, así el modelo será más simple de entender

El modelo es el siguiente:

El modelo de score se interpreta de la siguiente manera. El score será un número entre 0 y 100. A mayor score, mayor probabilidad de que el cliente compre una póliza. Cada variable aporta parte del score. Así por ejemplo, para la variable PPERSAUT tenemos dos valores de score, si la variable toma un valor menor que 5.5, entonces para esta variable, el score es 0. En cambio, si el valor de PPERSAUT es mayor o igual a 5.5, entonces el score será 40. El resto de las variables se interpretan de la misma manera.

La tercera columna "Si es nulo" es para el caso de que el valor de esa variable no se conozca. En ese caso el score asociado a esa variable será el indicado en esta columna. Por ejemplo, para la primera variable es 17.

El score total de un cliente es la suma de los scores individuales de cada variable.

La variable PPERSAUT se refiere a "Contribution car policies", y según el modelo a mayores valores que tome, mayor será la probabilidad de que el cliente compre la póliza.

Con el resto de las variables se puede hacer una análisis similar. En particular se puede ver que la variable MOSHOOFD tiene una relación inversa con la probabilidad: a mayores valores, menor es la probabilidad.

Este modelo puede exportarse a Excel y se obtendrá, entre otras cosas, una tabla con las probabilidades asociadas a cada score.

Conclusión, realizar un score con Powerhouse es una tarea muy simple que lleva pocos minutos una vez que se cuenta con la tabla de datos correspondiente.

Powerhouse no sólo obtiene modelos precisos y robustos (trabajan muy bien con datos nuevos), sino que a su vez estos modelos son muy simples de entender.

jueves, 18 de octubre de 2007

Pasos para construir un score

No hay comentarios:

Datos personales

Más acerca de DM basado en la Teoría de la Información

Etiquetas

Archivo del blog

Links