Data Mining basado en Teoría de la Información: Un ejemplo del uso de variables mixtas

Hoy encontré un data set en Internet acerca de créditos. Se llama Home Equity Loan Data Set y lo usan en varios documentos con ejemplos del uso de SAS Enterprise Miner.

Quise comparar los resultados publicados con los que podría obtener con Powerhouse. Para obtener un resultado rápido, usé el AutoWizard, que una vez seleccionados los datos e identificada la variable a predecir, generó un modelo de segmentación y el de predicción en 10 segundos.

Luego generé el reporte de rendimiento del modelo de predicción OPFIT. Sobre el Training set el modelo acertó un 82.9% de la veces y sobre el Test set un 82.4%. El KS (Kolmogorov-Smirn Statistic) fue de 56.3% en el Trainig set y 45.4 en el Test set. La siguiente gráfica muestra el Lift

La tabla muestra el Lift por decil

No es un mal modelo y tiene un rendimiento similar al Modelo de Regresión costruído en SAS y publicado en el documento Data Mining using SAS Enterprise Miner. A case study approach.

Luego hice algo de análisis exploratorio usando el reporte de Estadísticas de Powerhouse (debería haberlo analizado antes) y me di cuenta que una variable que podría ser muy importante, había sido ignorada por tener un porcentaje de Nulos demasiado elevado.

La variable ignorada es DEBTINC que representa la relación entre la deuda y los ingresos (Debt to Income). Esta variable normalmente lleva mucha información acerca de la capacidad de pago de una persona. Cuanto mayor es esta relación, mayor probabilidad de mora existe.

Tenía varias opciones para incluir esta variable, aumentar el porcentaje permitido de Nulls en las variables (el valor prefijado era de 20%), hacer que Powehouse reemplace los Nulos o tratar esta variable como Mixta, asignando un valor no numérico a cada valor faltante.

Lo primero que hice fue reemplazar los Nulos, pero DEBTINC no apareció en la selección de variables y el modelo que obtuve no fue mejor que el anterior. Esto concuerda con la idea principal dada en ¿Qué hacer con los Nulls?, no reemplazar los Nulos salvo en casos absolutamente necesarios.

Luego pensé que quizás tratar a DEBTINC como Mixta podría funcionar. Probablemente el hecho de que este valor no esté completado lleve información acerca de la variable a predecir (para más detalles de este enfoque llamado Missing Value Pattern, se puede consultar el capítulo 8 de Data Preparation for Data Mining de Dorian Pyle), así que simplemente hice un nuevo proyecto en el que en la variable DEBTINC reemplacé los Nulos por "N/C" y declaré esta variable como Mixta. Luego procedí como lo hice anteriormente y estos fueron los resultados:

La variable DEBTINC fue seleccionada en primer lugar. El porcentaje de aciertos subió a un 88.66% y 88.77% para el TR y el TS respectivamente. El KS también mejoró mucho, 68.2 y 67.8 para el TR y TS. La curva Lift sobre el Test set mejoró notablemente

De la tabla de Lift se puede ver por ejemplo que el Lift para el decil 1 y 2 es 4.43 y 3.61 respectivamente, lo cual comparado con 2.90 y 2.34 del modelo anterior, es una mejora de alrededor de un 50%!