Quise comparar los resultados publicados con los que podría obtener con Powerhouse. Para obtener un resultado rápido, usé el AutoWizard, que una vez seleccionados los datos e identificada la variable a predecir, generó un modelo de segmentación y el de predicción en 10 segundos.
Luego generé el reporte de rendimiento del modelo de predicción OPFIT. Sobre el Training set el modelo acertó un 82.9% de la veces y sobre el Test set un 82.4%. El KS (Kolmogorov-Smirn Statistic) fue de 56.3% en el Trainig set y 45.4 en el Test set. La siguiente gráfica muestra el Lift

Luego hice algo de análisis exploratorio usando el reporte de Estadísticas de Powerhouse (debería haberlo analizado antes) y me di cuenta que una variable que podría ser muy importante, había sido ignorada por tener un porcentaje de Nulos demasiado elevado.
Tenía varias opciones para incluir esta variable, aumentar el porcentaje permitido de Nulls en las variables (el valor prefijado era de 20%), hacer que Powehouse reemplace los Nulos o tratar esta variable como Mixta, asignando un valor no numérico a cada valor faltante.
Lo primero que hice fue reemplazar los Nulos, pero DEBTINC no apareció en la selección de variables y el modelo que obtuve no fue mejor que el anterior. Esto concuerda con la idea principal dada en ¿Qué hacer con los Nulls?, no reemplazar los Nulos salvo en casos absolutamente necesarios.
Luego pensé que quizás tratar a DEBTINC como Mixta podría funcionar. Probablemente el hecho de que este valor no esté completado lleve información acerca de la variable a predecir (para más detalles de este enfoque llamado Missing Value Pattern, se puede consultar el capítulo 8 de Data Preparation for Data Mining de Dorian Pyle), así que simplemente hice un nuevo proyecto en el que en la variable DEBTINC reemplacé los Nulos por "N/C" y declaré esta variable como Mixta. Luego procedí como lo hice anteriormente y estos fueron los resultados:
La variable DEBTINC fue seleccionada en primer lugar. El porcentaje de aciertos subió a un 88.66% y 88.77% para el TR y el TS respectivamente. El KS también mejoró mucho, 68.2 y 67.8 para el TR y TS. La curva Lift sobre el Test set mejoró notablemente
Conclusión, las variables Mixtas no sólo sirven para reemplazar valores vacíos, también pueden hacer un buen trabajo con valores faltantes.
No hay comentarios:
Publicar un comentario