En este blog se exploran las posibilidades de analizar datos y crear modelos basados en la Teoría de la Información usando Powerhouse

lunes, 24 de diciembre de 2007

¿Cómo medir el rendimiento de un modelo? (Parte I)

Una vez que se construye un modelo de predicción se debe medir su rendimiento tanto sobre los datos con los que fue construido como sobre datos nunca vistos. Un buen modelo debería tener rendimientos similares con ambos datos. Si la diferencia es muy grande y a favor de los datos de entrenamiento, es probable que el modelo haya copiado parte del ruido. Para conocer más acerca de estos temas se puede consultar los artículos “¿Qué es el ruido” y “Datos de prueba contaminados”.

En este artículo trataré sobre cómo medir el rendimiento de un modelo de score, en particular para variables dependientes de dos estados, o categorías, por ejemplo, un modelo de score para estimar la probabilidad de fuga de clientes (attrition).

En un modelo de attrition que realicé el año pasado los resultados sobre los datos de prueba se resumen con la siguiente tabla:





Esta tabla, llamada matriz de confusión, es una de las herramientas que se pueden usar para medir el rendimiento de un modelo que predice dos posibles resultados. En este caso los estados en que se encuentran los clientes son:

1. Activos, son aquellos que siguen operando con la empresa
2. No Activos, son los que dejaron de operar con la empresa

Los datos que se usaron para probar el modelo contenían 36.292 clientes en total, de los cuales había 33.417 clientes Activos y 2.875 clientes No Activos, tal como se puede ver en la matriz de confusión. O sea, en esta tabla, las filas representan la variable dependiente o como figura a la izquierda, la Categoría Actual.

La distribución de los estados de la variable dependiente es:

Porcentaje de Activos = 33.417 / 36.292 = 92,08%
Porcentaje de No Activos = 2.875 / 36.292 = 7,92%

Una vez que se aplicó el modelo sobre estos datos, se obtuvieron las predicciones correspondientes. Se predijeron 33.650 clientes como Activos y 2.642 como No Activos.

Con esta tabla podríamos calcular cuántos aciertos tuvo el modelo. Para esto sólo hay que sumar los casos en los que el modelo acertó. O sea, se predijo No Activo y el cliente es No Activo, y se predijo Activo y el cliente es Activo.



O sea el modelo acertó

Aciertos: 991 + 31.766 = 32.757 veces

El porcentaje de aciertos se calcula como la cantidad de aciertos dividido la cantidad total de casos

Porcentaje de aciertos = 32.757 / 36.292 = 90,26%

La pregunta es, ¿es útil esta medición? Antes de contestar esta pregunta vamos a calcular cuánto sería el porcentaje de aciertos de un modelo que sólo responda al azar pero respetando la distribución de la variable dependiente. O sea, un modelo que responda Activo el 92,08% de las veces y No Activo el 7,92% restante de las veces.

Haciendo un poco de cálculos encontramos que este modelo tendría un porcentaje de aciertos de

Aciertos = 7,92% * 2.875 + 92,08% * 33.417 = 30.998

% Aciertos = 30.998 / 36.292 = 85.41%

En principio parece que el primer modelo (el que tiene un acierto de 90.26%) no es mucho mejor que un modelo al azar. Es más, hay casos en que el porcentaje de aciertos de un modelo al azar supera al de un modelo hecho con alguna herramienta de Data Mining. Pero entonces ¿de qué sirve trabajar tanto en un modelo si hacer predicciones al azar podría tener un mayor porcentaje de aciertos?

Una de las diferencias está en las predicciones de la clase o categoría menos representada. O sea, en nuestro ejemplo, en las predicciones de los clientes No Activos. Si comparamos los aciertos de ambos modelos, veremos una gran diferencia:

%Aciertos = Aciertos de No Activos / Total de No Activos predichos

%Aciertos modelo DM = 991 / 2.642 = 37.41%

En el caso de predicciones al azar, se predijeron 7,92% del total de casos, o sea 2.875 = 7,92% * 36.292

%Aciertos modelo al azar = 227 / 2.875 = 7.92%

Ahora se puede apreciar el valor de un modelo realizado con técnicas de Data Mining, ya que es capaz de predecir mucho mejor los clientes No Activos.

En el siguiente artículo seguiré con este tema.

Durante este año que viene me gustaría recibir algunos comentarios acerca de los artículos o los temas tratados. Al no tener feedback no tengo claro si los temas son interesantes o de la profundidad esperada.

Les deseo a todos los lectores del blog que tengan unas Felices Fiestas y un excelente 2008.

Hasta pronto,

Marcelo

jueves, 13 de diciembre de 2007

¿Qué es Data Mining?

El libro “Data Mining Techniques” de M. Berry y G. Linoff comienza con un pequeño ejemplo de cómo el dueño de un local en donde uno de los autores compra vino, conoce sus gustos y es capaz de hacerle buenas recomendaciones.

En este artículo expandiré este ejemplo porque creo que es una buena analogía de lo que busca encontrar cualquier proyecto de Minería de Datos o Data Mining.

Imaginemos un pequeño local de ventas de vinos y especialidades tales como quesos, paté y embutidos, atendido por su dueño, Pedro, desde hace 5 años.

Cada vez que recibe un cliente, Pedro lo conoce lo suficientemente bien como hacerle varias recomendaciones. A Carlos le ofrece un buen Cabernet Sauvignon de una nueva bodega que acaba de recibir y un Provolone Piccante italiano. En cambio a Raúl, que prefiere los vinos blancos, le ofrece un Chardonnay acompañado de un Parmesano, porque otros clientes les han comentado lo bien que se lleva este vino con este queso.

Resumiendo, basado en su experiencia de atender a sus clientes por 5 años, Pedro es capaz de conocer las preferencias de sus clientes tan bien que podría clasificarlos en distintos segmentos. También es capaz de sugerir recomendaciones (predecir que producto llevar) a cada cliente y ofrecer nuevos productos en base a lo que otros han combinado con buenos resultados (cross selling)

Conocer a los clientes lo mejor posible ha sido la estrategia de Pedro para dejar a sus clientes conformes y a la vez incrementar sus ventas. Esto establece una situación ganar-ganar. Ganan los clientes visitando un negocio en donde reciben lo que ellos quieren y gana Pedro manteniendo a sus clientes e incrementando sus ventas. Pero esto es posible porque la cantidad de clientes de Pedro es lo suficientemente pequeña como para conocerlos personalmente.

Muchas empresas que cuentan con miles de clientes no tienen esta posibilidad, aunque no tienen por qué renunciar al uso de una estrategia similar. La diferencia está en el tipo de herramienta usada para conocer las preferencias e inferir recomendaciones. En el caso de Pedro, su herramienta es su cerebro, en el caso de una gran empresa su herramienta deberá ser una computadora.

Pedro guarda la relación de sus clientes con su negocio en su memoria y usa su capacidad de razonar en base a su lógica inductiva y deductiva, para hacer sus recomendaciones.

Una empresa con miles de clientes deberá almacenar su relación con los mismos en una base de datos y deberá usar programas que tengan capacidades inductivas (para encontrar reglas o patrones de comportamiento) y deductivas (para usar estas reglas a fin de hacer recomendaciones).

Esta tecnología que utiliza datos almacenados en sus bases y programas que buscan patrones de comportamientos lleva el nombre de Minería de Datos o Data Mining.

Hay personas a las que cuesta seguir en su línea de razonamiento e incluso en ciertas ocasiones no quedan claras las razones de por qué se toman ciertas decisiones. Hay personas que son capaces de sacar conclusiones rápidamente y otras que les cuesta más. Con los programas de Data Mining pasa lo mismo. Hay programas complicados de usar y otros que son muy simples. Hay algoritmos que dejan claras las razones de sus recomendaciones y otros que son como cajas negras, hay programas que llegan a un resultado en pocos segundos y otros que tardan horas.

Todas las herramientas de Data Mining tienen sus pros y sus contras, pero lo importante es no perder de vista el objetivo principal, así como la tarea principal de Pedro no es analizar a sus clientes, sino venderles lo máximo posible, Data Mining no se trata de analizar datos, se trata de optimizar los negocios, ya sea vendiendo más, ya sea gastando menos.

Una herramienta de Data Mining ideal debería pasar desapercibida. Uno debería gastar el menor tiempo posible preparando datos, y concentrarse en los resultados. Ver el problema desde un punto de vista de negocios y no desde la perspectiva estadística.

La siguiente demostración intenta mostrar que hacer Data Mining no tiene por qué ser complicado.... si se cuenta con la herramienta adecuada.

Demostración online de Data Mining con Powerhouse