En este blog se exploran las posibilidades de analizar datos y crear modelos basados en la Teoría de la Información usando Powerhouse

jueves, 13 de diciembre de 2007

¿Qué es Data Mining?

El libro “Data Mining Techniques” de M. Berry y G. Linoff comienza con un pequeño ejemplo de cómo el dueño de un local en donde uno de los autores compra vino, conoce sus gustos y es capaz de hacerle buenas recomendaciones.

En este artículo expandiré este ejemplo porque creo que es una buena analogía de lo que busca encontrar cualquier proyecto de Minería de Datos o Data Mining.

Imaginemos un pequeño local de ventas de vinos y especialidades tales como quesos, paté y embutidos, atendido por su dueño, Pedro, desde hace 5 años.

Cada vez que recibe un cliente, Pedro lo conoce lo suficientemente bien como hacerle varias recomendaciones. A Carlos le ofrece un buen Cabernet Sauvignon de una nueva bodega que acaba de recibir y un Provolone Piccante italiano. En cambio a Raúl, que prefiere los vinos blancos, le ofrece un Chardonnay acompañado de un Parmesano, porque otros clientes les han comentado lo bien que se lleva este vino con este queso.

Resumiendo, basado en su experiencia de atender a sus clientes por 5 años, Pedro es capaz de conocer las preferencias de sus clientes tan bien que podría clasificarlos en distintos segmentos. También es capaz de sugerir recomendaciones (predecir que producto llevar) a cada cliente y ofrecer nuevos productos en base a lo que otros han combinado con buenos resultados (cross selling)

Conocer a los clientes lo mejor posible ha sido la estrategia de Pedro para dejar a sus clientes conformes y a la vez incrementar sus ventas. Esto establece una situación ganar-ganar. Ganan los clientes visitando un negocio en donde reciben lo que ellos quieren y gana Pedro manteniendo a sus clientes e incrementando sus ventas. Pero esto es posible porque la cantidad de clientes de Pedro es lo suficientemente pequeña como para conocerlos personalmente.

Muchas empresas que cuentan con miles de clientes no tienen esta posibilidad, aunque no tienen por qué renunciar al uso de una estrategia similar. La diferencia está en el tipo de herramienta usada para conocer las preferencias e inferir recomendaciones. En el caso de Pedro, su herramienta es su cerebro, en el caso de una gran empresa su herramienta deberá ser una computadora.

Pedro guarda la relación de sus clientes con su negocio en su memoria y usa su capacidad de razonar en base a su lógica inductiva y deductiva, para hacer sus recomendaciones.

Una empresa con miles de clientes deberá almacenar su relación con los mismos en una base de datos y deberá usar programas que tengan capacidades inductivas (para encontrar reglas o patrones de comportamiento) y deductivas (para usar estas reglas a fin de hacer recomendaciones).

Esta tecnología que utiliza datos almacenados en sus bases y programas que buscan patrones de comportamientos lleva el nombre de Minería de Datos o Data Mining.

Hay personas a las que cuesta seguir en su línea de razonamiento e incluso en ciertas ocasiones no quedan claras las razones de por qué se toman ciertas decisiones. Hay personas que son capaces de sacar conclusiones rápidamente y otras que les cuesta más. Con los programas de Data Mining pasa lo mismo. Hay programas complicados de usar y otros que son muy simples. Hay algoritmos que dejan claras las razones de sus recomendaciones y otros que son como cajas negras, hay programas que llegan a un resultado en pocos segundos y otros que tardan horas.

Todas las herramientas de Data Mining tienen sus pros y sus contras, pero lo importante es no perder de vista el objetivo principal, así como la tarea principal de Pedro no es analizar a sus clientes, sino venderles lo máximo posible, Data Mining no se trata de analizar datos, se trata de optimizar los negocios, ya sea vendiendo más, ya sea gastando menos.

Una herramienta de Data Mining ideal debería pasar desapercibida. Uno debería gastar el menor tiempo posible preparando datos, y concentrarse en los resultados. Ver el problema desde un punto de vista de negocios y no desde la perspectiva estadística.

La siguiente demostración intenta mostrar que hacer Data Mining no tiene por qué ser complicado.... si se cuenta con la herramienta adecuada.

Demostración online de Data Mining con Powerhouse

2 comentarios:

Unknown dijo...

hola el link del ejemplo no sirve , lo puedes arreglar, estoy empezando con el tema de data mining y me gustaria verlo :)

Marcelo R. Ferreyra dijo...

Gracias Mónica por el aviso. Ya está arreglado el link.

Saludos,

Marcelo