En este blog se exploran las posibilidades de analizar datos y crear modelos basados en la Teoría de la Información usando Powerhouse

viernes, 16 de septiembre de 2011

La información como marco de referencia (Parte III)

Las variables independientes contienen información. En el ejemplo que estamos analizando llevan en conjunto, 12.16 bits de información (no es necesario conocer cómo calcular este valor pero para aquellos que les interese pueden consultar http://powerhousedm.blogspot.com/2011/09/la-informacion-como-marco-de-referencia.html)
Pero no toda esta información es útil para predecir la variable deseada. De hecho vimos en el artículo anterior que la información útil, la que se transmite, es 0.24 bits.  Entonces, ¿qué sucede con los 11.92 bits restantes? (12.16-0.24=11.92) ¿Dónde fue a parar esta información?
La respuesta tiene que ver con los diferentes patrones de comportamiento que se asocian a un mismo estado o mensaje de salida. Dicho de otro modo, hay varias maneras de decir lo mismo. Esto se denomina técnicamente Equivocación.
Un esquema general de lo visto hasta el momento aclarará este tema
El modelo recibe a través de las variables independientes,  12.16 bits de información.  Parte de esta información se considera Equivocación y parte se Transmite. Ya que se transmiten 0.24 bits, el resto 11.92 bits  se considera Equivocación y nos indica que existen muchos patrones distintos que se asocian con un mismo mensaje de salida.
Siempre se cumple la siguiente ecuación:

Información de Entrada = Información Transmitida + Equivocación

En el ejemplo

12.16 bits = 0.24 bits + 11.92 bits

La información que se necesitaría para predecir sin errores si un cliente se fugará o no, es de 0.39 bits (en los ejemplos anteriores tomamos 0.40). Al canal de transmisión ingresan 0.24 bits provenientes de la entrada más 0.15 bits de Ruido. 

Siempre se cumple la siguiente ecuación:
Información Requerida = Información Transmitida + Ruido
En el ejemplo

0.39 bits = 0.24 bits + 0.15 bits

Para lograr un buen modelo es necesario que las variables seleccionadas contengan la mayor información útil y el menor ruido posible. En el ejemplo, las variables independientes, también llamadas variables de entrada, transmiten 0.24 bits o 61% de la información necesaria para predecir la variable de salida (¿se fuga o no?).  La incertidumbre restante, 0.15 bits o 39% es lo que denominamos Ruido.

En el siguiente artículo veremos que este nuevo enfoque nos permite diseñar un método para seleccionar las variables con mayor información y menor ruido posible.

3 comentarios:

Rodrigo dijo...

Marcelo,
Este enfoque me pareció interesantísimo. A pesar de haber estudiado teoría sobre modelos y técnicas de análisis multivariado, nunca había escuchado acerca de él.
Me gustaría profundizar un poco más en "Teoría de la información" y su aplicación a casos como el que presentás en tu blog. Podrías, por favor, recomendarme algún material de lectura?
No soy de hacer muchos comentarios, pero los artículos de tu blog me resultan de fácil lectura y muy interesantes.
Muchas gracias.
Saludos.

Rodrigo.

Marcelo R. Ferreyra dijo...

Gracias Rodrigo, Dorian Pyle hace un excelente tratamiento del tema en el capítulo 11 de su libro "Data Preparation for Data Mining".

Otra fuente de información es la ayuda del programa Powerhouse, que está disponible para descargar (la ayuda está en Inglés y Español, depende cómo esté configurado el programa). En http://www.dataxplore.com.ar/descargas.php podrás descargar Powerhouse y en http://www.dataxplore.com.ar/tutoriales.php existen varios tutoriales.

Otros artículos de este blog también pueden ser útiles :)

En cuanto a material específico sobre Teoría de la Información, existen muchos libros, algunos de ellos excelentes como "Introduction to Information Theory" de J. Pierce. También podría interesarte la cátedra de Teoría de Información y Codificación de Néstor Barraza en Ingeniería de la UBA (http://materias.fi.uba.ar/6624/)

Saludos,

Marcelo

Rodrigo dijo...

Muchísimas gracias Marcelo!!! seguramente ese material me va a ser muy útil.

Saludos.