Data Mining basado en Teoría de la Información: La entropía como medida de la información

viernes, 25 de febrero de 2011

La entropía como medida de la información

En el artículo anterior mostré cómo es posible medir la información que un grupo de variables lleva sobre otra y en el artículo sobre Información, incertidumbre y sorpresa expliqué cómo medir la información de una variable.

En este artículo mostraré cómo la entropía también es útil cuando medimos la información de un conjunto de variables.

Supongamos que tenemos dos tablas con 3 variables numéricas con similar distribución cada una (podemos asumir una distribución uniforme o normal).

Supongamos que la primer tabla, que llamaré T1, tiene las variables sin ningún tipo de relación entre ellas, mientras que la tabla T2 contiene algún tipo de relación entre las variables.

Voy a dejar algunas preguntas para que las responda el que lo desee y en breve publicaré las respuestas.

¿Qué tabla contiene más “orden”? ¿La T1 o la T2?

¿Cuál de las dos tablas tendrán una entropía mayor? ¿por qué?

¿Cómo debería ser el tipo de relación para que la entropía sea mínima o máxima?

Asumiendo que cada una de las tres variables lleva algo de información sobre una cuarta variable, ¿qué tabla es preferible para armar un modelo de predicción?

Quedo a la espera de respuestas y/o comentarios.

Gracias

2 comentarios:

Pablo dijo...: Me parece que es lo siguiente:
1) T2 tiene mas orden por haber relación entre las variables
2) T1 tiene mayor entropia porque tiene mas desorden
3) Para que la entropia sea máxima debe haber una correspondencia biunívoca con la salida (mayor variabilidad, mayor incertidumbre, menos información)
4) La T2 es preferible para modelar porque en las variables ves relación; 2 de marzo de 2011, 11:19
Marcelo R. Ferreyra dijo...: Muchas gracias Pablo por tu comentario. La semana que viene publicaré las respuestas.; 3 de marzo de 2011, 3:50