Data Mining basado en Teoría de la Información: ¿Qué es el ruido?

La Teoría de la Información tiene una definición precisa del ruido, pero en este artículo trataré este tema de una manera más informal. Aquel que quiera conocer más acerca de la Teoría de la Información y cómo es posible usarla para medir el ruido y la señal que contienen los datos puede leer Data Mining y Teoría de la Información.

En cualquier tipo de comunicación, el ruido es algo que hay que evitar, ya que ensucia el mensaje que se está transmitiendo.

Cuando nos referimos a un modelo de predicción, podemos asumir que las variables independientes transmiten información sobre la variable dependiente. Dicho de otro modo, existen variables que comunican información que nos será útil para predecir la variable de interés.

Ahora bien, no siempre los modelos alcanzan un alto grado de precisión en sus predicciones debido a distintas razones. Por ejemplo, podría ser que las relaciones entre las variables independientes y la dependiente no sean lineales y la herramienta usada para construir el modelo sólo tenga en cuenta relaciones lineales.

Otra razón que muchas veces escuchamos tiene que ver con el ruido en los datos. Se suele decir que los datos contienen ruido y esto interfiere con la creación de un buen modelo. Pero ¿qué es el ruido?

Podemos definir el ruido como una señal aleatoria que se suporpone a la señal original y confunde al destinatario. Veamos un ejemplo viendo primero una señal sin ruido y luego con rudio superpuesto.

Supongamos que tenemos la siguiente relación entre dos variables

y = x²– x + 2

Una tabla de datos que contenga esta relación tendrá dos variables X e Y. La variable X será la variable independiente e Y la dependiente. Podemos asumir que X transmite información acerca de Y y un buen modelo será capaz de usar la información de X para estimar Y.

Si graficamos esta relación veremos que para cada valor de X existe solamente un valor de Y posible

Los datos podrán contener varios valores de X iguales, por ejemplo, varias filas en donde X es 5, pero en cada una de estas filas, la variable Y tendrá el mismo valor: 22 (que es el resultado de la ecuación dada más arriba).

Supongamos ahora que los datos tienen la siguiente particularidad: para un mismo valor de X pueden existir varios valores de Y. O sea, ahora si existen varias filas en donde X es 5, no necesariamente el valor de Y será en todas ellas 22. Podría ser que en algunas sea 20, en otras 22 y en otras 30.

El gráfico de estos nuevos datos se verá así:

Estos nuevos datos contienen ruido porque para una misma señal (en nuestro ejemplo la señal es el valor de X) existen distintos valores que puede tomar la variable a predecir.

El ruido, así como la información, se mide en bits. Powerhouse mide el ruido que contienen los datos y la información que queda luego de suprimir el ruido. Por ejemplo, si los datos contaminados con ruido son analizados con Powerhouse, resulta que el 58% de la información es ruido, con lo que sólo el 42% servirá para estimar exactamente Y. Dicho de otro modo, un modelo construido con estos datos nunca será lo suficientemente preciso debido a que parte de la información contiene ruido. Es importante notar que no importa el tipo de herramienta usada para construir el modelo. Si los datos contienen ruido, el modelo no será perfecto, y el grado de precisión dependerá justamente del nivel de rudio.

jueves, 11 de octubre de 2007

¿Qué es el ruido?

No hay comentarios:

Datos personales

Más acerca de DM basado en la Teoría de la Información

Etiquetas

Archivo del blog

Links