Introducción a la Teoría de la...

76
Introducción a la Teoría de la Información Tomás V. Arredondo 8/4/2011

Transcript of Introducción a la Teoría de la...

Page 1: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la Teoría de la Información

Tomás V. Arredondo8/4/2011

Page 2: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la a la Teoría de la Información y Aplicaciones

Contenidos:• Introducción a algunos aspectos de la teoría de la

información (T.I.): información y probabilidades• Entropía• Reseña de algunas aplicaciones en diferentes áreas

incluyendo: Comunicaciones, Encripción y Bioinformática.

Page 3: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la a la Teoría de la Información y Aplicaciones: Introducción

¿Que es la información?• La información como es conocida comúnmente es una

amalgama de muchas nociones vagas e imprecisas que generalmente es medida basada en la cantidad de noticia (o sorpresa) que provee.

¿Que es la teoría de la información?• Serie de las leyes para relacionar determinado orden de

fenómenos relacionados con la comunicación de la información entre su origen y su destino a través de un canal.

Page 4: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la a la Teoría de la Información y Aplicaciones: Introducción

Sistema de Comunicaciones Básico

Origen Canal Destino

Mensaje M Mensaje M’

Page 5: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la a la Teoría de la Información y Aplicaciones: Introducción

¿Cuál es el rol de las probabilidades en las comunicaciones?

• Las probabilidades nos dan una manera de determinar cuantitativamente las características que queremos estudiar en los sistemas (ej. la distribución de la información de un origen, la confiabilidad de un canal, la relación entre el origen y el destino de la información entre otras)

• Las probabilidades están basadas en las frecuencias observables de la ocurrencia de eventos

Page 6: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la a la Teoría de la Información y Aplicaciones: Introducción

Las frecuencias y las probabilidades• Si repetimos un experimento N veces que tiene M diferentes

resultados posibles y contamos el numero de veces que se observan las diferentes posibilidades n1, n2,..., nM entonces podemos determinar la frecuencia de estas observaciones (f1, f2, ..., fM) al dividir n1, n2,..., nM por N.

• Si N → ∞ estas frecuencias son la probabilidad (p1, p2, ..., pM) de ocurrencia del evento y sus valores posibles son entre 0 y 1.

• El siguiente es el caso de tener los eventos A, B, AB (A y B, ambos eventos ocurriendo), A’B’ (ninguno de los dos).

A BA’B’AB

Page 7: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la a la Teoría de la Información y Aplicaciones: Introducción

Las frecuencias y las probabilidades (cont)• Permutaciones: Las permutaciones son el

reordenamiento de objetos o símbolos en secuencias distinguibles:

El numero de permutaciones de n objetos es n!n(n-1)(n-2)...·3·2·10! = 1

La formula para el numero de permutaciones de r objetos seleccionados de un conjunto de n objetos:

Cada uno de los objetos es distinguible de los otros

P n , r = n!n−r !

Page 8: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la a la Teoría de la Información y Aplicaciones: Introducción

Las frecuencias y las probabilidades (cont)• Ejemplo:

Si tengo 6 tarros de pintura de color y una flota de 4 autos (Ferrari, Jaguar, Corvette, Citroen), el numero de permutación posibles para pintar los autos es 6·5·4·3 o usando la formula:

Si alguien eligiera una permutación de colores para su flota al azar la probabilidad de ella seria = 1/360

P n , r =P 6, 4= 6 !6−4!

=360

Page 9: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la a la Teoría de la Información y Aplicaciones: Introducción

Las frecuencias y las probabilidades (cont)• En otras situaciones no nos importa la posición de selección

de los objetos en cuestión. • En ese caso se quieren determinar el numero de las

combinaciones de elegir r objetos de un set de n objetos:

• Estas cantidades se llaman coeficientes binomiales porque fueron estudiados en relación con la expansion de binomiales en los cuales las maneras de seleccionar el numero de las variables es dado por la relación descrita anteriormente

– (a + b)3 = a3 + 3a2b + 3ab2 + b3

– (a + b)3 =

C n , r =nr=n n−1n−2...n−r1r !

= n !n−r ! r !

30a33

1a2b32ab23

3b3

Page 10: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la a la Teoría de la Información y Aplicaciones: Introducción

Las frecuencias y las probabilidades (cont)

• Ejemplo:Si alguien compra 3 tipos de quesos del supermercado de 12 posibles tipos ¿Cual es el numero de combinaciones de compra? No nos importa el orden en que los compramos (e.g. {Gruyere, Suizo, Cabra} se considera la misma combinación que {Suizo, Gruyere, Cabra})

Si nos importara el orden el resultado seria una permutacion: P(12,3) = 12·11·10 = 1320

C 12,3=123 = 12 !

9! 3 !=220

Page 11: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la a la Teoría de la Información y Aplicaciones: Introducción

Las frecuencias y las probabilidades (cont)• Probabilidad condicional Muchas veces es importante saber la probabilidad de un evento (A) basado en información previa sobre otro evento o variable, este otro evento o variable determina el espacio de muestreo (S) que se esta usando y por ende el valor de la probabilidad

La probabilidad de A dado S se escribe: P(A | S}

Page 12: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la a la Teoría de la Información y Aplicaciones: Introducción

Las frecuencias y las probabilidades (cont)• Si se observan el siguiente numero de eventos:

A ocurre, B no ocurre (AB’): n1

B ocurre, A no ocurre (BA’): n2

A y B ocurren (AB): n3

Ni A ni B ocurren (A’B’): n4

A o B o ambos ocurren (A + B): n1 + n2 + n3

El total de los eventos son N: N = n1 + n2 + n3 + n4

Las frecuencias son: f {A} = (n1 + n3)/N, f {B} = (n2 + n3)/N, f {AB} = n3/N,f {A+B} = (n1 + n2 + n3)/N = f {A} + f {B} – f {AB},

La frecuencia que A ocurre si sabemos que B ya ocurrió f {A|B} = n3/(n2 + n3),La frecuencia que B ocurre si sabemos que A ya ocurrió f {B|A} = n3/(n1 + n3),

A BA’B’ AB

AB’ BA’

Page 13: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la a la Teoría de la Información y Aplicaciones: Introducción

Las frecuencias y las probabilidades (cont)• Cuando N tiende a ∞ estas frecuencias tienden a probabilidades:

P{A+B} = P{A∪B} = P{A} + P{B} - P{AB} ≤ P{A} + P{B}

P{AB} = P{A∩B} = P{A} P{B|A}

P{AB} = P{A∩B} = P{B} P{A|B}

P{A|B} = P{AB}/P{B}, P{B}≠0

P{B|A} = P{AB}/P{A}, P{A}≠0

• Para eventos A y A’ (inversos)P{A+A’}= 1P{AA’} = 0

Page 14: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la a la Teoría de la Información y Aplicaciones: Introducción

Las frecuencias y las probabilidades (cont)

Ejemplo:• Se saca una carta de un mazo de cartas:

A = Sale una carta roja, B = sale un rey, AB = sale un rey rojo, A + B = sale un rey o sale una carta roja

Prob{A} = 1/2, Prob{B} = 1/13, Prob{AB} = (1/13)(1/2)= 1/26Prob{A + B} = Prob{A} + Prob{B} – Prob{AB} = 1/2 +1/13 – 1/26 = 7/13

Page 15: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la a la Teoría de la Información y Aplicaciones: Introducción

Las frecuencias y las probabilidades (cont)

Ejemplo:• Si estamos tirando dos dados y tenemos los siguientes eventos:

A = Dado 1 sale 3,B = dado 2 sale 1,C = la suma de ambos da 8.

• Probs. apriori (antes de tener mas datos): P{A} = P{B} = 1/6, P{C} = 5/36

• Probs. conjuntas: P{A ∩ Β} = 1/36, P{A ∩ C} = 1/36, P{B ∩ C} = 0/36

• Probs. condicional: P{C | Β} = 0, P{C | A} = 1/ 6, P{B | A } = P{B} dado que A y B son independientes.

Page 16: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la a la Teoría de la Información y Aplicaciones: Introducción

Las frecuencias y las probabilidades (cont)

• Si el evento A y B son independientes P{A|B} = P{A} P{B|A} = P{B} P{A+B} = P{A∪B} = P{A} + P{B} P{AB} = P{A∩B} = P{A} P{B}

A BA’B’

AB’ BA’

Page 17: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la a la Teoría de la Información y Aplicaciones: Introducción

Las frecuencias y las probabilidades (cont)

Ejemplo:• Se tiran dos dados, uno rojo y uno blanco:

A = Dado rojo sale uno, B = Dado blanco sale seisAB = dado rojo sale uno y dado blanco sale seisA + B = dado rojo sale uno o dado blanco sale seis

Prob{A} = P{A|B} = 1/6, Prob{B} = P{B|A} = 1/6, Prob{AB} = (1/6)(1/6)= 1/36Prob(A + B) = 1/6 + 1/6 = 1/3

Page 18: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la a la Teoría de la Información y Aplicaciones: Introducción

Las frecuencias y las probabilidades (cont)• Si el evento A y B son excluyentes:

P{AB} = {∅}

Ejemplo:• Se tira un dado:

A = el dado sale 1, B = el dado sale 2AB = el dado sale 1 y el dado sale 2A+B = el dado sale 1 o el dado sale 2

Prob{A} = 1/6, Prob{B} = 1/6, Prob{AB} = {∅}Prob{A+B} = 1/6 + 1/6 = 1/3

Page 19: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la a la Teoría de la Información y Aplicaciones: Introducción

Función Discreta de Probabilidad (PDF) y Función Cumulativa de Probabilidad (CDF)

Si se tiene un experimento aleatorio y los resultados se pueden poner en correspondencia con un numero deenteros positivos entonces ese numero de enteros se denomina un espacio de muestreo discreto.

En un espacio discreto de muestreo, cuando la variable aleatoria X asume valores {x

1, x

2, x

3,...,x

k} la función

discreta de probabilidad f(x) se define como: {p

1,p

2, p

3,...,p

k} en el cual f(x

k) = Prob{X = x

k} = x

k

La función cumulativa de probabilidad se define como:F x =∑

x jxf x j

Page 20: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la a la Teoría de la Información y Aplicaciones: Introducción

Función Discreta de Probabilidad (PDF) y Función Cumulativa de Probabilidad (CDF) (cont)

Ejemplo: • Se tira una moneda repetidamente hasta que sale una cara

X = La moneda sala cara por primera vez en el tiro kX = {1, 2, 3,...,k}PDF: f = {1/2, 1/4, 1/8, ..., 2-k}CDF: F(x) = 2-1 + 2-2 + ... + 2-x

x

f(x)

1 2 3 4 50

.125

.25

.375

.5

F(x)

1 2 3 4 50

.125

.5

.625 1

x

Page 21: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la a la Teoría de la Información y Aplicaciones: Introducción

Funciones Discretas de Multiples Variables

En la mayoría de los problemas en ingeniería es importante saber la distribución entre multiples variables aleatorias. Esto puede ser para por ejemplo saber el comportamiento de un sistema con inputs (X) y outputs (Y). Para estudiar esto se formaliza la idea de una distribución discreta multivariable.Si se tienen dos variables aleatorias X e Y entonces la PDF y CDF se definen de esta forma:

PDF: f(x, y) = Prob{X = x, Y= y}CDF:

Se denominan probabilidades marginales cuando solo se considera solo una de las dos variables sin consideración por la otra.

F x , y = ∑x jx yk y

f x j , yk

Page 22: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la a la Teoría de la Información y Aplicaciones: Introducción

Funciones Discretas de Multiples Variables (cont)

Distribución (probabilidad) marginalLa distribución marginal de una matrix (n x m) de probabilidades se calculansegún:

• P( X = i) = Σj(p

ij) = p

i1 + p

i2 + ... + p

in,

• P( Y = j) = Σi(p

ij) = p

1j + p

2j + ... + p

mj

Ejemplo:

P( X = 1) = p11

+p12

+p13

+p14

= 4/16 = 1/4

P( Y = 2) = p12

+p22

+p32

+p42

= 5/16 [216

116

116

016

116

216

116

036

016

116

216

116

016

116

116

216]X=

1

2

3

4

1 2 3 4 Y=

4/16

4/16

4/16

4/16

3/16 5/16 5/16 3/16

Page 23: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la a la Teoría de la Información y Aplicaciones: Introducción

Funciones Discretas de Multiples Variables (cont)

Ejemplo: Un sistema con input (X) y output (Y). ¿Cual es la Prob{ 3 ≤ X ≤ 5, 2 ≤ Y ≤ 3 } y las probabilidades marginales de X e Y? Probabilidad de cada punto en la muestra: P{X=i, Y=j} = 1/36

P{ 3 ≤ X ≤ 5, 2 ≤ Y ≤ 3 } = 6/36 = 1/6

Probabilidades marginales:P{ 3 ≤ X ≤ 5} = 18/36 = 1/2P{ 2 ≤ Y ≤ 3} = 12/36 = 1/3

X e Y son independientes, ya que todos los valores del arreglo 1/36 = (1/6)(1/6)

[136

136

136

136

136

136

136

136

136

136

136

136

136

136

136

136

136

136

136

136

136

136

136

136

136

136

136

136

136

136

136

136

136

136

136

136

]X=

1

2

3

4

5

6

1 2 3 4 5 6 Y=

1/6

1/6

1/6

1/6

1/6

1/6

1/6 1/6 1/6 1/6 1/6 1/6

Page 24: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la Teoría de la Información y Aplicaciones: n v/s log n

¿Como se usan las probabilidades en las comunicaciones?

• Si se quieren comparar fuentes y canales de datos, se pueden usar medidas de las diferencias entre ellos

• Estas medidas nos pueden dar un reflejo del tipo de fuente y del tipo de canal que se esta estudiando

X YSistema de

comunicaciones

Page 25: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la Teoría de la Información y Aplicaciones: n v/s log n

¿Como se usan las probabilidades en las comunicaciones?

Ejemplo: Binary Symmetric Channel (BSC), un modelo de un canal simple pero que incluye gran parte de la complejidad del problema de comunicaciones en general.

Nos interesa P{Y|X}, mas específicamente:

P{0|0} = P{1|1} = p, P{1|0} = P{0|1} = qX Y

0

1 1

0p

p

qq

Page 26: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la Teoría de la Información y Aplicaciones: n v/s log n

¿Como se usan las probabilidades en las comunicaciones?

Ejemplo: Binary Erasure Channel (BEC)

Para el BEC P{0|0} = P{1|1} = p, P{z|0} = P{z|1} = q

X

z

0 0

1 1

p

pqq

Y

Page 27: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la a la Teoría de la Información y Aplicaciones: Introducción

Funciones Discretas de Multiples Variables (cont)

Probabilidades Condicionales

Considere una matrix de probabilidades para dos variables aleatorias X, Yrepresentando un transmisor y un receptor: ¿Como se calcula la probabilidad de X dado Y: P( X | Y } o Y dado X: P( Y | X } ?

• P{ X = i | Y = j

) = p(x

i | y

j) = p(x

i , y

j) / Σ

i(p

ij)

• P{ Y = j | X = i )= p(y

j | x

i) = p(x

i , y

j) / Σ

j(p

ij)

Ejemplo: P( X = 1| Y = 2) = p(x

1 , y

2) / Σ

i(p

i2) = (1/16) / (5/16) = 1/5

P( Y = 3| X = 3) = p(x3 , y

3) / Σ

j(p

3j) = (2/16) / (4/16) = 1/2

[216

116

116

016

116

216

116

036

016

116

216

116

016

116

116

216]X=

1

2

3

4

1 2 3 4 Y=

4/16

4/16

4/16

4/16

3/16 5/16 5/16 3/16

Page 28: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la a la Teoría de la Información y Aplicaciones

Contenidos:• Introducción a algunos aspectos de la teoría de la

información (T.I.): información y probabilidades• Entropía• Reseña de algunas aplicaciones en diferentes áreas

incluyendo: Comunicaciones, Encripción y Bioinformática.

Page 29: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la Teoría de la Información y Aplicaciones: log n v/s Entropía

La entropía H(X)H(X) es una medida de la incertidumbre o de la información promedio que nos provee una variable aleatoria (o grupo devariables aleatorias)• La selección de un evento de dos posibles eventos de igual

probabilidad requiere 1 bit de información• La selección de un evento de cuatro posibles eventos de

igual probabilidad requiere 2 bits de información• ...etc...

Page 30: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la Teoría de la Información y Aplicaciones: log n v/s Entropía

La entropia H(X) (cont)

• Si tenemos un espacio de muestreo dividido en 2N eventos que son igualmente probables E

k (k = 1, 2, ..., 2N) entonces

la información (en bits) proveida por el evento Ek

es:

NN =−=−= −2log)log(p )I(E kk

Page 31: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la Teoría de la Información y Aplicaciones: log n v/s Entropía

La entropia H(X) (cont)

• La información promedio dada por una variable aleatoria X que representa un sistema finito de probabilidades entonces es:

H(X) cumple con varios requisitos:– Continuidad– Simetría– Extrema: cuando todos los eventos son equiprobables

H(X) tiene que ser máximo, cuando uno es el unico probable H(X) tiene que ser mínimo

– Aditiva

)(plog p )I(E H(X) k21

kk ∑=

−==n

k

Page 32: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la Teoría de la Información y Aplicaciones: n v/s log n

La entropia H(X): ¿porque nlogn como medida?

• Si se tiene un sistema con por ejemplo n diferentes opciones de transmisión

• Y si se quiere tener una medida basada en esas opciones para poder diferenciar un sistema de otro o para diseñar sistemas en el cuales el origen, el canal y el destino estuvieran bien dimensionados.

• ¿Podría usarse por ejemplo el numero de estados ncomo medida de las opciones disponibles?

Page 33: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la Teoría de la Información y Aplicaciones: n v/s log n

La entropia H(X): n, una posible medida de un sistema probabilistico

Ejemplo: Un sistema de comunicaciones Morse en el cual se pueden mandar tres diferentes combinaciones de claves.

• En nuestro ejemplo cada una de las tres claves tiene dos posibles estados (raya y punto).

Page 34: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la Teoría de la Información y Aplicaciones: n v/s log n

La entropia H(X): n, una posible medida de un sistema probabilistico

• Ejemplo (cont):

• Asumiendo que todos los estados son equiprobables las probabilidades son:P{cl1=raya} = P{cl1=punto} = P{cl2=raya} = P{cl2=punto} =P{cl3=raya} = P{cl3=punto} = ½

• En nuestro ejemplo el sistema visto como conjunto tiene ocho posibles estados (raya-raya-raya, raya-raya-punto,…, punto-punto-punto, 23=8) pero las tres claves como componentes del sistema nos da seis posibles estados (2+2+2=6).

Page 35: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la Teoría de la Información y Aplicaciones: n v/s log n

...8-..7.-.6--.5..-4-.-3.--2---1Clave 3Clave 2Clave 1Estado

Page 36: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la Teoría de la Información y Aplicaciones: n v/s log n

La entropia H(X): n, una posible medida de un sistema probabilistico

• El numero de estados (n) para el sistema es ms = 8, para cada clave mc1=mc2=mc3= 2

• Una cualidad deseable en cualquier medida es que se puedan sumar los estados de los componentes del sistema y que esta suma sea igual a los estados del sistema completo → mc1 + mc2 + mc3 = ms

• Pero 2 + 2 + 2 ≠ 8 Entonces simplemente usar n no funciona… ¿Qué hacer?

• Afortunadamente una manera de transformar productos de números a sumas es usando el logaritmo.

Page 37: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la Teoría de la Información y Aplicaciones: n v/s log n

La entropia H(X): log n, otra posible medida de sistema probabilistico

• log2n tiene la capacidad requerida de nuestra medida ya que: log2(2) + log2(2) + log2(2) = log2(8)

• Entonces usando nuestra nueva medida m = log2(n)• Para el sistema entero log2(ns) = log2(8) y para cada

clave log2(nc1)= log2( nc2) = log2( nc3) = log2(2)• Esta nueva medida si tiene esta cualidad deseada

(propiedad aditiva) → mc1 + mc2 + mc3 = ms

• Típicamente se usa la base 2 para el logaritmo especialmente en sistemas binarios. En este caso la unidad de información de sistemas binarios se llama bit que es una contracción de “binary unit”.

Page 38: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la Teoría de la Información y Aplicaciones: log n v/s Entropía

La entropia H(X): Sistemas con probabilidades distintas

• En sistemas en los cuales las probabilidades de los componentes transmitidos en mensajes no son equiprobables, entonces es necesario ampliar nuestra medida (log2(n)).

• Esta medida se llama entropía se usa el símbolo H para designarla.

Page 39: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la Teoría de la Información y Aplicaciones: log n v/s Entropía

La entropia H(X): Sistemas con probabilidades distintas

• No se pueden sumar las contribuciones de los diferentes componentes de manera igual ya que en sistemas reales los componentes de los mensajes tienen diferentes frecuencias y probabilidades.

• Incluir esas probabilidades es esencial para que nuestra medida mida las contribuciones de las diferentes opciones en nuestro mensajes de manera mas realista.

Page 40: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la Teoría de la Información y Aplicaciones: log n v/s Entropía

La entropia H(X): Sistemas con probabilidades distintas

• Ejemplo: Sistema morse

Si {P(raya) = .1 y P(punto) = .9} se puede decir que la información promedio contribuida por una raya es

Prayalog(Praya) y la información promedio contribuida por un punto es

Ppuntolog(Ppunto).

Page 41: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la Teoría de la Información y Aplicaciones: log n v/s Entropía

La entropia H(X): Sistemas con probabilidades distintas

• Asumiendo que X = {raya, punto}, P(raya)=.1, P(punto)=.9, x es una variable aleatoria del espacio X, N es la cantidad de opciones igual a 2 (raya o punto).

• H(X) deberia tender a 0 cuando P(xn) tiende a cero o a 1

ya que eso indica certeza en el mensaje y al haber certeza no hay incertidumbre (una pista: -P(x

n)logP(x

n)

tiende a cero cuando P(xn) es cero o uno).

• El valor máximo de H(X) es cuando P(xn) = 1/N = ½

indicando mayor incertidumbre en el mensaje y más información transmitida sobre el sistema (propiedad extrema).

Page 42: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la Teoría de la Información y Aplicaciones: log n v/s Entropía

La entropia H(X): Sistemas con probabilidades distintas

• Si el numero de posibles resultados equiprobables se incrementa entonces la entropía también se incrementa.

• También nos interesa que esta función H(X) tenga simetría con respecto a la probabilidades de izquierda a derecha

• H(X) debiera ser concava hacia abajo (limitada) y continua• Para que cumpla con estos requerimientos, la entropía se

define de la siguiente forma:

∑−=i

ii )log(pp H(X)

Page 43: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la Teoría de la Información y Aplicaciones: log n v/s Entropía

Medidas

-8

-6

-4

-2

0

2

4

6

8

0

0.07

0.14

0.21

0.28

0.35

0.42

0.49

0.56

0.63 0.7

0.77

0.84

0.91

0.98

Probabilidad P

Valo

res log(P)

-log(P)-Plog(P)

Page 44: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la Teoría de la Información y Aplicaciones: log n v/s Entropía

Medidas

0

0.1

0.2

0.3

0.4

0.5

0.6

00.0

40.0

80.1

20.1

6 0.2 0.24

0.28

0.32

0.36 0.4 0.4

40.4

80.5

20.5

6 0.6 0.64

0.68

0.72

0.76 0.8 0.8

40.8

80.9

20.9

6 1

Probabilidad P1

Valo

res

-P1log(P1)

Page 45: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la Teoría de la Información y Aplicaciones: log n v/s Entropía

Medidas

0

0.1

0.2

0.3

0.4

0.5

0.6

10.9

60.9

20.8

80.8

4 0.8 0.76

0.72

0.68

0.64 0.6 0.5

60.5

20.4

80.4

4 0.4 0.36

0.32

0.28

0.24 0.2 0.1

60.1

20.0

80.0

4 0

Probabilidad P2

Valo

res

-P2log(P2)

Page 46: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la Teoría de la Información y Aplicaciones: log n v/s Entropía

Medidas

0

0.2

0.4

0.6

0.8

1

1.2

0

0.04

0.08

0.12

0.16 0.

2

0.24

0.28

0.32

0.36 0.

4

0.44

0.48

0.52

0.56 0.

6

0.64

0.68

0.72

0.76 0.

8

0.84

0.88

0.92

0.96 1

Probabilidad P1 (P2 = 1 - P1)

Valo

res

H(x

)

H(x)=-P1log(P1)-P2log(P2)

Page 47: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la Teoría de la Información y Aplicaciones: Entropía

Ejemplos H(X):

• Si P(raya) = .1, P(punto) = .9:H(X) = -(.1log20.1 + .9log2.9) = 0.476 bits

• Si P(raya) = .9, P(punto) = 0.1:H(X) = -(.9log2.9 + .1log2.1) = 0.476 bits {simetría}

• Si P(raya) =.5 y P(punto)=.5:H(X) = -(.5log2.5 + .5log2.5) = 1.0 bits {P=(1/N) → H(x)Máx}

• Si P(raya) =0 y P(punto)=1:H(x) = -(0log20 + 1log21) = 0 bits {P=(1) → H(x)Min=0}

Page 48: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la Teoría de la Información y Aplicaciones: Entropía

Conclusion:¿Que es la entropía?• La entropía H(X) mide la información o incertidumbre

promedio de una variable aleatoria X (o sistema representado por X).

Page 49: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la Teoría de la Información y Aplicaciones: Entropía

Entropías a considerar en un sistema

Igual que cuando se estudio las probabilidades en el caso de tener dos variables aleatorias (Ej: transmisor X y receptor Y) se consideran las siguientes entropías para medir relaciones entre las variables:

H(X) : Información o entropia por carácter en el transmisor (en bits)H(Y) : Información o entropia por carácter en el receptor (en bits)H(X,Y) : Información o entropia por par de caracteres transmitidos y recibidos (en bits)H(Y| X) : Información o entropia condicional sobre el receptor Y sabiendo que X = i

fue transmitido (en bits)

H(X| Y) : Información o entropia condicional sobre el transmisor sabiendo que Y = j

fue recibido, también conocido como equivocación (en bits)

Page 50: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la Teoría de la Información y Aplicaciones: Entropía

Ejemplo: Entropías a considerar en un sistema

p(X=1)=0.25, p(X=2)=0.4, p(X=3)=0.15, p(X=4)=0.15, p(X=5)=0.05p(Y=1)=0.35, p(Y=2)=0.35, p(Y=3)=0.20, p(Y=4)=0.1

p( x1| y

1) = p(x

1, y

1) / Σ

i(p

i1)

=0.25/0.35 = .714

p( y1| x

1) = 0.25/0.25 = 1

p( y2| x

3) = 0.05/0.15 = .333

H(X) = -0.25 log 0.25 – 0.1 log 0.4 – 0.3 log 0.4 – 0.05 log 0.15 - 0.1log 0.15 – 0.05 log 0.15 – 0.1 log 0.15 – 0.05 log 0.05 = 2.066 bits

Equivalentemente:H(X) = -0.25 log 0.25 – 0.4 log 0.4 – 0.15 log 0.15 – 0.15 log 0.15 – 0.05 log 0.05

= 2.066 bits

[ 0.25 0 0 00.1 0.3 0 00 0.05 0.1 00 0 0.05 0.10 0 0.05 0

]X=

12345

1 2 3 4 Y=

0.250.40.150.150.05

0.35 0.35 0.20 0.1

H X =−∑i∑jp x , y log pX=i =−∑

ipX=i log p X= i

Page 51: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la Teoría de la Información y Aplicaciones: Entropía

Ejemplo: Entropías a considerar en un sistema

H(Y) = -0.25 log 0.35 – 0.1 log 0.35 – 0.3 log 0.35 – 0.05 log 0.35 – 0.1log 0.2 – 0.05 log 0.2 – 0.05 log 0.20 – 0.1 log 0.1 = 1.856 bits

Equivalentemente:H(Y) = -0.35 log 0.35 – 0.35 log 0.35 – 0.2 log 0.2 – 0.1 log 0.1 = 1.856 bits

H(X, Y) = -0.25 log 0.25 – 0.1 log 0.1 – 0.3 log 0.3 – 0.05 log 0.05 – 0.1log 0.1 – 0.05 log 0.05 – 0.1 log 0.1 – 0.5 log 0.5 = 2.665 bits

[ 0.25 0 0 00.1 0.3 0 00 0.05 0.1 00 0 0.05 0.10 0 0.05 0

]X=

12345

1 2 3 4 Y=

0.250.40.150.150.05

0.35 0.35 0.20 0.1

H X ,Y =−∑i∑jp x , y log p x , y

H Y =−∑i∑jp x , y log p Y= j =−∑

jpY= j log pY= j

Page 52: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la Teoría de la Información y Aplicaciones: Entropía

Ejemplo: Entropías a considerar en un sistema (cont)

H(X | Y) = -p(x1,y

1) log p(x

1|y

1) - p(x

2,y

1) log p(x

2|y

1) - p(x

2,y

2) log p(x

2|y

2)

- p(x3,y

2) log p(x

3|y

2) - p(x

4,y

3) log p(x

4|y

3) - p(x

4,y

4) log p(x

4|y

4)

- p(x5,y

3) log p(x

5|y

3) - p(x

5,y

4) log p(x

5|y

4)

= 0.809 bits

Equivalentemente:H(X | Y) = 0.35 H(0.25/0.35, 0.1/0.35) + 0.35 H(0.3/0.35, 0.05/0.35) + 0.2 H(0.1/0.2, 0.05/0.2, 0.05/0.2) + 0.1 H(0.1/0.1) = 0.809 bits [ 0.25 0 0 0

0.1 0.3 0 00 0.05 0.1 00 0 0.05 0.10 0 0.05 0

]X=

12345

1 2 3 4 Y=

0.250.40.150.150.05

0.35 0.35 0.20 0.1

H X∣Y =−∑i∑jp X=i ,Y= j log p x∣y=∑

jp Y= j H X∣Y= j

Page 53: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la Teoría de la Información y Aplicaciones: Entropía

Ejemplo: Entropías a considerar en un sistema (cont)

H(Y | X) = - p(y1,x

1) log p(y

1|x

1) - p(y

1,x

2) log p(y

1|x

2) – p(y

2,x

2) log p(y

2|x

2)

- p(y2,x

3) log p(y

2|x

3) - p(y

3,x

3) log p(y

3|x

3) - f(y

3,x

4) log p(y

3|x

4)

- f(y3,x

4) log p(y

3|x

4) - p(y

3,x

5) log p(y

3|x

5)

= 0.6 bits

Equivalentemente:H(Y | X) = 0.25 H(0.25/0.25) + 0.4 H(0.1/0.4,0.3/0.4) + 0.15 H(0.05/0.15, 0.1/0.15) + 0.15 H(0.05/0.15, 0.1/0.15) + 0.05 H(0.05/0.05) = 0.6 bits [ 0.25 0 0 0

0.1 0.3 0 00 0.05 0.1 00 0 0.05 0.10 0 0.05 0

]X=

12345

1 2 3 4 Y=

0.250.40.150.150.05

0.35 0.35 0.20 0.1

H Y∣X =−∑i∑jp X=i ,Y= j log p y∣x =∑

ip X=i H Y∣X=i

Page 54: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la Teoría de la Información y Aplicaciones: Entropía

Ejemplo: Entropías a considerar en un sistema (cont)

Hay que notar que H(x,y) < H(X) + H(Y) 2.665 < 2.066 + 1.856

y que: H(X,Y) = H(Y) + H(X|Y) = H(X) + H(Y|X) 2.665 = 1.856 + 0.809 = 2.066 + 0.600

H(X, Y)

H(X) H(Y | X)

H(X, Y)

H(X | Y) H(Y)

Page 55: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la Teoría de la Información y Aplicaciones: Entropía

Información Mutua

La información mutua I(X;Y) es una medida de la información proveida por los pares de símbolos (x,y), la relación entre I(X;Y) y la entropia es:

H(X,Y) = H(X) + H(Y | X) = H(Y) + H(X | Y) H(X,Y) = H(X) + H(Y) - I(X;Y)I(X;Y) = H(X) – H(X | Y)I(X;Y) = H(Y) – H(Y | X)

I(X;Y) mide la dependencia entre el input X y el output Y, o la informacióntransmitida por el canal, es positiva y simétrica en X y Y.

H(X, Y)

I(X;Y)H(X | Y) H(Y | X)

H(X) H(Y)

Page 56: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la Teoría de la Información y Aplicaciones: Entropía

Información Mutua

La capacidad de un canal definida por Shannon es C = max I(X;Y),max I(X;Y) es cuando la incertidumbre de lo que se transmitió (X) dado Y es zero o cuando la incertidumbre de recibir Y dado X es zero:Si I(X;Y) = H(X) – H(X | Y), cuando H(X | Y) = 0 → max I(X;Y) = CSi I(X;Y) = H(Y) – H(Y | X), cuando H(Y | X) = 0 → max I(X;Y) = C

H(X, Y)

H(X) H(Y | X) = H(Y)

H(X, Y)

H(Y | X) maxima H(Y | X) “grande”

H(X, Y) H(X, Y)

H(X) = H(Y) = H(X, Y) = I(X;Y)

H(Y | X) “chica” H(Y | X) = 0

I(X;Y)=0 I(X;Y) I(X;Y)

Page 57: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la Teoría de la Información y Aplicaciones: Entropía

Información Mutua (cont)

Para un canal libre de ruido (canal perfecto):

p( x1| y

1) = 0.25/0.25 = 1 , p( x

2| y

2) = 0.25/0.25 = 1

p( x3| y

3) = 0.25/0.25 = 1 , p( x

4| y

4) = 0.25/0.25 = 1

p( y1| x

1) = 0.25/0.25 = 1 , p( y

2| x

2) = 0.25/0.25 = 1

p( y3| x

3) = 0.25/0.25 = 1 , p( y

4| x

4) = 0.25/0.25 = 1

todos los otros f(x | y) y f(y | x) son zero

H(X, Y) = –0.25 log 0.25 –0.25 log 0.25 –0.25 log 0.25 –0.25 log 0.25 = 2 bits

[0.25 0 0 00 0.25 0 00 0 0.25 00 0 0 0.25]X=

1234

1 2 3 4 Y=

0.250.250.250.25

0.25 0.25 0.25 0.25

H X ,Y =−∑x∑yp x , y log p x , y

Page 58: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la Teoría de la Información y Aplicaciones: Entropía

Información Mutua (cont)

H(X) = –0.25 log 0.25 –0.25 log 0.25 –0.25 log 0.25 –0.25 log 0.25 = 2 bits

H(Y) = –0.25 log 0.25 –0.25 log 0.25 –0.25 log 0.25 –0.25 log 0.25 = 2 bits

H(Y | X) = - 0.25log1 – 0.25log1 -0.25log1 -0.25log1 = 0

similarmente H(X | Y) = 0

Para este canal libre de ruido : I(X;Y) = H(X) = H(Y) = H(X,Y) = 2 bits

[0.25 0 0 00 0.25 0 00 0 0.25 00 0 0 0.25]X=

1234

1 2 3 4 Y=

0.250.250.250.25

0.25 0.25 0.25 0.25

Page 59: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la Teoría de la Información y Aplicaciones: Entropía

Información Mutua (cont)Para un canal con inputs y output independientes:

H(X) = H(X|Y) = 1, H(Y) = H(Y|X) = 1, H(X,Y) = 2 I(X;Y)= H(X) – H(X|Y) = 1 – 1 = 0 bits = H(Y) – H(Y|X) = 1 – 1 = 0 bits

Para un canal libre de ruido (canal perfecto): H(X) = 1, H(Y) = 1, H(X,Y) = 1, H(X|Y) = 0, H(X|Y) = 0

I(X;Y)= H(X) – H(X|Y) = 1 – 0 = 1 bit = H(Y) – H(Y|X) = 1 – 0 = 1 bit

H(X, Y)

H(X) = H (X | Y) H(Y | X) = H(Y)

H(Y | X) = H(Y) (maxima)

I(X;Y)=0

[0.50 00 0.50 ]X=1

2

1 2 Y=

0.50.5

0.5 0.5

[0.25 0.250.25 0.25 ]X=1

2

1 2 Y=

0.50.5

0.5 0.5

H(X, Y)

H(X) = H(Y) = H(X, Y)=I(X;Y)

H(Y | X) = 0

Page 60: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la Teoría de la Información y Aplicaciones: Entropía Relativa

¿Que es la entropía relativa ?• La entropía relativa es una medida de la distancia o divergencia

entre dos funciones de probabilidad p(x) y q(x). También es conocida como distancia Kullback Leibler (KL1 y KL2).

• La medida Jensen/Jeffreys (simétrica) es la suma de KL1 y KL2 :J = KL1 + KL2.

• Hay muchas otras medidas de divergencia aparte de KL1, KL2 y J.

∑==i

iii )p/log(qq q)|D(pKL2

∑==i

iii )q/log(pp q)|D(pKL1

Page 61: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la Teoría de la Información y Aplicaciones: Entropía Relativa

Ejemplos de H(x), KL1, KL2 y J:

Hay dos dados (los dos están arreglados!) y por consecuencia dos variables aleatoria X e Y con los siguientes valores y probabilidades.Posibles eventos : X = [1, 2, 3, 4, 5, 6], Y = [1, 2, 3, 4, 5, 6]Ejemplo 1: Funciones de probabilidades discreta: f(x) = {px1, px2, px3, px4, px5, px6} = {1/3,1/3,1/12,1/12,1/12,1/12},f(y) = {py1, py2, py3, py4, py5, py6} = {1/12,1/12,1/6,1/6,1/6,1/3}

Y

f(y)

1 2 3 4 5 60

1/12

2/12

4/123/12

X

f(x)

1 2 3 4 5 60

1/12

2/12

4/123/12

Page 62: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la Teoría de la Información y Aplicaciones: Entropía Relativa

Ejemplo de H(x), KL1, KL2 y JS (cont):

H(X) = -(1/3log21/3+1/3log21/3+...+1/12log21/12) = 2.2516H(Y) = -(1/12log21/12+1/6log21/6+...+1/3log21/3) = 2.5157KL1 = D(X | Y) = 0.833KL2 = D(X | Y) = 1.333

J = KL1 + KL2 = 2.16666

Ejemplo 2:

f(x) = {1/12,1/12,1/6,1/6,1/6,1/3} f(y) = {1/3,1/3,1/12,1/12,1/12,1/12} ,KL1 = D(X | Y) = 1.333KL2 = D(X | Y) = 0.833

J = KL1 + KL2 = 2.16666

KL1 y KL2 no son simétricas pero J si lo es.

Page 63: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la a la Teoría de la Información y Aplicaciones

Contenidos:• Introducción a algunos aspectos de la teoría de la

información (T.I.): información y probabilidades• Entropía• Reseña de algunas aplicaciones en diferentes áreas

incluyendo: Comunicaciones, Encripción y Bioinformática.

Page 64: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la Teoría de la Información y Aplicaciones: Aplicaciones

Comunicaciones• La T.I. es muy importante en el continuo desarrollo de

las comunicaciones. • Un canal de comunicaciones es un sistema en el cual el

output (M’) depende probabilisticamente del input (M).• La entropía H(x) mide la incertidumbre de una variable

aleatoria (X). • Para medir la incertidumbre de un canal de

comunicaciones se usa una medida llamada la información mutual I(X;Y) = H (X) – H(X|Y).

Page 65: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la a la Teoría de la Información y Aplicaciones: Introducción

Sistema de Comunicación

Codificador Canal De-codificador

Mensaje M Mensaje M’

DestinoOrigen

Page 66: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la Teoría de la Información y Aplicaciones: Aplicaciones

Comunicaciones• I(X;Y) mide la dependencia entre el input X y el output Y

es positiva y simétrica en X y Y.• La capacidad de un canal es C=max I(X;Y); max I(X;Y)

es cuando la incertidumbre de lo que se transmitió (X) dado Y es zero : H(X|Y) = 0 → C=max I(X;Y).

Page 67: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la Teoría de la Información y Aplicaciones: Aplicaciones

Comunicaciones• Claude Shannon demostró que la información puede

ser transmitida con fiabilidad hasta el ritmo permitido por la capacidad del canal C. Esta fiabilidad era independiente del ritmo de la transmisión siempre que fuera menor que C.

• El teorema de codificación de canales de Shannon prometió la existencia de códigos que permitirían la transmisión de información a velocidades mas rapidas.Algunos codigos que usaron estas ideas son los codigos de Hamming y Reed-Solomon.

Page 68: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la Teoría de la Información y Aplicaciones: Aplicaciones

Criptografía• La teoría de la información también es usada en otras

áreas como la encriptación.• Usando M como el mensaje, C como el cypher texto, K

como la llave para la encriptación. • La situación corresponde al sistema de comunicaciones

pero con agregando seguridad a la informacion transmitida.

Page 69: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la a la Teoría de la Información y Aplicaciones: Introducción

Sistema de Encriptación

Encriptor Canal Decriptor

Mensaje M Mensaje M’

DestinoOrigen

Generador de llaves

K K

Interceptor(e, K, C)

C=e(M,K)

Page 70: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la Teoría de la Información y Aplicaciones: Aplicaciones

Criptografía• Shannon describió la equivocación de la llave H(K | C) el

cual mide la incertidumbre promedio de una llave K cuado un criptograma C ha sido interceptado.

• Conceptos de la teoría de la información han sido usado en procesos y algoritmos como PGP, RSA, DES y otros.

• Gracias a estos algoritmos existe el internet como se conoce hoy.

Page 71: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la Teoría de la Información y Aplicaciones: Aplicaciones

Bioinformática• Los conceptos de divergencia (Kullback Leibler) entre

distribuciones ha sido usado en la Bioinformática para la detección de patrones en secuencias de ADN.

• Estas secuencias son un patrón estocástico que puede ser considerado como un generador ergodico de caracteres.

• Los caracteres usados en el ADN son el A, T, C, y G.• Usando métodos basados en la Teoría de la Información

es posible mejorar el análisis de codones (tripletes de ADN que generan proteínas), motifs (grupos de caracteres que tienen una significancia biológica) y otros relieves de interés.

Page 72: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la Teoría de la Información y Aplicaciones: Aplicaciones

Ejemplo: Usando la diferencia en sus estadísticas se han creado medidas para medir la divergencia entre de codones y nocodones.

• Usando un indicador (pointer) se calculan las frecuencias de los doce diferentes nucleótidos (A0, T0, C0, G0, A1, T1, C1, G1, A2, T2, C2, G2) a la izquierda y derecha del indicador

• Se usan las doce frecuencias a la izquierda como p:(fiA0,...fiG2) y las otras doce como q: (fdA0,...,fdG2)

• Se usan diferentes medidas (KL1, KL2, ...) para calcular D(p | q) y detectar codones y no codones.

• Hay muchas (mas de treinta) diferentes medidas que pueden ser usadas con estos propósitos.

Page 73: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la Teoría de la Información y Aplicaciones: Aplicaciones

Bioinformatica

Medida Kullback Leibler 1 (KL1) y KL2

)p/plog(PIKL 2112,12,1 ∑−==

)p/plog(PIKL 1221,21,2 ∑−==

1,22,1 KLKLJ +=

Medida Jensen Jeffreys (J)

Page 74: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la Teoría de la Información y Aplicaciones: Aplicaciones

Bioinformatica

(1)

0

0.02

0.04

0.06

KL1

I IIIII

(2)

0

0.02

0.04

0.06

KL1

Pointer position

300

1900 3500 5100

KL1

0

0.1

0.2

0.3(3)

Pointer position

300 1900 3500 5100

KL1

0

0.1

0.2

0.3(4)

I IIIII

Medida Kullback Leibler 1 para detectar codones(1) human ; (2) ecoli; (3) jannaschii; and (4) rprowazekii)

Page 75: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la Teoría de la Información y Aplicaciones: Conclusión

• En general estas medidas y la Teoría de la Información pueden ser usadas para detectar patrones estadísticosen muchos tipos de secuencias, imagenes u otras formas de información.

• La Teoría de la Información nos da una base teórica para la investigación de muchas áreas diferentes aparentemente no relacionadas.

Page 76: Introducción a la Teoría de la Informaciónprofesores.elo.utfsm.cl/~tarredondo/info/soft-comp/Introduccion a... · Introducción a la a la Teoría de la Información y Aplicaciones:

Introducción a la Teoría de la Información y Aplicaciones

Referencias:

[1] Reza, F., An Introduction to Information Theory, Dover Publications, 1994

[2] Cover, T., Elements of Information Theory, Wiley, 1991[3] Galvan, P.B. et al, “Finding Borders between Coding and

Noncoding DNA Regions by an Entropic Segmentation Method”, Physical Review Letters, 85 (2000)

[4] en.wikipedia.org