Carlos G. Figuerola, José Luis Alonso Berrocal, Angel …ocw.usal.es/.../contenidos/modelos.pdf ·...

62

Transcript of Carlos G. Figuerola, José Luis Alonso Berrocal, Angel …ocw.usal.es/.../contenidos/modelos.pdf ·...

Page 1: Carlos G. Figuerola, José Luis Alonso Berrocal, Angel …ocw.usal.es/.../contenidos/modelos.pdf · verbos auxiliares también letras y dígitos sueltos Carlos G. Figuerola (Grupo

Modelos Teóricos de Recuperación de la Información

Carlos G. Figuerola, José Luis Alonso Berrocal, Angel F. Zazo

Universidad de Salamanca

Grupo REINA

http://reina.usal.es

Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 1 / 62

Page 2: Carlos G. Figuerola, José Luis Alonso Berrocal, Angel …ocw.usal.es/.../contenidos/modelos.pdf · verbos auxiliares también letras y dígitos sueltos Carlos G. Figuerola (Grupo

Modelos más importantes

Es preciso representar documentos y necesidades informativas de forma

procesable y homogénea, que permita estimar la semejanza entre unos y

otras

modelo booleano

modelo vectorial

modelo probabilístico

Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 2 / 62

Page 3: Carlos G. Figuerola, José Luis Alonso Berrocal, Angel …ocw.usal.es/.../contenidos/modelos.pdf · verbos auxiliares también letras y dígitos sueltos Carlos G. Figuerola (Grupo

El Modelo Vectorial. Generalidades

Propuesto por G. Salton a �nales de los años 60

Representación consistente de documentos y consultas

Formulación de consultas en lenguaje natural

Es la base de muchos sistemas de recuperación

Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 3 / 62

Page 4: Carlos G. Figuerola, José Luis Alonso Berrocal, Angel …ocw.usal.es/.../contenidos/modelos.pdf · verbos auxiliares también letras y dígitos sueltos Carlos G. Figuerola (Grupo

El Modelo Vectorial. Generalidades

En el Modelo Vectorial:

cada documento es representado por un vector de términos

las consultas, formuladas en lenguaje natural, son representadas

también como un vector de términos

es fácil aplicar alguna función de similitud que estime la semejanza

entre el vector de la consulta y el de cada uno de los documentos

Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 4 / 62

Page 5: Carlos G. Figuerola, José Luis Alonso Berrocal, Angel …ocw.usal.es/.../contenidos/modelos.pdf · verbos auxiliares también letras y dígitos sueltos Carlos G. Figuerola (Grupo

El Modelo Vectorial. Vectores binarios

Un ejemplo:

Una colección de documentos en la que el total de términos distintos fuese

n = 4

Term1 Term2 Term3 Term4

Doc1 0 1 1 0

Doc2 1 0 1 0

Doc3 1 1 0 1

Consulta 0 1 0 1

Cada vector tiene n = 4 elementos, uno por cada término posible.

El valor de cada elemento es 0 o 1, dependiendo de si el término aparece o

no en el documento

Cualquier consulta puede ser tratada en la misma forma.

Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 5 / 62

Page 6: Carlos G. Figuerola, José Luis Alonso Berrocal, Angel …ocw.usal.es/.../contenidos/modelos.pdf · verbos auxiliares también letras y dígitos sueltos Carlos G. Figuerola (Grupo

El Modelo Vectorial. Vectores binarios

Si aplicamos una función de similitud simple, como el producto entre los

vectores de la Consulta y de cada Documento:

Term1 Term2 Term3 Term4

Doc1 0 1 1 0 simil.=1

Doc2 1 0 1 0 simil.=0

Doc3 1 1 0 1 simil.=2

Consulta 0 1 0 1

Obtenemos una lista de los documentos similares a la consulta, ordenados

por similitud.

El que más se ajusta a la consulta es Doc3, seguido de Doc1

Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 6 / 62

Page 7: Carlos G. Figuerola, José Luis Alonso Berrocal, Angel …ocw.usal.es/.../contenidos/modelos.pdf · verbos auxiliares también letras y dígitos sueltos Carlos G. Figuerola (Grupo

El Modelo Vectorial. Vectores con pesos

podemos registrar más información, no solamente la aparición de

términos en documentos

un término puede ser más signi�cativo en un documento que otro

podemos asignar a cada término un peso en cada uno de los

documentos, en función de su importancia en cada documento

ese peso se puede estimar de diversas formas (por su frecuencia de

aparición, por el lugar o campo del documento en que aparece, etc..)

podemos representarlo mediante un valor numérico

Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 7 / 62

Page 8: Carlos G. Figuerola, José Luis Alonso Berrocal, Angel …ocw.usal.es/.../contenidos/modelos.pdf · verbos auxiliares también letras y dígitos sueltos Carlos G. Figuerola (Grupo

El Modelo Vectorial. Vectores con pesos

Term1 Term2 Term3 Term4

Doc1 0 0.7 0.2 0 Simil.=0.35

Doc2 0.5 0 0.6 0 Simil.=0

Doc3 0.6 0.4 0 0.2 Simil.=0.26

Consulta 0 0.5 0 0.3

El documento que más se ajusta a la Consulta es Doc1

Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 8 / 62

Page 9: Carlos G. Figuerola, José Luis Alonso Berrocal, Angel …ocw.usal.es/.../contenidos/modelos.pdf · verbos auxiliares también letras y dígitos sueltos Carlos G. Figuerola (Grupo

El Modelo Vectorial. Vectores con pesos

hay muchos elementos que pueden ayudar a estimar automáticamente

la importancia o peso de un término en un documento

las más fáciles se basan en las frecuencias y otras estadísticas de uso

de los términos

se aplican bien cuando el formato es texto plano

no dependen de estructuras internas del documento

pueden combinarse con otros criterios

Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 9 / 62

Page 10: Carlos G. Figuerola, José Luis Alonso Berrocal, Angel …ocw.usal.es/.../contenidos/modelos.pdf · verbos auxiliares también letras y dígitos sueltos Carlos G. Figuerola (Grupo

El Modelo Vectorial. Vectores con pesos

Un elemento a considerar es la frecuencia de un término en la colección de

documentos.

Ejemplo:

9968 efe 3516 fue 2379 sido 1875 nacional9697 que 3493 han 2376 despues 1857 madrid9391 del 3487 presidente 2318 son 1829 todo9265 los 3267 gobierno 2287 ante 1826 dias8937 por 3267 desde 2279 aunque 1792 partido8567 las 3235 pero 2219 solo 1767 todos8179 con 3234 dijo 2130 donde 1766 antes7931 una 3184 pasado 2115 otros 1760 millones7902 para 3067 pais 2099 tiene 1759 fuentes7508 hoy 2887 tras 2042 general 1752 porque5482 como 2792 parte 1995 quien 1751 estados5457 esta 2669 hasta 1991 hace 1694 ademas4723 mas 2668 sin 1988 ministro 1685 grupo4549 sus 2621 contra 1969 uno 1638 ese4442 este 2591 durante 1950 mientras 1619 acuerdo4340 segun 2551 españa 1937 proximo 1604 muy4282 entre 2504 ser 1921 primer 1601 personas4010 sobre 2454 tres 1915 primera 1586 sera3788 dos 2454 cuando 1904 unos 1576 ahora3663 tambien 2452 estado 1883 paises 1571 prensa

Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 10 / 62

Page 11: Carlos G. Figuerola, José Luis Alonso Berrocal, Angel …ocw.usal.es/.../contenidos/modelos.pdf · verbos auxiliares también letras y dígitos sueltos Carlos G. Figuerola (Grupo

El Modelo Vectorial. Vectores con pesos

Palabras vacías

dependen del idioma

preposiciones, conjunciones, artículos, pronombres

verbos auxiliares

también letras y dígitos sueltos

Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 11 / 62

Page 12: Carlos G. Figuerola, José Luis Alonso Berrocal, Angel …ocw.usal.es/.../contenidos/modelos.pdf · verbos auxiliares también letras y dígitos sueltos Carlos G. Figuerola (Grupo

El Modelo Vectorial. Vectores con pesos

Si quitamos una lista estándar de palabras vacías:

9968 efe 1685 grupo 1340 lunes 1126 miercoles3487 presidente 1619 acuerdo 1337 eeuu 1121 poder3267 gobierno 1601 personas 1329 jose 1119 hacer3234 dijo 1571 prensa 1303 medio 1113 miembros3184 pasado 1553 puede 1302 nuevo 1113 martes3067 pais 1553 gran 1281 mar 1112 viernes2551 espa 1550 dia 1275 mundo 1097 zona2042 general 1531 informo 1252 paz 1094 jefe1991 hace 1517 internacional 1213 dolares 1094 fuerzas1988 ministro 1516 politica 1192 debe 1090 jueves1937 proximo 1476 a�rmo 1185 forma 1087 equipo1921 primer 1456 seguridad 1185 �n 1087 domingo1915 primera 1451 capital 1170 horas 1086 varios1883 paises 1441 unidos 1164 tiempo 1084 mes1875 nacional 1436 semana 1162 meses 1077 indico1857 madrid 1402 situacion 1152 autoridades 1075 ultimos1826 dias 1393 ciudad 1143 consejo 1063 hecho1792 partido 1378 mayor 1141 reunion 1056 guerra1759 fuentes 1349 nueva 1129 organizacion 1041 secretario1751 estados 1345 caso 1128 lugar 1029 militar

Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 12 / 62

Page 13: Carlos G. Figuerola, José Luis Alonso Berrocal, Angel …ocw.usal.es/.../contenidos/modelos.pdf · verbos auxiliares también letras y dígitos sueltos Carlos G. Figuerola (Grupo

El Modelo Vectorial. Vectores con pesos

IDF

intenta expresar el poder de recuperación de un término, en una

colección de dicumentos

es inversamente proporcional al número de documentos en que

aparece ese término

los términos con IDF alto son, en general, poco útiles para las

búsquedas

Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 13 / 62

Page 14: Carlos G. Figuerola, José Luis Alonso Berrocal, Angel …ocw.usal.es/.../contenidos/modelos.pdf · verbos auxiliares también letras y dígitos sueltos Carlos G. Figuerola (Grupo

El Modelo Vectorial. Vectores con pesos

La frecuencia en el documento

Un elemento básico es la frecuencia de un término en un documento

determinado

Si aparece muchas veces en ese documento, podemos pensar que será

importante dentro de ese documento

Podemos intentar combinar ambas cosas (IDF y frecuencia en el

documento) para calcular el peso de los términos en cada documento

pesotd = frecuenciatd × IDFt

Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 14 / 62

Page 15: Carlos G. Figuerola, José Luis Alonso Berrocal, Angel …ocw.usal.es/.../contenidos/modelos.pdf · verbos auxiliares también letras y dígitos sueltos Carlos G. Figuerola (Grupo

El Modelo Vectorial. Vectores con pesos

<DOC><DOCID>1</DOCID><TITLE>

HALLAN CONDUCTOR TAN EBRIO QUE NO PUDO NI SOPLAR ALCOHOLIMETRO</TITLE><TEXT>

Madrid, 1 ene (EFE).-La Policía Municipal de Alcorcón interceptóla pasada Nochevieja a un conductor que de lo ebrio que iba no tuvofuerzas ni para soplar el alcoholímetro, aparato que detecta losgrados de alcohol ingeridos por quienes van al volante de un coche.

Las fuentes policiales informaron de que esta persona, cuyaidentidad no fue facilitada, fue trasladada a dependenciasmunicipales, junto a su vehículo, para instruir las diligenciasoportunas.

Los controles de alcoholemia en las carreteras españolas fueronintensificados por la Guardia Civil y las policías locales en lanoche de fin de año en numerosos vías, principalmente en aquellasrutas próximas a locales de diversión, con el fin de evitar que losconductores se hicieran cargo del volante con una copa de más.

Estos controles, informaron a EFE fuentes de Tráfico, han sidoselectivos, móviles y no se han instalado en centros fijos.

Según Trafico, el principio del Año Nuevo se había caracterizado,hasta las seis de la madrugada, por la tranquilidad y únicamente sealertó sobre medidas de precaución contra los bancos de niebla que seobservaban en Madrid y zonas altas de la mitad peninsular.

Por su parte el cuerpo de bomberos de Madrid que estaba de guardiaesta noche pudo tomar las uvas sin sustos. Hasta las seis de lamadrugada no habían sido requeridos para salida alguna. EFE.

sv01/01/05-15/94

</TEXT></DOC>

Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 15 / 62

Page 16: Carlos G. Figuerola, José Luis Alonso Berrocal, Angel …ocw.usal.es/.../contenidos/modelos.pdf · verbos auxiliares también letras y dígitos sueltos Carlos G. Figuerola (Grupo

El Modelo Vectorial. Vectores con pesos

Las palabras más frecuentes en ese documento:

3 madrid 1 uvas 1 olas 1 fuerzas3 efe 1 unicamente 1 observaban 1 �jos2 volante 1 trasladada 1 numerosos 1 facilitada2 tra�co 1 tranquilidad 1 nuevo 1 evitar2 soplar 1 tomar 1 nochevieja 1 ene2 pudo 1 sustos 1 niebla 1 diversion2 noche 1 selectivos 1 municipales 1 diligencias2 madrugada 1 salida 1 municipal 1 detecta2 locales 1 rutas 1 moviles 1 dependencias2 informaron 1 requeridos 1 mitad 1 cuerpo2 guardia 1 proximas 1 medidas 1 copa2 fuentes 1 principalmente 1 intercepto 1 conductores2 �n 1 precaucion 1 intensi�cados 1 coche2 ebrio 1 policias 1 instruir 1 civil2 controles 1 policiales 1 instalado 1 centros2 conductor 1 policia 1 ingeridos 1 carreteras2 alcoholimetro 1 persona 1 identidad 1 cargo1 zonas 1 peninsular 1 hicieran 1 caracterizado1 vias 1 pasada 1 hallan 1 bomberos1 vehiculo 1 oportunas 1 grados 1 bancos

Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 16 / 62

Page 17: Carlos G. Figuerola, José Luis Alonso Berrocal, Angel …ocw.usal.es/.../contenidos/modelos.pdf · verbos auxiliares también letras y dígitos sueltos Carlos G. Figuerola (Grupo

Vectores con pesos

Si multiplicamos la frecuencia en el documento por el IDF:

18.4183 alcoholimetro 7.2632 alcoholemia 5.4956 hallan 4.3493 aparato17.0320 soplar 6.2134 trasladada 5.1838 diligencias 4.6874 altas15.6457 ebrio 6.8754 tra�co 5.4250 dependencias 4.9187 alcohol13.0022 volante 6.6628 pudo 5.0348 aquellas 3.1881 zonas10.4403 conductor 6.0736 precaucion 5.5716 alerto 3.1809 van9.2091 intensi�cados 6.5011 oportunas 4.3493 vias 3.4439 tomar9.2091 ingeridos 6.8112 niebla 4.1277 vehiculo 3.0736 salida9.8929 controles 6.1646 moviles 4.2675 unicamente 3.5188 proximas8.1105 sustos 6.7196 locales 4.5552 tranquilidad 3.1809 principio8.1105 observaban 6.0311 hicieran 4.6907 seis 3.7930 principalmente7.8228 uvas 6.9974 guardia 4.3339 municipales 3.8020 policias7.8228 selectivos 6.1646 �jos 4.0675 municipal 3.7453 policiales7.4174 requeridos 6.2647 facilitada 4.9750 instalado 3.3685 persona7.1297 peninsular 6.9066 detecta 4.1657 identidad 3.5602 olas7.4174 nochevieja 6.0736 conductores 4.3571 grados 3.8065 numerosos7.5162 madrugada 6.0311 caracterizado 4.2633 �n 3.4726 mitad7.4174 intercepto 5.8079 rutas 4.4555 coche 3.9108 iba7.5997 instruir 5.7948 noche 4.4470 carreteras 3.4733 fuentes7.2632 diversion 5.0473 madrid 4.9750 bomberos 3.6107 cuerpo7.4174 alcorcon 5.2432 informaron 4.3188 bancos 3.2202 copa

Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 17 / 62

Page 18: Carlos G. Figuerola, José Luis Alonso Berrocal, Angel …ocw.usal.es/.../contenidos/modelos.pdf · verbos auxiliares también letras y dígitos sueltos Carlos G. Figuerola (Grupo

El Modelo Vectorial. Vectores con pesos

Normalizador

no todos los documentos tienen el mismo tamaño

conviene normalizar los pesos obtenidos con la frecuencia y el IDF

el peso de un término t en un documentod se obtiene con estos tres

elementos:

frecuenciatd×IDFtnormalizador

Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 18 / 62

Page 19: Carlos G. Figuerola, José Luis Alonso Berrocal, Angel …ocw.usal.es/.../contenidos/modelos.pdf · verbos auxiliares también letras y dígitos sueltos Carlos G. Figuerola (Grupo

El Modelo Vectorial. Esquemas de pesado

se ha propuesto diferentes formas de calcular cada uno de los tres

componentes

cada una de esas formas se denomina o representa mediante una letra

las combinaciones posibles se denominan esquemas de peso

Ejemplo: BNN, NTC, ATU

Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 19 / 62

Page 20: Carlos G. Figuerola, José Luis Alonso Berrocal, Angel …ocw.usal.es/.../contenidos/modelos.pdf · verbos auxiliares también letras y dígitos sueltos Carlos G. Figuerola (Grupo

Esquemas de pesado

Formas de calcular la frecuencia

none ntDbinary 1

max-norm ntDmax nD

aug-norm 0.5 + 0.5( tfmax nD

)

square n2tD

log ln(ntD) + 1.0

dondentD número de veces que el término t aparece en el documento D

max nD número de veces del término que más aparece en el doc. D

Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 20 / 62

Page 21: Carlos G. Figuerola, José Luis Alonso Berrocal, Angel …ocw.usal.es/.../contenidos/modelos.pdf · verbos auxiliares también letras y dígitos sueltos Carlos G. Figuerola (Grupo

Esquemas de pesado

Formas de calcular IDF

none 1

t�df log( Nndt

)

prob log(N−ndtndt)

freq 1N

squared log( Nndt

)2

dondeN número de documentos en la colección

ndt número de documentos en que aparece el término t

Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 21 / 62

Page 22: Carlos G. Figuerola, José Luis Alonso Berrocal, Angel …ocw.usal.es/.../contenidos/modelos.pdf · verbos auxiliares también letras y dígitos sueltos Carlos G. Figuerola (Grupo

Esquemas de pesado

Formas de calcular el normalizador

none 1

sum∑n

i=1 pesotiD

cosine√∑n

i=1 peso2tiD

fourth∑n

i=1 peso4tiD

max max pesotD

dondepesotiD peso del término i en el documento D

n número de términos en el documento D

max pesotD peso del término que más peso tenga en el documento D

Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 22 / 62

Page 23: Carlos G. Figuerola, José Luis Alonso Berrocal, Angel …ocw.usal.es/.../contenidos/modelos.pdf · verbos auxiliares también letras y dígitos sueltos Carlos G. Figuerola (Grupo

Esquemas de pesado

Algunos esquemas frecuentes

BNN: esquema simple binario

NNN: el peso es simplemente la frecuencia en el documento

NTC

ATC

ATU

Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 23 / 62

Page 24: Carlos G. Figuerola, José Luis Alonso Berrocal, Angel …ocw.usal.es/.../contenidos/modelos.pdf · verbos auxiliares también letras y dígitos sueltos Carlos G. Figuerola (Grupo

Expansión de Consultas

la idea básica es añadir términos a la consulta, que puedan mejorar los

resultados de la recuperación

hay que resolver dos cuestiones:

cómo obtener los términos a añadir

cómo calcular sus pesos

diversos modos:

realimentación a partir de una consulta efectuada

uso de tesuros, diccionarios, etc.

Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 24 / 62

Page 25: Carlos G. Figuerola, José Luis Alonso Berrocal, Angel …ocw.usal.es/.../contenidos/modelos.pdf · verbos auxiliares también letras y dígitos sueltos Carlos G. Figuerola (Grupo

Expansión de Consultas. Realimentación

la idea es obtener los términos a añadir de los documentos

recuperados en una primera consulta

puede realizarse con la intervención del usuario

tras hacer una consulta, el usuario selecciona los documentos que le

parecen relevantes

de éstos seleccionados se toman los términos a añadir a la consulta

original

en algunas modalidaes, es posible señalar también los documentos no

relevantes, para actuar en sentido contrario

también puede hacerse de manera totalmente automática, tomando

directamente los n documentos recuperados por la consulta original

(pseudorealimentación)

Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 25 / 62

Page 26: Carlos G. Figuerola, José Luis Alonso Berrocal, Angel …ocw.usal.es/.../contenidos/modelos.pdf · verbos auxiliares también letras y dígitos sueltos Carlos G. Figuerola (Grupo

Expansión de Consultas. Realimentación

al añadir términos a la consulta original es preciso recalcular los pesos

de los términos de la consulta

hay diversas formas de hacerlo; una de las más usadas es el algoritmo

de Rocchio:

Coexpandida = αCoriginal + βTermsRelev − γTermsNoRelev

la idea es sumar los pesos de los términos de los ejemplos positivos y

restar los de los ejemplos negativos

Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 26 / 62

Page 27: Carlos G. Figuerola, José Luis Alonso Berrocal, Angel …ocw.usal.es/.../contenidos/modelos.pdf · verbos auxiliares también letras y dígitos sueltos Carlos G. Figuerola (Grupo

Expansión de Consultas. Realimentación

Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 27 / 62

Page 28: Carlos G. Figuerola, José Luis Alonso Berrocal, Angel …ocw.usal.es/.../contenidos/modelos.pdf · verbos auxiliares también letras y dígitos sueltos Carlos G. Figuerola (Grupo

Expansión de Consultas. Tesaurus, diccionarios

la idea es disponer de listas de términos sinónimos, relacionados con

los de la consulta

estas listas pueden construirse de forma manual o de forma automática

se han efectuado algunos experimentos con listas manuales como

WordNet o EuroWordNet

los sistemas automáticos parecen ser más e�cientes

Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 28 / 62

Page 29: Carlos G. Figuerola, José Luis Alonso Berrocal, Angel …ocw.usal.es/.../contenidos/modelos.pdf · verbos auxiliares también letras y dígitos sueltos Carlos G. Figuerola (Grupo

Expansión de Consultas. Tesaurus de similitud

la idea es básica es que un término puede caracterizarse por los

doumentos en que aparece

se trata de darle la vuelta a la matriz utilizada habitualmente en el

modelo vectorial

en lugar de calcular similitud entre �las (documentos) podemos

hacerlo entre columnas (terminos)

Term1 Term2 Term3 Term4

Doc1 0 0.7 0.2 0

Doc2 0.5 0 0.6 0

Doc3 0.6 0.4 0 0.2

Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 29 / 62

Page 30: Carlos G. Figuerola, José Luis Alonso Berrocal, Angel …ocw.usal.es/.../contenidos/modelos.pdf · verbos auxiliares también letras y dígitos sueltos Carlos G. Figuerola (Grupo

Expansión de Consultas. Tesaurus de similitud

Ejemplo: terremoto

terremoto 1,0000 sismico 0,2798

richter 0,6192 seismos 0,2603

seismo 0,5491 sismica 0,2538

epicentro 0,4833 intensidad 0,2405

escala 0,3993 northridge 0,2400

grados 0,3716 daños 0,2379

temblor 0,3696 tsunami 0,2221

sacudio 0,3525 sismicos 0,2121

magnitud 0,3380 maremoto 0,2099

terremotos 0,3173 sacude 0,2061

temblores 0,2860

Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 30 / 62

Page 31: Carlos G. Figuerola, José Luis Alonso Berrocal, Angel …ocw.usal.es/.../contenidos/modelos.pdf · verbos auxiliares también letras y dígitos sueltos Carlos G. Figuerola (Grupo

Expansion de Consultas. Tesaurus de similitud

Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 31 / 62

Page 32: Carlos G. Figuerola, José Luis Alonso Berrocal, Angel …ocw.usal.es/.../contenidos/modelos.pdf · verbos auxiliares también letras y dígitos sueltos Carlos G. Figuerola (Grupo

stemming

Muchas palabras comparten la misma raíz y aluden a conceptos

cercanos

Muchas palabras se forman a partir de otras, conservando una relación

semántica

Pueden formarse por dos vías:

por �exión morfológica

Ejemplo: libro, libros

por derivación

Ejemplo: libro, librero, librería

Podríamos pensar en agrupar todas esas palabras parecidas bajo una

forma común

Esto debería afectar al recuento de frecuencias y, en consecuencia, a

los pesos

Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 32 / 62

Page 33: Carlos G. Figuerola, José Luis Alonso Berrocal, Angel …ocw.usal.es/.../contenidos/modelos.pdf · verbos auxiliares también letras y dígitos sueltos Carlos G. Figuerola (Grupo

stemming

Diversas formas de abordar el stemming:

n-gramas

stripping crudo

s-stemming

algoritmos basados en reglas

Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 33 / 62

Page 34: Carlos G. Figuerola, José Luis Alonso Berrocal, Angel …ocw.usal.es/.../contenidos/modelos.pdf · verbos auxiliares también letras y dígitos sueltos Carlos G. Figuerola (Grupo

stemming. n-gramas

Un n-grama es una ventana de n caracteres que se van extrayendo del

texto, empezando en la primera posición y avanzado una posición

cada vez

Ejemplo:

la palabra _libro_ produce, cuando n = 3

(_ signi�ca espacio en blanco)

_li lib ibr bro ro_

la palabra _librero_ produce:

_li lib ibr bre ere ero ro_

se espera que palabras parecidas produzcan n-gramas parecidos

Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 34 / 62

Page 35: Carlos G. Figuerola, José Luis Alonso Berrocal, Angel …ocw.usal.es/.../contenidos/modelos.pdf · verbos auxiliares también letras y dígitos sueltos Carlos G. Figuerola (Grupo

stemming. n-gramas

los n-gramas pueden ser útiles también para sortear erratas, errores

tipográ�cos, etc.

tienen otros usos, como comprimir texto

son independientes del idioma

en IR, suponen la formación de una colección paralela de documentos,

cuyos términos son los n-gramas producidos por los documentos

originales

las consultas son también descompuestas en n-gramas

el vector de n-gramas de una consulta es comparado con cada vector

de n-gramas de cada documento

Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 35 / 62

Page 36: Carlos G. Figuerola, José Luis Alonso Berrocal, Angel …ocw.usal.es/.../contenidos/modelos.pdf · verbos auxiliares también letras y dígitos sueltos Carlos G. Figuerola (Grupo

stemming. stripping y s-stemming

la idea básica es quitar en crudo los n últimos caracteres de cada

palabra

esta operación puede ser matizada en función de un número mínimo

de caracteres restantes

una variante menos drástica es el s-stemming

consiste en eliminar las s �nales de todas las palabras

esto incluye las formas en plural de sustantivos y adjetivos, pero

también de todas las demás palabras

puede ser re�nado incluyendo la eliminación de plurales terminados en

-es

también ciertas vocales �nales que suelen denotar, en los adjetivos,

variaciones de género

el s-stemmer produce buenos resultados

Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 36 / 62

Page 37: Carlos G. Figuerola, José Luis Alonso Berrocal, Angel …ocw.usal.es/.../contenidos/modelos.pdf · verbos auxiliares también letras y dígitos sueltos Carlos G. Figuerola (Grupo

stemming. Algoritmos basados en reglas

diversos algoritmos propuestos

dependientes del idioma

mayor o menor di�cultad de implementación

Ejemplo: algoritmo de Porter

Las palabras se originan a partir de otras por:

�exión morfológica

derivación

Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 37 / 62

Page 38: Carlos G. Figuerola, José Luis Alonso Berrocal, Angel …ocw.usal.es/.../contenidos/modelos.pdf · verbos auxiliares también letras y dígitos sueltos Carlos G. Figuerola (Grupo

stemming. Stemming �exivo

Pretende reducir las variantes morfológicas de una palabra a una forma

única.

reducir a mismo género y número sustantivos y adjetivos

Por ejemplo: libro-s, automátic-os

reducir a una única forma (por ej. in�nitivo) los modos, tiempos,

personas y número de verbos.

Por ejemplo: catalogaban, automatizando

Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 38 / 62

Page 39: Carlos G. Figuerola, José Luis Alonso Berrocal, Angel …ocw.usal.es/.../contenidos/modelos.pdf · verbos auxiliares también letras y dígitos sueltos Carlos G. Figuerola (Grupo

stemming. Stemming �exivo

Para hacer stemming �exivo hay que resolver:

determinar elemento gramatical y accidentes morfológicos

cuando haya varias posibilidades, desambiguar morfológicamente

algunas palabras pueden ser muy complejas

Ejemplo: verbos irregulares en español

Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 39 / 62

Page 40: Carlos G. Figuerola, José Luis Alonso Berrocal, Angel …ocw.usal.es/.../contenidos/modelos.pdf · verbos auxiliares también letras y dígitos sueltos Carlos G. Figuerola (Grupo

stemming. Stemming derivativo

Pretende reducir a una forma básica las palabras derivadas de una dada.

Ejemplo:

catálogo, catalogador

biblioteca, bibliotecario

para hecer stemming derivativo, antes hay que hacerlo �exivo

Ejemplo: bibliotecari-as

es preciso un estudio de los posibles su�jos, y de cómo se pegan a la

raíz

Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 40 / 62

Page 41: Carlos G. Figuerola, José Luis Alonso Berrocal, Angel …ocw.usal.es/.../contenidos/modelos.pdf · verbos auxiliares también letras y dígitos sueltos Carlos G. Figuerola (Grupo

stemming. Stemming derivativo

no siempre es fácil determinar cuál es la palabra o forma base

la distancia semántica entre base y derivada es desigual

Ejemplo:

toro, torero

sombra, sombrero

chica, chiquilla

cama, camilla

Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 41 / 62

Page 42: Carlos G. Figuerola, José Luis Alonso Berrocal, Angel …ocw.usal.es/.../contenidos/modelos.pdf · verbos auxiliares también letras y dígitos sueltos Carlos G. Figuerola (Grupo

stemming. Ejemplos y aplicación

Documento Original<top><num>41</num><ES-title> Pesticidas en alimentos para bebes </ES-title><ES-desc> Encontrar noticias sobre pesticidas en alimentos parabebes. </ES-desc><ES-narr> Los documentos relevantes proporcionan información sobreel descubrimiento de pesticidas en alimentos para bebes. Se informasobre diferentes marcas, supermercados y compañías que ofrecieronalimentos para bebes que contenian pesticidas. Se discuten tambiénmedidas contra la contaminación de alimentos para bebes conpesticidas. </ES-narr></top>

Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 42 / 62

Page 43: Carlos G. Figuerola, José Luis Alonso Berrocal, Angel …ocw.usal.es/.../contenidos/modelos.pdf · verbos auxiliares también letras y dígitos sueltos Carlos G. Figuerola (Grupo

stemming. Ejemplos y aplicación

Sin stemminginformaconteniancompañiasdiscuteninformacionnoticiasproporcionancontaminaciondiferentesrelevantesofrecierondocumentosdescubrimientopesticidasencontrarbebesmedidasmarcasalimentossupermercados

s-stemminginformaconteniancompañiadiscuteninformacionnoticiaproporcionancontaminaciondiferentrelevantofrecierondocumentodescubrimientopesticidaencontrarbebmedidamarcaalimentosupermercado

st. �exivoinformarcontenercompañiadiscutirinformacionnoticiaproporcionarcontaminaciondiferenterelevanteofrecerdocumentodescubrimientopesticidaencontrarbebemedidamarcaalimentosupermercado

st. derivativoinformacioncontenercompañíadiscusioninformacionnoticiaproporcioncontaminardiferenciarelevanciaofrecerdocumentodescubrirpesteencontrarbebemedirmarcoalimentosupermercado

Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 43 / 62

Page 44: Carlos G. Figuerola, José Luis Alonso Berrocal, Angel …ocw.usal.es/.../contenidos/modelos.pdf · verbos auxiliares también letras y dígitos sueltos Carlos G. Figuerola (Grupo

stemming. Ejemplos y aplicación

Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 44 / 62

Page 45: Carlos G. Figuerola, José Luis Alonso Berrocal, Angel …ocw.usal.es/.../contenidos/modelos.pdf · verbos auxiliares también letras y dígitos sueltos Carlos G. Figuerola (Grupo

stemming. Ejemplos y aplicación

Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 45 / 62

Page 46: Carlos G. Figuerola, José Luis Alonso Berrocal, Angel …ocw.usal.es/.../contenidos/modelos.pdf · verbos auxiliares también letras y dígitos sueltos Carlos G. Figuerola (Grupo

stemming. Ejemplos y aplicación

Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 46 / 62

Page 47: Carlos G. Figuerola, José Luis Alonso Berrocal, Angel …ocw.usal.es/.../contenidos/modelos.pdf · verbos auxiliares también letras y dígitos sueltos Carlos G. Figuerola (Grupo

El uso de campos

En algunos documentos, podemos obtener información adicional para

calcular pesos del campo o lugar en que aparece cada término

Esto sucede, por ejemplo, en documentos HTML. Podemos considerar

varios campos:

el campo body

el campo title

las etiquetas META

las anclas de los backlinks

Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 47 / 62

Page 48: Carlos G. Figuerola, José Luis Alonso Berrocal, Angel …ocw.usal.es/.../contenidos/modelos.pdf · verbos auxiliares también letras y dígitos sueltos Carlos G. Figuerola (Grupo

El uso de campos HTML

Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 48 / 62

Page 49: Carlos G. Figuerola, José Luis Alonso Berrocal, Angel …ocw.usal.es/.../contenidos/modelos.pdf · verbos auxiliares también letras y dígitos sueltos Carlos G. Figuerola (Grupo

Cabecera de un documento HTML

<html><head><title>SEDIC. Asociación Española de Documentación e Información</title>

<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">

<META NAME="AUTHOR" CONTENT="SEDIC">

<META NAME="DESCRIPTION" CONTENT="SEDIC. Informacion sobre la SociedadEspañola de Informacion y Documentacion Científica (SEDIC - AsociaciónEspañola de Documentación e Información): actividades, formación, grupos detrabajo, publicaciones, certificación de profesionales de documentación">

<META NAME="KEYWORDS" CONTENT="SEDIC, Asociación profesional, Asociaciones,Documentación, Bibliotecas, Gestion de Información, Profesionales de la Informacion,Documentalistas, Bibliotecarios, Formación, Gestión del Conocimiento,Knowledge Management, Intranet, Internet, Recuperación de Información,Sistemas de Gestion Documental"></head>

Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 49 / 62

Page 50: Carlos G. Figuerola, José Luis Alonso Berrocal, Angel …ocw.usal.es/.../contenidos/modelos.pdf · verbos auxiliares también letras y dígitos sueltos Carlos G. Figuerola (Grupo

El uso de campos HTML

habitualmente se utilizan los términos que aparecen en el body

también los del title

podemos incluir términos de otros campos y pesarlos de diferentes

formas

las etiquetas META con palabras clave podrían ser interesantes, pero

también otras

los anclas de los backlinks no siempre están disponibles, al estar en

documentos que pueden ser ajenos a nuestra colección

Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 50 / 62

Page 51: Carlos G. Figuerola, José Luis Alonso Berrocal, Angel …ocw.usal.es/.../contenidos/modelos.pdf · verbos auxiliares también letras y dígitos sueltos Carlos G. Figuerola (Grupo

El uso de campos HTML

Un experimento con campos efectuado en CLEF:

se pesaron de forma distinta los terminos que aparecen en cada campo

en un esquema de peso basado en tf × IDF esto puede conseguirse

multiplicando las veces que aparece cada termino por un coe�ciente,

que varía en función del campo en que aparece

se utilizó una colección de varios miles de páginas web, procedentes de

EuroGov

Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 51 / 62

Page 52: Carlos G. Figuerola, José Luis Alonso Berrocal, Angel …ocw.usal.es/.../contenidos/modelos.pdf · verbos auxiliares también letras y dígitos sueltos Carlos G. Figuerola (Grupo

El uso de campos HTML

Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 52 / 62

Page 53: Carlos G. Figuerola, José Luis Alonso Berrocal, Angel …ocw.usal.es/.../contenidos/modelos.pdf · verbos auxiliares también letras y dígitos sueltos Carlos G. Figuerola (Grupo

Modelo Vectorial. Conclusión

permite representar de forma consistente documentos y necesidades

informativas

efectúa comparaciones parciales, best match

produce una lista de respuestas ordenada por su similitud con la

consulta

es simple y rápido

tiene un alto rendimiento

Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 53 / 62

Page 54: Carlos G. Figuerola, José Luis Alonso Berrocal, Angel …ocw.usal.es/.../contenidos/modelos.pdf · verbos auxiliares también letras y dígitos sueltos Carlos G. Figuerola (Grupo

Modelo vectorial. Bibliografía Básica

1 Salton, G. Automatic Information Organization and Retrieval.

McGraw−Hill, N.Y. (1968)2 Salton, G. (editor). The SMART Retrieval System � Experiments in

Automatic Document Processing. Prentice Hall In. Englewood Cli�s,

NJ. 1971.

3 Salton, G.; McGill, M.J. Introduction to Modern Information Retrie−val. McGraw−Hill, New York. (1983)

4 Salton, G.; Buckley, C. Term−Witghting Approaches in Automatic

Text Retrieval. En: Information Processing and Management, 24(5),

513−523. (1988)5 Salton, G.; Buckley, C. Improving retrieval performance by relevance

feedback. Journal of the American Society for Information Science, 41

(4), 288−297. (1990).

Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 54 / 62

Page 55: Carlos G. Figuerola, José Luis Alonso Berrocal, Angel …ocw.usal.es/.../contenidos/modelos.pdf · verbos auxiliares también letras y dígitos sueltos Carlos G. Figuerola (Grupo

El Modelo Probabilístico

propuesto en 1976 por Robertson y Spacrk-Jones

es conocido también como Binary Independence Retrieval

intenta capturar el problema de la Recuperación desde una optica

probabilistica

se basa en estimar la probabilidad de que un documento sea relevante

para una consulta dada

el modelo probabilístico tiene una base matemática más sólida que el

vectorial

Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 55 / 62

Page 56: Carlos G. Figuerola, José Luis Alonso Berrocal, Angel …ocw.usal.es/.../contenidos/modelos.pdf · verbos auxiliares también letras y dígitos sueltos Carlos G. Figuerola (Grupo

El Modelo Probabilístico

La idea base es:

dada una consulta, hay un conjunto de documentos que contiene

exactamente los documentos relevantes y no otros

Si tuvieramos una descripción asdecuada de este conjunto, no

tendríamos problemas en encontrar los documentos.

el proceso de búsqueda o recuperación es el proceso de especi�car las

características del conjunto o respuesta ideal.

la función de semejanza es la probabilidad de que un documento sea

relevante:

sim(C ,D) = P(R|D)

Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 56 / 62

Page 57: Carlos G. Figuerola, José Luis Alonso Berrocal, Angel …ocw.usal.es/.../contenidos/modelos.pdf · verbos auxiliares también letras y dígitos sueltos Carlos G. Figuerola (Grupo

El Modelo Probabilístico

el modelo presupone que existe un conjunto de documentos relevantes:

R

los documentos que no pernecen a este conjunto se consideran no

relevantes:

R ′

P(R|d) es la probabilidad del que el documento d sea relevante

P(R ′|d) es la probabilidad del que el documento d NO sea relevante

la similitud entre un documento y una consulta es:

sim(d , c) = P(R|d)P(R′|d)

Un documento será relevante si:P(R|d) > (R ′|d)

Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 57 / 62

Page 58: Carlos G. Figuerola, José Luis Alonso Berrocal, Angel …ocw.usal.es/.../contenidos/modelos.pdf · verbos auxiliares también letras y dígitos sueltos Carlos G. Figuerola (Grupo

El Modelo Probabilístico

La probabilidad de que un documento sea relevante para una consulta

dada depende de las representaciones que hagamos de ambas cosas

Una vez computada esa probabilidad para cada documento, la

recuperación se reduce a ordenar los documentos en función de dicha

probabilidad

El problema es que no sabemos cómo hemos de computar esa

probabilidad

todo lo que considera el modelo son los términos que componen

documentos y consultas

podemos intentar una selección preliminar de documentos, a partir de

la cual elaborar una caracterización de los documentos

esa caracterización inicial puede ir re�nándose en un proceso iterativo,

que podría ayudarse con interacción con el usuario

Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 58 / 62

Page 59: Carlos G. Figuerola, José Luis Alonso Berrocal, Angel …ocw.usal.es/.../contenidos/modelos.pdf · verbos auxiliares también letras y dígitos sueltos Carlos G. Figuerola (Grupo

El Modelo Probabilístico

partiendo de que caracterizamos un documento a través de sus

términos, podemos considerar P(k |R), la probabilidad de que el

término k esté en los documentos del conjunto Relevante.

La probabilidad de que un documento pertenezca a R podría estimarse

como la agragación de las probabilidades de los términos que lo

componen.

Sin embargo, no conocemos R , hay que adivinarlo.

Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 59 / 62

Page 60: Carlos G. Figuerola, José Luis Alonso Berrocal, Angel …ocw.usal.es/.../contenidos/modelos.pdf · verbos auxiliares también letras y dígitos sueltos Carlos G. Figuerola (Grupo

El Modelo Probabilístico

una posibilidad es hacer algunas suposiciones previas y re�nar luego

los resultados

por ejemplo, podemos suponer inicial una P(k |R) igual para todos los

términos, p. ej. 0.5

podemos aproximar una P(k |R ′) a partir de la distribución de k en la

colección de documentos

P(k |R ′) = nkN

donde nk es el número de documentos en que aparece k y N el

número de documentos total de la colección.

Con estas bases, podemos recuperar los documentos que contienen

que contienen los términos de la consulta y ordenarlos por la

probabilidad estimada así.

Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 60 / 62

Page 61: Carlos G. Figuerola, José Luis Alonso Berrocal, Angel …ocw.usal.es/.../contenidos/modelos.pdf · verbos auxiliares también letras y dígitos sueltos Carlos G. Figuerola (Grupo

El Modelo Probabilístico

los documentos de esa recuperación inicial nos sirven para aproximar R

hay dos formas de hacerlo:

tomando los n primeros

interactuando con el usuario

si V es el conjunto de documentos seleccionado y Vi el de

documentos seleccionados que contienen el término k ,

P(k |R) = |V ||Vi |

P(k |R ′) = nk−|Vi |N−|V |

La probabilidad de que el término pertenezca a un documento

Relevante, y la de que ese término aparezca en un documento no

Relevante pueden aproximarse usando la distribución de ese término

en documentos relevantes y no relevantes

Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 61 / 62

Page 62: Carlos G. Figuerola, José Luis Alonso Berrocal, Angel …ocw.usal.es/.../contenidos/modelos.pdf · verbos auxiliares también letras y dígitos sueltos Carlos G. Figuerola (Grupo

Modelo Probabilístico. Bibliografía Fundamental

1 Robertson, S. E. The probability ranking principle in IR, Journal of

Documentation, 1977, 33(4):294-304

2 Sparck Jones, K. Search term relevance weighting given little relevante

information, Journal of Documentation, 1979, 35(1): 30-48

3 Croft, W. B.; Harper, D. J.Using probabilistic models of document

retrieval without relevance information, Journal of Documentation,

1979, 35(4):285-295

Carlos G. Figuerola (Grupo REINA) Modelos Teóricos en IR 62 / 62