Resumen de Técnicas Básicas de Recuperación de Buscador

Técnicas Básicas (resumen)

José Carlos Cortizo Pérez http://www.esp.uem.es/jccortizo josecarlos.cortizo@uem.es

Departamento de Sistemas Informáticos Escuela Superior Politécnica Universidad Europea de Madrid

José Carlos Cortizo Pérez

Índice

Esquema de funcionamiento

Normalización y Tokenización

Indexación

Modelo del Espacio Vectorial

Sistemas Inteligentes de Acceso a la Información

Esquema de Funcionamiento

DocDocDoc

NormalizaciónTokenización Indexación

NormalizaciónTokenización

MEV Res.

Ejemplo

Documento 1:Pepe coge su coche por las mañanas

Documento 2:Mañana veré a Pepe

Documento 3:Me traen el coche mañana

Consulta: Coche

Ejemplo

Documento 1:Pepe; coger; coche; mañana

Documento 2:Mañana; ver; Pepe

Documento 3:Traen; coche; mañana

Consulta: Coche

Normalizamos y Tokenizamos los Documentos

Ejemplo

Consulta: Coche

Documento 1 Documento 2 Documento 3

Pepe 1 1

Coger 1

Coche 1 1

Mañana 1 1 1

Traer 1

Indizamos los Documentos

Ejemplo

Consulta: Coche

Pepe 1 1

Coger 1

Coche 1 1

Mañana 1 1 1

Traer 1

Tokenizamos y Normalizamos la consulta

Ejemplo

Consulta: Coche

Pepe 1 1

Coger 1

Coche 1 1

Mañana 1 1 1

Traer 1

Seleccionamos candidatos

Ejemplo

Consulta:

Representamos en forma de Vectores

Documento 1: (1, 1, 1, 1, 0)

Representación:(Pepe, coger, coche, mañana, traer)

Documento 2: (0, 0, 1, 1, 1)

(0, 0, 1, 0, 0)

Ejemplo

Consulta:

Aplicamos MEV

Documento 1: (1, 1, 1, 1, 0)

Representación:(Pepe, coger, coche, mañana, traer)

Documento 2: (0, 0, 1, 1, 1)

(0, 0, 1, 0, 0)

cos(D1, C) = 1·0 + 1·0 + 1·1 + 1·0 + 0·0

RC(4) · RC(1)= 0.5

cos(D1, C) = 0·0 + 0·0 + 1·1 + 0·0 + 0·0

RC(3) · RC(1)= 0.57

Ejemplo

Y obtenemos un ranking de resultados

Resultados ordenados:Documento 2Documento 1

¿Alguna pregunta?

Tokenizar: Separar las palabras o elementos a indizar

Normalizar: Estandarizar la forma de escribir algunas cosas. P.e. eliminar las tildes, cambiar de mayúsculas a minúsculas, etc.

¿Qué?

Tokenizar: Necesitamos tener unidades indizables para utilizarlas como base de nuestra representación. Pueden ser palabras, frases, n-gramas, etc.

Normalizar: El lenguaje es muy flexible, y además es muy corriente cometer errores de algún tipo. La normalización nos provee una forma de “eliminar” estos problemas.

¿Por qué?

Forma simple: utilizar un Tokenizador que separe por caracteres clave (p.e. espacios, signos de puntuación, etc.)

En java se haría con un String Tokenizer

Si en lugar de palabras, queremos separar frases, la cosa es algo más compleja (dependiendo del tipo de frase)

Análisis del lenguaje

¿Cómo tokenizar?

Por lo general aplicando reglas heurísticas

P.e. Cambiar todas las vocales acentuadas por vocales sin acentuar

Pasar las mayúsculas a minúsculas

Eliminar “palabras vacías”

¿Cómo normalizar?

Las palabras muy frecuentes no aportan semántica

Artículos, pronombres, conjunciones, etc.

Las apariciones de las 10 palabras más frecuentes del inglés constituyen un 20/30% de un documento

Se suelen incluir en una lista de parada

Estas listas se obtienen a partir de un córpora representativo del idioma

Palabras vacías

Múltiples palabras son variaciones morfológicas, con idéntico significado

Los stemmers (extractores de raíces), normalizan a una forma canónica, p.e.

analizar, análisis, analizador... => ‘anali’

Algoritmo de Porter, SnowBall

Normalización morfológica

En función del idioma, podemos aplicar reglas de normalización que permitan una mejor recuperación (p.e. tolerante a errores)

P.e., para el Castellano

Eliminar las ‘h’

Cambiar ‘v’ por ‘b’

Cambiar ‘ll’ por ‘y’

Esto aumenta el recall pero puede bajar la precisión

Normalización “avanzada”

¿Alguna pregunta?

Indexación

Los índices son necesarios para poder realizar las consultas en tiempos aceptables

Generan un “overhead” en cuánto a almacenamiento

2 tipos de índices importantes

Directos

Inversos

Indexación

IndexaciónIndice directo

Pal1 Pal2 Pal3 Pal4

Doc1 1 1 0 0

Doc2 0 1 0 0

Doc3 1 0 1 0

Doc4 0 0 0 1

IndexaciónIndice inverso

Doc1 Doc2 Doc3 Doc4

Pal1 1 1 0 0

Pal2 0 1 0 0

Pal3 1 0 1 0

Pal4 0 0 0 1

Indexación

Cada uno tiene sus pros y sus contras

Sin embargo, el inverso es muy eficiente en consulta (nos interesa más)

El inverso es el que se suele implementar en la práctica (p.e. Google)

¿Cuál es mejor?

¿Alguna pregunta?

Es un modelo más sofisticado que el Booleano

Se basa en el álgebra vectorial

La representación se realiza en base a vectores de pesos de términos

Introducción

Cálculo de similitud: el coseno de los vectores que forman el documento y la consulta

Introducción

Modelo del Espacio VectorialIntroducción

¿Alguna pregunta?

Bibliografía

Baeza-Yates, Ricardo; Ribeiro-Neto, Berthier. Modern information retrieval. Addison-Wesley, 1999 (Z699.35 .I53 B34 Biblioteca UEM, edificio C).

Raymond Mooney. Basic Tokenizing, Indexing and Implementation of Vector-Space Retrieval. Tema 3 de su curso en IR.

http://www.cs.utexas.edu/~mooney/ir-course/slides/Evaluation.ppt

Adicional

¿Alguna pregunta?

Resumen de Técnicas Básicas de Recuperación de Buscador

Education

Transcript of Resumen de Técnicas Básicas de Recuperación de Buscador

Buscador julio 2016

Navegador-buscador Google

Buscador de Dictámenes y Resoluciones | CNDC Buscador

Manual buscador Gerion

Buscador de historias

Google, buscador web

Buscador semantico

GUÍA DE APLICACIÓN, EVALUACIÓN Y PAUTAS BÁSICAS DE … · guÍa de aplicaciÓn, evaluaciÓn y pautas bÁsicas de recuperaciÓn pedagÓgica para estudiantes de los centros educativos

Buscador cluuz

Buscador semántico INVENIO

Buscador 2

Buscador de palabras

Buscador electronico

Tripletas Buscador

CASO BUSCADOR GRAMS.docx

524 - Buscador de Dictámenes y Resoluciones | CNDC Buscador

Navegador – buscador google

Concepto de Buscador

“Buscador Público del

Buscador Almas