Información no Estructurada MC Beatriz Beltrán Martínez Primavera 2015.

15
Información no Estructurada MC Beatriz Beltrán Martínez Primavera 2015

Transcript of Información no Estructurada MC Beatriz Beltrán Martínez Primavera 2015.

Page 1: Información no Estructurada MC Beatriz Beltrán Martínez Primavera 2015.

Información no EstructuradaMC Beatriz Beltrán Martínez

Primavera 2015

Page 2: Información no Estructurada MC Beatriz Beltrán Martínez Primavera 2015.

Clasificación de la Información• La vida actual requiere de mucha información y

normalmente la información la podemos encontrar principalmente en:• Bibliotecas (es posible consultar sus catálogos en

Internet y la información en si misma).• Organismos de gobierno y no gubernamentales.• Expertos en el campo que estudiamos (muy útiles

para aclarar la estructura y las relaciones del tema que investigamos).• Sistemas comerciales de bases de datos como

EBSCO o Dialog

FCC

- BU

AP

Prim

aver

a 20

15M

C. B

eatr

iz B

eltr

án M

Artín

ez

2

Page 3: Información no Estructurada MC Beatriz Beltrán Martínez Primavera 2015.

Datos vs Información

• Los datos son componentes tangibles y cuantificables, por ejemplo de un artículo de congreso. Si se consideran los “datos” del artículo, se estarán considerando cosas como el título, el autor, las palabras clave, etc., que de alguna forma componen los “metadatos” del artículo.• Por otro lado, la información consiste en el

contenido del artículo, los temas que trata, las fórmulas que emplea, etc.

FCC

- BU

AP

Prim

aver

a 20

15M

C. B

eatr

iz B

eltr

án M

Artín

ez

3

Page 4: Información no Estructurada MC Beatriz Beltrán Martínez Primavera 2015.

•En el caso de los datos, se puede definir atributos de los documentos que parecen sobresalientes, al momento de realizar búsquedas; mientras que con la información se tendría primero que leer el material para determinar qué es relevante y qué no lo es.

Datos vs Información

FCC

- BU

AP

Prim

aver

a 20

15M

C. B

eatr

iz B

eltr

án M

Artín

ez

4

Page 5: Información no Estructurada MC Beatriz Beltrán Martínez Primavera 2015.

Definición

• La Recuperación de Información (o Information Retrieval) es la representación, almacenamiento, organización y acceso a ítems de información.• El objetivo principal de la Recuperación de

Información es satisfacer la necesidad de información planteada por un usuario en una consulta en lenguaje natural especificada a través de un conjunto de palabras claves.• Un sistema de recuperación de información

encuentra datos importantes que hagan la mejor coincidencia parcial con el patrón dado.

FCC

- BU

AP

Prim

aver

a 20

15M

C. B

eatr

iz B

eltr

án M

Artín

ez

5

Page 6: Información no Estructurada MC Beatriz Beltrán Martínez Primavera 2015.

Definición

• Dada una colección de documentos y una consulta del usuario, el objetivo de una estrategia de búsqueda es obtener todos y sólo los documentos relevantes a la consulta. • El proceso hacia la recuperación de documentos

relevantes a la consulta, no es un proceso simple debido a la complejidad semántica del vocabulario.• Esto se debe a que generalmente trata con texto en

lenguaje natural, el cual no está siempre bien estructurado y podría ser semánticamente ambiguo.

FCC

- BU

AP

Prim

aver

a 20

15M

C. B

eatr

iz B

eltr

án M

Artín

ez

6

Page 7: Información no Estructurada MC Beatriz Beltrán Martínez Primavera 2015.

Expansión de consultas

•Encontrar otros términos equivalentes o más adecuados para expresar un concepto es realizar una expansión de consulta.•Para esta expansión, que puede ser desarrollada manual, automática o interactivamente, se pueden utilizar recursos lingüísticos (diccionarios, tesauros y ontologías).

FCC

- BU

AP

Prim

aver

a 20

15M

C. B

eatr

iz B

eltr

án M

Artín

ez

7

Page 8: Información no Estructurada MC Beatriz Beltrán Martínez Primavera 2015.

• Un recurso lingüístico puede incluir sinónimos, variantes de escritura, ampliación de siglas, variaciones de deletreo, términos equivalentes en otros idiomas, hiperónimos, hipónimos, merónimos, entre otros.

• La expansión de consultas es el proceso de suplementar la consulta original con términos adicionales, y es un método para mejorar el desempeño en la recuperación de información.

Expansión de consultas

FCC

- BU

AP

Prim

aver

a 20

15M

C. B

eatr

iz B

eltr

án M

Artín

ez

8

Page 9: Información no Estructurada MC Beatriz Beltrán Martínez Primavera 2015.

Medición

• Precisión (Precision): cuántos documentos recuperados son relevantes = Relevantes recuperados / Recuperados• Cobertura (Recall): cuántos documentos relevantes se

recuperaron = Relevantes recuperados / Relevantes

FCC

- BU

AP

Prim

aver

a 20

15M

C. B

eatr

iz B

eltr

án M

Artín

ez

9

Page 10: Información no Estructurada MC Beatriz Beltrán Martínez Primavera 2015.

Problemática

• De forma general – según Baeza-Yates – el problema de la RI puede ser estudiado desde dos puntos de vista: el computacional y el humano.

FCC

- BU

AP

Prim

aver

a 20

15M

C. B

eatr

iz B

eltr

án M

Artín

ez

10

Page 11: Información no Estructurada MC Beatriz Beltrán Martínez Primavera 2015.

• El primer caso tiene que ver con la construcción de estructuras de datos y algoritmos eficientes que mejoren la calidad de las respuestas. El segundo caso corresponde al estudio del comportamiento y de las necesidades de los usuarios. • Si se analiza la problemática de la RI desde un

alto nivel de abstracción se puede establecer:• Existe una colección de documentos que

contienen información de interés (sobre uno o varios temas).

Problemática

FCC

- BU

AP

Prim

aver

a 20

15M

C. B

eatr

iz B

eltr

án M

Artín

ez

11

Page 12: Información no Estructurada MC Beatriz Beltrán Martínez Primavera 2015.

• Existen usuarios con necesidades de información, quienes las plantean al SRI en forma de una consulta (en inglés, query. En adelante, ambas palabras se utilizarán indistintamente).• Como respuesta, el sistema retorna – de

forma ideal – referencias a documentos “relevantes”, es decir aquellos que satisfacen la necesidad expresada, generalmente en forma de una lista rankeada.

Problemática

FCC

- BU

AP

Prim

aver

a 20

15M

C. B

eatr

iz B

eltr

án M

Artín

ez

12

Page 13: Información no Estructurada MC Beatriz Beltrán Martínez Primavera 2015.

• Para cumplir con sus objetivos, un SRI debe realizar algunas tareas básicas, las cuales se encuentran planteadas en términos computacionales:• Representación lógica de los documentos y –

opcionalmente – almacenamiento del original. Algunos sistemas solo almacenan porciones de los documentos y otros lo hacen de manera completa.• Representación de la necesidad de

información del usuario en forma de consulta.

Problemática

FCC

- BU

AP

Prim

aver

a 20

15M

C. B

eatr

iz B

eltr

án M

Artín

ez

13

Page 14: Información no Estructurada MC Beatriz Beltrán Martínez Primavera 2015.

• Evaluación de los documentos respecto de una consulta para establecer la relevancia de cada uno.• Ranking de los documentos considerados

relevantes para formar el “conjunto solución” o respuesta.• Presentación de la respuesta al usuario.• Retroalimentación o refinamiento de las

consultas (para aumentar la calidad de la respuesta)

Problemática

FCC

- BU

AP

Prim

aver

a 20

15M

C. B

eatr

iz B

eltr

án M

Artín

ez

14

Page 15: Información no Estructurada MC Beatriz Beltrán Martínez Primavera 2015.

Problemática

FCC

- BU

AP

Prim

aver

a 20

15M

C. B

eatr

iz B

eltr

án M

Artín

ez

15