Post on 21-May-2020
Análisis comparativo del comportamiento de diferentes motores de búsqueda en el tratamiento de la investigación sobre
Enfermedades Raras
Trabajo Fin de MásterMáster Universitario en Gestión de la Información
Autor: Cristina I. Font JuliánTutor: José Antonio Ontalba y Ruipérez
Tutor: Enrique Orduña Malea
Curso académico: 2015 - 2016
1 - 2.000Prevalencia baja
3.000.000De afectados en
España
80%Son de origen
genético.
7%de la población mundial padece
una ER.
7.000ER catalogadas en
Europa
Enfermedades Raras
3
Objetivo principal
Analizar la presencia y visibilidad web de los portales relacionados con enfermedades raras mediante la
cuantificación de diferencias en el tratamiento de los portales por parte de diferentes motores de
búsqueda.
4
Metodología
Análisis del interés por enfermedad. Realizando una búsqueda de
enfermedades y recopilando datos
sobre el interés que suscitan.
Búsqueda y selección de asociaciones. Localizando
virtualmente el objeto de análisis debido a que no
existe un repositorio con dicha
información.
Recopilación de datos.
Programando las herramientas
necesarias para la extracción de datos en Google, Bing y
Majestic.
Preparación de los resultados.
Recopilando toda la información extraída de modo automático
y presentando las métricas a utilizar.
Análisis de resultados. Analizando y
discutiendo los resultados obtenidos
durante la investigación.
FASE 1 FASE 2 FASE 3 FASE 4 FASE 5
5
Fase 1: Análisis del interés por enfermedad
Ejemplo de una ER en el listado XML
Búsqueda de enfermedades: ๏ Fuente: Orphadata๏ Formato: XML๏ Tratamiento: Libreria Python LXML
Recopilación de datos relativos al interés: ๏ E l i n t e r é s s e m i d e m e d i a n t e l a
cuantificación de los resultados que devuelve un buscador.
๏ Automatización del proceso mediante una Araña programada en Python utilizando Scrapy.
๏ Resultados extraídos en un fichero JSON.
6
Ejemplo de Araña
Araña
Items
Configuración
7
Fase 2: Búsqueda y selección de asociaciones
Búsqueda de asociaciones relacionadas con Enfermedades Raras:
๏ Método 1: realizar una búsqueda por enfermedad y extraer las asociaciones en los 50 primeros resultados.
๏ Método 2: buscar en FEDER, Orpha.net y EURORIDS y generar un listado único con 438 asociaciones.
Selección de las asociaciones a analizar: ๏ Utilizando el resultado de la Fase 1 se
genera una lista con 100 asociaciones únicas.
SOrpha.net
EURORDIS
FEDER
8
Fase 3: Recopilación de datos
Se recopilan todas las URLs, datos de SERP1
y SERPN.
Se recopilan datos relativos
a enlaces, tamaño y
visibilidad.
Se recopila si existe tarjeta informativa de cada una de las
7.000 enfermedades.
Se programan 4 arañas diferentes para recopilar diferentes tipos de datos de las diferentes fuentes de información utilizadas.
9
Fase 4: Preparación de los resultados
Preparación de los datos finales: se utiliza un script Python para extraer los datos de todos los ficheros y generar un listado final.
Métricas utilizadas:
CITATIONFLOWIndica el número de menciones rea l izado sobre un dominio.
ALEXA LINKING INIndica la cantidad de portales que enlazan a una web.
SERPResultados obtenidos al realizar una búsqueda.
IMPACTO (WIF)Fórmula del Factor de Impacto Web:
URLs ÚNICASDiferencia entre los resultados de los motores de búsqueda.
Indica si existen páginas importantes enlazando a un contenido concreto.
LINKS REFERENCIA
Resultados
11
Tamaño por buscador
๏ Los resultados muestran que existe diferencia entre buscadores.๏ Los resultados de Google son mejores que los de Bing.๏ Los resultados obtenidos por Bing muestran disparidad de tamaño debido a
su sistema de resultados.
12
Tamaño por buscador
๏ Las gráficas de dispersión muestran una comparación de resultados entre Google (eje X) y Bing (eje Y) por asociación.
๏ Los resultados indican que el tamaño de los portales no es el adecuado.
Gráfica 1: Gráfico de dispersión de Hits en Google y Bing.
Gráfica 2: Gráfico de dispersión de menciones en Google y Bing.
13
Factor de Impacto Web
๏ Se calcula para cada una de las asociaciones por buscador.
๏ El 90% de los resultados se sitúan por debajo de los 10 puntos de impacto.
๏ Los resultados de Bing son incorrectos por el motivo indicado anteriormente.
๏ Los resultados muestran que el impacto de los portales no es bueno y debería ser mejorado.
Tabla 1: Resumen WIF mínimo, máximo y promedio.
14
Correlación de Spearman
๏ La correlación existente entre los resultados de búsqueda es similar.
๏ La correlación existente entre ambos buscadores supera el 0,5 de correlación, por lo que cualquiera de los dos buscadores es válido.
๏ Los correlación existente entre los resultados de Google indica que es más estable.
Tabla 2: Coeficiente de Spearman sobre datos recogidos.
15
Enlaces Externos
CITATIONFLOW
Mínimo: 0 Máximo: 58
LINKS DE REFERENCIA ALEXA LINKING IN
El numero de webs que enlazan a los portales es muy bajo
Los valores pueden ir desde 0 hasta 100, por l o q u e s e p u e d e e x t r a e r c o m o conc lus ión que e l impacto y visibilidad no es la adecuada.
Ú n i c a m e n t e 2 5 portales se encuentran enlazados.
La visibilidad de los o t r o s 7 5 % n o e s buena.
43% 11%
13%
33%
11-50
<10
55-99
+100
portales enlazados25
Gráfica 3: Porcentaje de resultados con portales que enlazan
16
Dr. Google
๏ R e s u l t a d o t r a n s v e r s a l d e l a investigación.
๏ L o s re s u l t a d o s i n d i c a n q u e únicamente el 1% de las 7.000 ER tiene una tarjeta de información en Google.
๏ En relación con el Top 50: 40 de las enfermedades tiene tarjeta asociada, por lo que el ranking de interés en el que se basa el estudio es adecuado.
17
Conclusiones
h i t s e n t o d a s l a s enfermedades del Top 50.
+100.000Asoc iac iones l i s tadas exhaustivamente en un directorio único.
438de los portales analizados tiene menos de 1.000 hits.
75%
calculado un impacto web muy bajo.
WIFde correlación en los resultados de Google.
0,95todos los objetivos del p r o y e c t o h a n s i d o alcanzados con éxito.
“La ciencia más útil es aquella cuyo fruto es el más comunicable”
Leonardo Da Vinci
19
Trabajo Futuro
๏ Se han observado limitaciones y nuevas posibilidades por lo que como trabajo futuro a realizar en la Tesis Doctoral se propone:
๏ Ampliar el trabajo a nivel Europeo y Mundial, añadiendo nuevos indicadores que amplíen la visión del trabajo.
๏ Estudiar las conexiones existentes entre las asociaciones y redes para comprobar su comunicación.
๏ Generar una versión web de con los resultados del proyecto.