Post on 08-Jan-2016
description
Análisis de la persistencia y Análisis de la persistencia y del estado de páginas web en del estado de páginas web en
los resultados de Googlelos resultados de Google
José Luis Ortega, José Antonio José Luis Ortega, José Antonio Prieto, Natalia Arroyo, Víctor Prieto, Natalia Arroyo, Víctor
Pareja, Isidro AguilloPareja, Isidro Aguillo
Laboratorio de InternetLaboratorio de Internet
CINDOC (CSIC)CINDOC (CSIC) jortega@cindoc.csic.esjortega@cindoc.csic.es
IntroducciónIntroducción • Crecimiento exponencial del web en la Crecimiento exponencial del web en la
década de los noventa.década de los noventa.– Incorporación masiva de contenidos.Incorporación masiva de contenidos.– Medio de gran expectativa social y economica.Medio de gran expectativa social y economica.
• El ritmo de crecimiento de sedes web se El ritmo de crecimiento de sedes web se ralentiza hasta llegar, en el periodo 2001-ralentiza hasta llegar, en el periodo 2001-2002, a un decrecimiento del 1%2002, a un decrecimiento del 1% ( (O’Neill O’Neill et et alal., 2003., 2003).).– Crisis de las Crisis de las puntocom.puntocom.– Estabilización en la incorporación de contenidos.Estabilización en la incorporación de contenidos.
Trabajos relacionadosTrabajos relacionados
• Harter y Kim (1996): Harter y Kim (1996): – citas electrónicas en revistas electrónicas.citas electrónicas en revistas electrónicas.– 1/3 no disponibles.1/3 no disponibles.
• Koehler (1999, 2002, 2004): Koehler (1999, 2002, 2004): – periodo 1999 – 2001.periodo 1999 – 2001.– páginas operativas sólo el 34,4%páginas operativas sólo el 34,4%
• Nelson y Allen (2002): Nelson y Allen (2002): – bibliotecas digitales a lo largo de un año.bibliotecas digitales a lo largo de un año.– 3% de objetos no disponibles (3% de objetos no disponibles (linkrotlinkrot).).– Medio más estable. Medio más estable.
ObjetivosObjetivos
• Estabilidad de los índices del buscador Estabilidad de los índices del buscador Google.Google.
• Estado y disponibilidad de los Estado y disponibilidad de los resultados.resultados.
• Estimación de la persistencia en las Estimación de la persistencia en las consultas.consultas.
MetodologíaMetodología I I
• Tres consultasTres consultas– ““alhambra de granadaalhambra de granada” (500 resultados)” (500 resultados)– ““mezquita de cordobamezquita de cordoba” (500 resultados)” (500 resultados)– ““catedral de jaencatedral de jaen” (230 resultados)” (230 resultados)
• durante 15 semanas (frec. semanal)durante 15 semanas (frec. semanal)– del 29 de enero de 2004 al 6 de mayo de del 29 de enero de 2004 al 6 de mayo de
20042004
Metodología IIMetodología II
• Seguimiento de las páginas obtenidas a Seguimiento de las páginas obtenidas a partir de la primera consulta.partir de la primera consulta.
• Disponibilidad de los resultados a lo Disponibilidad de los resultados a lo largo del tiempo.largo del tiempo.
Metodología IIIMetodología IIIHerramientasHerramientas
• Web Data Extractor 4.0Web Data Extractor 4.0– Extracción de los resultados de las Extracción de los resultados de las
distintas consultas realizadas.distintas consultas realizadas.
• Xenu's Link SleuthXenu's Link Sleuth– Comprobación del estado en que se Comprobación del estado en que se
encuentran dichos resultados.encuentran dichos resultados.
ResultadosResultados
El número de documentos que El número de documentos que permanecen en cada consulta, originarios permanecen en cada consulta, originarios de la primera, desciende describiendo de la primera, desciende describiendo una curva logarítmica inversa.una curva logarítmica inversa.
RR22< 0,9< 0,9
ResultadosResultados
• Se asemeja al descenso de la actividad Se asemeja al descenso de la actividad radioactiva de un isótopo a lo largo del radioactiva de un isótopo a lo largo del tiempo.tiempo.
• Permite estimar el ritmo de decaimiento Permite estimar el ritmo de decaimiento de la consultade la consulta..
Vida MediaVida Media
Tiempo transcurrido desde la observación Tiempo transcurrido desde la observación original hasta el momento en que sólo original hasta el momento en que sólo recuperamos la mitad de resultados de la recuperamos la mitad de resultados de la consulta original.consulta original.
Consultas Vida Media
alhambra de granada 0,048
mezquita de cordoba 0,058catedral de jaen 0,227
Fórmula del DecaimientoFórmula del Decaimiento
RRtt=R=R00ee(- (- t)t)
DondeDonde= -0,693t/T (1/2)= -0,693t/T (1/2)
• RRtt = Persistencia de resultados después del = Persistencia de resultados después del intervalo intervalo tt
• RR00 = Resultados de la primera consulta. = Resultados de la primera consulta.• ee = base del logaritmo natural (2,718...). = base del logaritmo natural (2,718...).• tt = tiempo transcurrido en años.= tiempo transcurrido en años.• TT(1/2)(1/2) = Vida Media de la consulta.= Vida Media de la consulta.
ResultadosResultados“alhambra de granada”“alhambra de granada”
1
10
100
1000
0 7 14 21 28 35 42 49 56 63 70 77 84 91 98
Días
Re
su
lta
do
s c
on
sta
nte
s
Observados
Calculados
ResultadosResultados“mezquita de cordoba”“mezquita de cordoba”
1
10
100
1000
0 7 14 21 28 35 42 49 56 63 70 77 84 91 98
Días
Re
su
lta
do
s c
on
sta
nte
s
Observados
Calculados
ResultadosResultados“catedral de jaen”“catedral de jaen”
R2 = 0,9782
0
50
100
150
200
250
1 7 14 21 28 35 42 49 56 63 70 77 84 91 98
Observaciones
Re
su
lta
do
s c
on
sta
nte
s
ResultadosResultadosFormatosFormatos
Mayor permanencia para páginas estáticas Mayor permanencia para páginas estáticas frente a páginas dinámicas y ficheros de frente a páginas dinámicas y ficheros de programación.programación.
Consultas Programación
alhambra de granada 1,2%
mezquita de cordoba 3,67%
catedral de jaen 0,96%
ResultadosResultadosEstadoEstado
Alto porcentaje de páginas no operativas Alto porcentaje de páginas no operativas ((linkrotlinkrot).).
Entre 14,2% y 27%Entre 14,2% y 27%
Consultas Forbidden Request Not Found OK
alhambra de granada 1,99% 12,24% 83,7%
mezquita de cordoba 9,08% 18% 71,26%
catedral de jaen 6,78% 15,77% 72,78%
Discusión y ConclusionesDiscusión y Conclusiones I I
• Los índices de Google están diseñados Los índices de Google están diseñados para el posicionamiento pero no para para el posicionamiento pero no para detectar páginas desaparecidas.detectar páginas desaparecidas.
• Dificultad de detectar los Dificultad de detectar los soft 404.soft 404.– Bar-Yossef et al. Bar-Yossef et al. (2004): 25% de los 200 (2004): 25% de los 200
(OK) son (OK) son soft 404soft 404..
• Se estima que el 14% de las páginas Se estima que el 14% de las páginas indizadas en Google han desaparecido.indizadas en Google han desaparecido.
Discusión y Conclusiones IIDiscusión y Conclusiones II
• La Vida Media nos permite estimar la La Vida Media nos permite estimar la variabilidad en una consulta.variabilidad en una consulta.
• La formula del Decaimiento nos permite La formula del Decaimiento nos permite estimar los contenidos más duraderos.estimar los contenidos más duraderos.
• Evaluación y mejora de los buscadores. Evaluación y mejora de los buscadores.
Discusión y Conclusiones IIIDiscusión y Conclusiones IIILimitacionesLimitaciones
• No se puede generalizar con sólo tres No se puede generalizar con sólo tres consultas.consultas.
• ¿Es esta realidad propia de Google o ¿Es esta realidad propia de Google o es extensible al resto de buscadores?es extensible al resto de buscadores?
• ¿Y al resto de Internet (Bibliotecas ¿Y al resto de Internet (Bibliotecas Digitales, FTP, etc.)?Digitales, FTP, etc.)?