SEO y Web Semántica en Congreso Web

Post on 14-Dec-2014

8.972 views 0 download

description

Conferencia sobre el SEO y la semántica en Congreso Web Zaragoza. Microformatos, microdatos, ontologías etc.

Transcript of SEO y Web Semántica en Congreso Web

SEOMÁNTICA

@lakil - SEO-20.comLakil Essady

Modelo clásico de indexación

Funcionamiento actual de los buscadores

Bases de datos de Google

G gle

Índice inverso

Precio, entrada, incluyen,conferencias,talleres,total, suman, horas, contenidos impartidos,4,salas,paralelas,ponentes, importante, networking, 500,asistentes España.

La búsqueda en el índice es muy fácil usando booleanos OR y AND

Meter todas las palabras en un saco no permite tener en cuenta las relaciones semánticas y sintácticas entre ellas.

Para mejorar este sistema se está trabajando en 2 líneas:

1.Entender las relaciones entre palabras (semántica)

2.Identificar grupos de palabras (sintaxis)

¿SEMÁNTICA?

Belén Esteban la caga con la cirugía estéticaBelén estaban ha intentado mejorar su cara y la ha cagado todavía más… su nariz parece de una adicta a la droga…http://www.exemple.com/answers/belen-esteban-321/

* La noticia es solo ejemplo y no es un contenido real

Resultados no relevantes

¿Porqué ocurre esto?

Falta de ontologías

una ontología define los términos que se usan para describir y representar un cierto dominio.

Objeto

Sujeto

Predicado

Estructura de una Ontología

El recurso que vayamos a describir

Propiedad o relación del sujeto

El Valor del sujeto o el otro objeto con el que se quiere establecer una relación

Congreso Web

reunión

charla

Ponentes

personas

expertos

4 de junio

SEO

buscadores

marketing

día

fecha

tiempo

ahora

actualmente

mes

hoy

Evento seo

conferenciaEsta semana

Ejemplo de una ontología

Congreso Web

reunión

charla

Ponentes

personas

expertos

4 de junio

SEO

buscadores

marketing

día

fecha

tiempo

ahora

actualmente

mes

hoy

Evento seo

conferenciaEsta semana

Ejemplo de una ontología

El buscador entenderá las relaciones entre palabras, y devolverá un resultado relevante

Congreso SEOProfesional

reunión

charla

Ponentes

personas

expertos

Miguel López

4 de junio

SEO

buscadores

marketing

día

fecha

tiempo

ahora

actualmente

mes

hoy

Evento

conferenciaEsta semana

Ejemplo de una ontología

SEO es marketing se lleva acabo en buscadoresConferencia se lleva a cabo en un eventoCongreso Web es un eventoCongreso Web habla de SEOsemana período de tiempo de siete días consecutivos4 de junio es hoyHoy forma parte de esta semanaCongreso Web es esta semana

Conferencia seo esta semana = Congreso Web

El problema es que necesitamos muchísimas

ontologías para que esto funcione.

Ontologías más usadas

1. FOAF (http://xmlns.com/foaf/0.1/): describiendo personas, las relaciones entre ellas y las cosas que crean y hacen.

2. Geospatial (http://www.w3.org/2003/01/geo/wgs84_pos#): describiendo la posición de los objetos.

3. DOAP (http://usefulinc.com/ns/doap#):Describiendo proyectos de software libre mediante RDF, y que así puedan ser procesados fácilmente de una manera automática.

4. GoodRelations es un vocabulario estándar para comercio electrónico.

5. RDFa

6. OWL

ETC…

RDF

RDFa

<div>Mi nombre es Roberto Sánchez, pero me llaman "Rober". Esta es mi página principal: <a href="http://www.example.com">www.example.com</a>.Vivo en Alcobendas (Madrid) y trabajo de ingeniero en ACME S.A.</div>

HTML sin RDF

RDFaHTML con RDFa

<div xmlns:v="http://rdf.data-vocabulary.org/#" typeof="v:Person"> Mi nombre es <span property="v:name">Roberto Sánchez</span>, pero me llaman <span property="v:nickname">Rober</span>. Esta es mi página principal: <a href="http://www.example.com" rel="v:url">www.example.com</a>. Vivo en Alcobendas (Madrid) y trabajo de <span property="v:title">ingeniero</span> en <span property="v:affiliation">ACME S.A.</span>.</div>

Declarar el NameSpace que vaymos a usar

RDFaHTML con RDFa http://rdf.data-vocabulary.org/#

<rdfs:Class rdf:ID="Person"><rdfs:comment>Represents a Person, living/dead/fictional.</rdfs:comment><rdfs:subClassOf rdf:resource="http://www.w3.org/1999/02/22-rdf-syntax-ns#Resource"/></rdfs:Class>

<rdf:Property rdf:ID="name"><rdfs:domain rdf:resource="http://www.w3.org/1999/02/22-rdf-syntax-ns#Resource"/></rdf:Property><rdf:Property rdf:ID="nickname"><rdfs:domain rdf:resource="#Person"/></rdf:Property><rdf:Property rdf:ID="photo"><rdfs:domain rdf:resource="http://www.w3.org/1999/02/22-rdf-syntax-ns#Resource"/></rdf:Property>

RDFaHTML con RDFa http://rdf.data-vocabulary.org/#

Postal-code

Adress

Postal-code

Street-adress

region

Country-name

RDFaHTML con RDFa http://rdf.data-vocabulary.org/#

Para visualizar Datos de archivos RDFa como http://rdf.data-vocabulary.org/#

Se puede usar

RDF Gravity 1.0

HTML5 y los microdatos

Mi nombre es Roberto Sánchez, pero me llaman "Rober". Esta es mi página principal: www.example.com.Vivo en Alcobendas (Madrid) y trabajo de ingeniero en ACME S.A.

Texto

<div>Mi nombre es Roberto Sánchez, pero me llaman "Rober". Esta es mi página principal: <a href="http://www.example.com">www.example.com</a>.Vivo en Alcobendas (Madrid) y trabajo de ingeniero en ACME S.A.</div>

HTML clásico

HTML enriquecido con Microdatos

<div itemscope itemtype="http://data-vocabulary.org/Person">

Mi nombre es <span itemprop="name">Roberto Sánchez</span>,

pero me llaman <span itemprop="nickname">Rober</span>. Esta es mi página principal: <a href="http://www.example.com" itemprop="url">www.example.com</a>. Vivo en Alcobendas (Madrid) y trabajo de <span itemprop="title">ingeniero</span> en <span itemprop="affiliation">ACME S.A.</span>.</div>

Microdatos http://data-vocabulary.org/Person

schema.orgschema.orgUna serie de microdatos esquemas que los Webmasters podrían utilizar para sus Páginas Web para mejorar su apariencia en buscadores, pactados por Google Yahoo y Bing

• Painting• Photograph• Recipe• Review• Sculpture• TVEpisode• TVSeason• TVSeries• WebPage• WebPageElement

• Event• Organization• Person• Place• Product• CreativeWork

• Article• Blog• Book• ItemList• Map• MediaObject• Movie• MusicPlaylist• MusicRecording

Si le estructuramos tanto nuestros datos, será posible que Agentes inteligentes como Google

accedan a nuestros datos, que las puedan

compartir, y presentar de la forma (diseño) que ellos quieran.

Posible impacto comercial

Interpretación de estructuras sintácticas

La separación de las palabras usando métodos estadísticos no permite identificar expresiones hechas o nombres de identidades.

• Tirar cohetes• Tocar los huevos• De puta madre • Dar la lata

Puta AND Madre

Puta OR MadrePuta Madre – estupendo - genial

El gran incendio de Chicago del siglo XX

Para ello tiene que entender bien las sintagmas.

Hay muchísimas posibles sintagmas:1.El gran incendio2.Chicago en el siglo XX3.El grán incendio de chicago del siglo XX

El gran incendio de Chicago del siglo XX

El video del incendio subido a facebook

Para entender los núcleos de las sintagmas Google estaría usando ya los llamados N-gramas:

N-gramas: se usan para procesar estadísticamente el lenguaje humano, y detectar las posibles sintagmas.

Unigramas: unidades de una sola palabraBigramas: unidades de dos palabrasTrigramas: unidades de tres palabras…

En 2006 Google proceso una base de datos de 1.024.908.267.229 palabras en inglés(Un archivo comprimido de 24 GB) y se ha encontrado:

Número de fichas: 1.024.908.267.229Número de frases: 95.119.665.584Número de unigramas: 13.588.391Número de bigramas: 314.843.401Número de trigramas: 977.069.902Número de fourgrams: 1.313.818.354Número de fivegrams: 1.176.470.663

Con la nueva infraestructura de Cafeine, probablemente esto ya esté en funcionamiento

El granGran incendioGran de chicagoDe chicago granChicago XXSiglo XX….

Comprar los resultados en un texto con otros resultados en otros documentos y calcular la probabilidad de aparición de un término determinado:

G-gramas Probabilidad de aparición

El gran SI

Gran incendio NO

Gran de chicago SI

De chicago gran NI

Siglo XX SI

… …

Con la nueva infraestructura de Cafeine, probablemente esto ya esté en funcionamiento

Implicaciones de los avances en la interpretación del lenguaje humano:

1.Usar siempre que podamos un etiquetado semántico

2.El orden en el que se escriben las palabras es importante, la presencia de las palabras clave de forma aislada no funcionará igual de bien.

3.Las preposiciones vuelven a ser importantes, los n-gramas los toman en cuenta para poder identificar el núcleo del sintagma.

4.La Relevancia supera a popularidad.

¿PREGUNTAS?

Twitter

@lakilBlog

SEO-20.com

Gracias