#Aprender3C - Inteligencia colectiva + Colaboración = Infotecarios
Inteligencia Colectiva
-
Upload
domingo-gallardo-lopez -
Category
Technology
-
view
974 -
download
1
description
Transcript of Inteligencia Colectiva
Facilitando laInteligencia Colectiva
Herramientas, plataformas y principios
Domingo GallardoDCCIA, Robot Vison Group, IUII
[email protected] blogs.ua.es/domingo
twitter.com/domingogallardo
Índice
•Web 2.0• Inteligencia colectiva•Wikipedia• Linux• IC como Web 2.0 + Aprendizaje Automático
2
Web 2.0
10 años de Web 2.0
• 1999 Blogger• 2000 Explota la burbuja .com, phpBB• 2001 Wikipedia, Chris Anderson relanza Wired• 2003 MySpace, Google compra Blogger• 2004 Primera conferencia Web 2.0, Gmail,
Facebook• 2005 Artículo de Tim O’Reilly, Google Maps,
Digg, YouTube, Ubuntu, Yahoo compra Flickr y Delicious• 2006 Google Reader, Google compra YouTube• 2007 Twitter, FriendFeed, iPhone• 2008 Cloud computing, Google Chrome, Google Friend Connect• 2009 Google Wave
4
Principios web 2.0
• La web como plataforma• Los usuarios añaden valor• El poder de los enlaces• Servicios, no productos• Experiencias de usuario ricas• Aficionados vs. profesionales
5
What is Web 2.0 (Tim O’Reilly, 2005)
Lego Mindstorms
• Nace en 1998 (RIS)• Producto especializado: Lego
Technics, ladrillo NXT, sensores, lenguaje de programación visual • Nuevo impulso a partir de 2006:
Mindstorms NTX y NTX 2.0 (2009)
6
Prosumers
Comunidades de aficionados en Internet• Otros lenguajes: Java, C, C++, ...• Fotos, vídeos, blogs• Instrucciones para construir robots• Tiendas, libros
Lego apoya la comunidad• Páginas oficiales: NXTLog• Permite el hacking del ladrillo y
sensores• Comienza a permitir sensores y
actuadores de terceras partes
7The NXT Step
Prosumers
Comunidades de aficionados en Internet• Otros lenguajes: Java, C, C++, ...• Fotos, vídeos, blogs• Instrucciones para construir robots• Tiendas, libros
Lego apoya la comunidad• Páginas oficiales: NXTLog• Permite el hacking del ladrillo y
sensores• Comienza a permitir sensores y
actuadores de terceras partes
7The NXT Step
Aficionados vs. profesionales
“Tenemos numerosos ejemplos que demuestran que los aficionados pueden sobrepasar a los profesionales, cuando tienen el sistema adecuado que canalice sus esfuerzos. La Wikipedia es el más famoso.”
8
Paul Graham, Web 2.0, noviembre 2005
Inteligencia colectiva
¿Inteligencia Colectiva?
• Inteligencia - Palabra de ‘marketing’ bastante gastada• Colectiva - En el sentido de las redes sociales y de los
prosumers, donde los individuos generan contenidos y los comparten• Inteligencia Colectiva se usa a veces como nuevo término para
indicar un paso más allá de la Web 2.0• Crowdsourcing, wisdom of crowds, peer production
10
Google Trends
11
Google Trends
12
Google Trends
13
Google Trends
14
• 2004: Center for Collective Intelligence en el MIT, Libro ‘The wisdom of crowds’• 2006 Libro de T. Segaran ‘Programming
Collective Intelligence’• 2008 Libro de S. Alag ‘Collective
Intelligence in Action’
¿Campo de investigación?
• Campo muy disperso e inmaduro• Distintas temáticas• Equipos de robots,
swarm intelligence• Sociología, construcción
colaborativa de opinones, gobernabilidad de grupos• Psicología• Política• ...
15
Y sin embargo existe
16
Wikipedia
Linux
Debian
Delicious
DiggGoogle Search
Twitter Search
Flickr
Rating Amazon
Menéame
Jinni
PartigiRating iTunes
WhatthetrendTweetmygaming
DipityYouTubeGoogle News
GoodReadsReddit
Mozilla
Pero no aparece espontáneamente
• Si proporcionamos una herramienta colaborativa a un grupo para que interactúen, normalmente tenemos un fracaso• Ejemplo: proyectos fallidos de uso de wikis educativas • El modelo de innovación colaborativo sólo tiene éxito
cuando está diseñado a una tarea precisa y cuando podemos atraer con algún incentivo a los colaboradores más efectivos
17
The crowd is wise (when it’s focused), NY Times, julio 2009
Enfoque práctico de la IC
• Los sistemas que usan la IC son aquellos en los que los usuarios crean valor: a mayor número de usuarios, mejor funciona el sistema• ¿Qué elementos son los que mejoran la coordinación de los
usuarios?• Principios, patrones y prácticas
18
C. Crumlish, Designing Social Interfaces, Ed. O’Reilly, 2009
Algunos principios
• Principios estadísticos• El estimador menos sesgado es la media• Principios metodológicos• Nada está terminado• Principios sociales• Visión común• Transparencia• Principios tecnológicos• Ítems referenciable• APIs
19
El experimento del bote de caramelos
20
• ¿Cuántos caramelos hay en el bote?• Ejemplo de un problema de
decisión• Se dice que la mejor solución es
la media de las respuestas de los individuos del grupo• La probabilidad de acertar es
mejor si elegimos esta media que si escogemos la respuesta de algún individuo del grupo
Vamos a comprobarlo
¿Cuántas letras hay en la siguiente página?
21
22
Solución
Al final de la charla
23
Principios metodológicos
• Nada está terminado• Seguro que va a haber que hacer cambios en el servicio:
definir un proceso de desarrollo que gestione ese cambio• Ejemplo: Google Book Catalog
24
Ed Felten, Finding and Fixing Errors in Google’s Book Catalogue, Sept. 2009
Principios sociales
• Visión común• La comunidad define unos objetivos consensuados• O, al menos, tiene claro en qué dirección moverse y si se
mejora o se empeora el producto• Ejemplo: Wikipedia, Linux• Transparencia• Las actuaciones son transparentes y la comunidad aprende
de ello• Facilita el consenso y la toma de decisiones
25
26
La importancia de las URLs
• Los enlaces son la base de Google y del PageRank• Lo que está oculto no puede
formar parte de la conversación
APIs y mashups
• Los datos son tan importantes como las URLs• La web como una plataforma programable• APIs de los servicios: Twitter, Google Maps, Delicious• Es posible añadir valor y proporcionar nuevos servicios• Ejemplo: Whatthetrend
27
Wikipedia
Historia
• Jimmy Wales fundó Nupedia en marzo de 2000, como una enciclopedia gratuita editada por expertos contratados y pagados• Junto con Larry Sanger constituyeron la
Wikipedia alrededor de este primer grupo en enero de 2001• El primer año terminó con 20.000 artículos y
18 idiomas• Fork en 2002: Enciclopedia Libre Universal en
Español
29
30
Evolución de artículos y usuarios
• Crecimiento exponencial• más contenido lleva a más tráfico• lo que lleva a más ediciones• lo que lleva a más tráfico
• Modelo logístico• un máximo en el número de artículos• al final el crecimiento es cero• en el momento central, el crecimiento es máximo (agosto de 2006
con 60.000 artículos nuevos al mes)
[Modeling Wikipedia’s Growth]
30
Evolución de artículos y usuarios
• Crecimiento exponencial• más contenido lleva a más tráfico• lo que lleva a más ediciones• lo que lleva a más tráfico
• Modelo logístico• un máximo en el número de artículos• al final el crecimiento es cero• en el momento central, el crecimiento es máximo (agosto de 2006
con 60.000 artículos nuevos al mes)
[Modeling Wikipedia’s Growth]
30
Evolución de artículos y usuarios
• Crecimiento exponencial• más contenido lleva a más tráfico• lo que lleva a más ediciones• lo que lleva a más tráfico
• Modelo logístico• un máximo en el número de artículos• al final el crecimiento es cero• en el momento central, el crecimiento es máximo (agosto de 2006
con 60.000 artículos nuevos al mes)
[Modeling Wikipedia’s Growth]
30
Evolución de artículos y usuarios
• Crecimiento exponencial• más contenido lleva a más tráfico• lo que lleva a más ediciones• lo que lleva a más tráfico
• Modelo logístico• un máximo en el número de artículos• al final el crecimiento es cero• en el momento central, el crecimiento es máximo (agosto de 2006
con 60.000 artículos nuevos al mes)
[Modeling Wikipedia’s Growth]
El trabajo del 5%
31
Long Tail of user parcipation in Wikipedia
Tipos de usuario
32
Tipo Usuario Permisos en.wikipedia
Característicases.wikipedia
Anónimo
Autoconfirmado
Administrador(Bibliotecario)
Burócrata
Comisión de resolución de conflictos
Editar artículos (excepto protegidos), marcar borrado Pueden crear artículos
Crear artículos, editar artículos semi-protegidos, votar en ciertas elecciones Igual que inglés
Elegidos por la comunidad, acceso a herramientas, borrar artículos, bloqueos Igual que inglés
Eliminar permisos de administrador, bloqueos, revocar y aprobar ‘bots’
Todos los administradores son burócratas (votación: 41/16)
Arbitrar en los conflictos entre los bibliotecarios No existe (votación: 48/10)
[Tipos de usuarios]
Políticas de la Wikipedia
• En su origen• Punto de vista neutral• Verificabilidad• No investigación original
• Hoy: 28 políticas oficiales y 35 semi-políticas• Resumen en “los cinco pilares”• Wikipedia es una enciclopedia• Wikipedia tiene un punto de vista neutral• El contenido de la Wikipedia es libre y gratuito• Wikipedia tiene un código de conducta• No hay normas firmes en la Wikipedia
33
[WP:P] [Categoría:Wikipedia:Políticas]
Política de borrado
• El borrado de artículos siempre es fuente de debate• Colección de reglas que lo justifican: “la Wikipedia NO es”• Borrado rápido: procedimiento sencillo {{destruir|motivo}}.
Cualquiera puede hacerlo y un bibliotecario lo confirma.• Propuesta de borrado: etiqueta cuya permanecia después de 7
días determina el borrado del artículo {{subst:Propb|motivo}}
• Borrado mediante argumentación: procedimiento complejo que obliga a actualizar dos o tres páginas y abre una consulta de 14 días a la comunidad. Cualquiera puede solicitarlo (incluyendo usuarios anónimos).
34
[WP:PB] [WP:NOES]
Demo
• Vamos a hacer una demostración rápida de la política de borrado• Intentamos crear un artículo en la wikipedia inglesa y en la
española• Miramos las listas de cambios recientes: • Nuevas páginas • Páginas a borrar
35
La Wikipedia NO es
• La Wikipedia no es un diccionario• La Wikipedia no es un medio de publicación de ideas originales• La Wikipedia no es una tribuna (soapbox)• La Wikipedia no es un repositorio de enlaces, imágenes o
películas• La Wikipedia no es un blog, ni un proveedor de espacio en web,
ni una red social, ni un sitio para memoriales• La Wikipedia no es un manual, un libro de texto o una revista
científica• La Wikipedia no es una colección indiscriminada de información
36
Coordinación y colaboración
• Toda la comunicación se basa en páginas específicas de la Wiki y en un sistema de alertas sobre páginas. Algunas páginas de interés:• Café de la wikipedia• Tablón de anuncios de los bibliotecarios• Votaciones• Páginas especiales• Vandalismo en curso
• Sistema que hace complicada la comunicación entre usuariosCada wikipedista cuenta con una página de discusión en la que puede recibir mensajes de otros wikipedistas. Si alguien te deja un mensaje en tu página de discusión, verás que en la parte superior de cada página te aparecerá un recuadro que dice: «Tienes nuevos mensajes», con un enlace hacia tu página de discusión. Puedes responder de dos maneras. Una es escribir tu mensaje en la página de discusión de la persona a la que estás respondiendo. La otra forma es escribir la respuesta en tu propia página de discusión, debajo de su comentario (usando los dos puntos a modo de sangría). Las dos son comunes en Wikipedia; pero, recuerda que si respondes en tu propia página de discusión, al otro usuario no le aparecerá la nota de mensajes nuevos y quizás no lea tu respuesta.
37
MediaWiki
• Software que da soporte a la Wikipedia• Open source, cualquiera puede
instalarlo en un servidor• Linux, Web Server, PHP + MySQL• Extensiones, skins• Muchas otras plataformas de Wikis; MediaWiki es de las más
antiguas (2003)
38
Aplicación a la Wikipedia
• Problema principal: ¿cómo hacer que los cambios sean aprobados por la comunidad?• Método clásico: la comunidad vigila con las herramientas que
le da Wikimedia• ¿Nuevo método?
"The new feature, long advocated by the site's founder Jimmy Wales, eliminates [that restriction of blocking pages] by allowing anyone to edit these pages, even without logging in. The secret to being able to do this is that the new feature creates a queue where tens of thousands of longtime users of the site can approve these changes - changes that were previously completely forbidden."
39
Jimmy Wales (Haffington Post, Sept 2009)
Linux
Historia
• Movimiento hacker (1980)• Linus Torvalds escribe en 1991 el núcleo de
un sistema Unix libre que llama Linux . Se basa en la idea de Minix, y con la aspiración de ser el núcleo del proyecto GNU (creado en 1984 por Richard Stallman),• En octubre de 1991 Linus pone el código
fuente a disposición de la comunidad• Entre 2001 y 2004, tras 15 versiones de
desarrollo, se lanza la versión 1.0 de Linux• Hoy contribuyen al proyecto desarrolladores
de más de 20 compañías, incluyendo Google, Oracle, Intel e IBM
41
Historia
• Movimiento hacker (1980)• Linus Torvalds escribe en 1991 el núcleo de
un sistema Unix libre que llama Linux . Se basa en la idea de Minix, y con la aspiración de ser el núcleo del proyecto GNU (creado en 1984 por Richard Stallman),• En octubre de 1991 Linus pone el código
fuente a disposición de la comunidad• Entre 2001 y 2004, tras 15 versiones de
desarrollo, se lanza la versión 1.0 de Linux• Hoy contribuyen al proyecto desarrolladores
de más de 20 compañías, incluyendo Google, Oracle, Intel e IBM
41
Historia
• Movimiento hacker (1980)• Linus Torvalds escribe en 1991 el núcleo de
un sistema Unix libre que llama Linux . Se basa en la idea de Minix, y con la aspiración de ser el núcleo del proyecto GNU (creado en 1984 por Richard Stallman),• En octubre de 1991 Linus pone el código
fuente a disposición de la comunidad• Entre 2001 y 2004, tras 15 versiones de
desarrollo, se lanza la versión 1.0 de Linux• Hoy contribuyen al proyecto desarrolladores
de más de 20 compañías, incluyendo Google, Oracle, Intel e IBM
41
Algunas métricas
42
Linux Kernel Development (The Linux Foundation)
Algunas métricas
42
Linux Kernel Development (The Linux Foundation)
Algunas métricas
42
Linux Kernel Development (The Linux Foundation)
Algunas métricas
42
Linux Kernel Development (The Linux Foundation)
Algunas métricas
42
Linux Kernel Development (The Linux Foundation)
¿Quién colabora?
43
Greg Kroah Hartman on the Linux Kernel (Google Tech Talks)
Patches y control de versiones
• Patch: propuesta de cambio introducido en un determinado fichero (líneas a borrar, a añadir y a modificar)• El funcionamiento se basa en los comandos diff y patch de
Unix (Demo)• Hasta 2002, el control de versiones era manual, basándose
en scripts.• En 2002 se comenzó a utilizar un sistema propietario,
BitKepper. En 2005, Linus Torvalds desarrolló el sistema Git, que es el que se utiliza actualmente.
44
Desarrollo
45
Greg Kroah Hartman on the Linux Kernel (Google Tech Talks)
Ejemplo de cambio firmado
46
http://www.kernel.org/pub/linux/kernel/v2.6/
Versiones
• Versión estable y versión desarrollo• Cada cambio introducido puede
introducir nuevos errores, que deben ser pulidos, de ahí la idea de las dos ramas. La rama ‘estable’ no incorpora nuevas funcionalidades, sólo patches que arreglan errores. Versión 2.4: estable, versión 2.5: desarrollo.• Cambia en 2.6• Distintas ramas de desarrollo• Nuevo release cada 2/3 meses
47
Características comunes Open Source y Wikipedia
• Un dictador benevolente, el creador del proyecto• Un conjunto de usuarios avanzados o fundadores que
determinan el ethos del projecto• Comunidad abierta a nuevos usuarios • Colaboración distribuida geográficamente, asíncrona y en red• Transparencia en las decisiones• Colaboración, mejora iterativa de las políticas, creación de
consensos• Mecanismos para la historia institucional• Sistema político híbrido basado en la meritocracia
48
Analysis of open source principles in diverse collaborative communities (First Monday, Jun 2006)
IC como Web 2.0 + Aprendizaje Automático
Aplicaciones AA
• La disciplina del aprendizaje automático (machine learning) ha desarrallo una gran cantidad de teorías, técnicas y algoritmos de enorme utilidad• Ejemplos de problemas:• Clasificación supervisada y no supervisada• Clustering• Optimización de funciones• Vecino más cercano
50
Selección de información
51
• Infinitas fuentes que producen noticias, información, noticias, comentarios, ...• Un problema perfecto para la inteligencia colectiva: usuarios-
recolectores y usuarios-consumidores de información
www.lamejornaranja.com
Sitios de promoción de ideas
• Solución 1 (centralizada): los recolectores cuelgan las ideas (o noticias, o URLs) en un sitio y los consumidores consensuan las más interesantes para la comunidad• Ejemplos: meneame, reddit, digg, slashdot• Enfoques: • Limitar el número de votos por usuario: UserVoice,
Kindling• Asignar una importancia o relevancia a ciertos
consumidores en base a algún algoritmo especial; sus votos cuentan más que el resto
52
Centradas en la identidad
• Solución 2 (distribuida): los recolectores se identifican y algún servicio permite que los consumidores seleccionen qué recolectores les interesan• Ejemplo: Twitter, delicious, blogger• Un mismo usuario tiene el papel de consumidor y recolector
53
• Las relaciones son públicas, creándose una compleja red de conexiones que puede ser estudiada con algoritmos avanzados de grafos
Representación y métrica
• Para utilizar las técnicas del AA es necesario representar los datos como puntos en un espacio n-dimensional• Métrica: distancia entre dos puntos del espacio• Ejemplo: ¿Cómo de parecidos son dos textos?• Dimensiones: palabras • Coordenada en cada dimensión:
número de veces que aparececada palabra en el texto
54
Ejemplo
55
“Marte” “Cohete” “Programación” “Java” “Perdidos”
Post 1 5 2 0 0 1
Post 2 0 0 3 4 0
Post 3 0 0 4 1 3
...
Clustering
56
D. Easley, J. Kleinberg, Networks, Crowds and Markets, 2010
Grafos
57
• La naturaleza referencial de la web permite construir grafos de enlaces• Algoritmos y técnicas basadas en
grafos• PageRank• Caminos aleatorios• Análisis espectral• Para encontrar• Páginas con más autoridad• Anuncios relacionados con
búsquedas• Clusters de páginas relacionadas
Nuevas herramientas
• Nuevas herramientas proporcionan nuevos datos• Twitter: frases, hora del día en la que se dice la frase
58
Jeff Clark, Temporal Correlation for Words in Tweets
La web semántica
• La idea de la web semántica es simple en teoría, aunque muy complicada en la práctica: unir un conjunto de tecnologías con las que sea posible enlazar distintos recursos web y conceptos, interconectando la información y los datos de la forma en que HTML y HTTP lo ha hecho en Internet.• Tim Berners-Lee: “Linked Data is the
Semantic Web done right”• Tecnologías: XML, Resource Description
Framework (RDF), SPARQL
59
Conclusiones
Dos modelos
• Hemos revisado dos modelos de inteligencia colectiva: colaborativa y automática• Modelos complementarios• Distintas técnicas y métodos en cada uno de ellos• Conjunto de principios comunes• Transparencia• Referencia• Apertura
61
El futuro de la ICEl futuro social• Educar en los principios de participación, colaboración y transparencia• El fenómeno de la larga cola y la especialización será cada vez más relevanteEl futuro tecnológico• HTML5 y GoogleWave van a suponer una revolución• Se introducirán técnicas y métodos avanzados de filtrado se introducirán en
proyectos como la WikipediaEl futuro científico• Cada vez más información disponible en tiempo real (blogs, twitters, tags,
imágenes, ...) y cada vez más enlazada• Un enorme data set para que se prueben los distintos enfoques y técnicas
de machine learning
62
ReferenciasPhoebe Ayers, Charles Matthews & Ben Yates, “How Wikipedia Works”, No Startch Press, 2008
Jill Coffin: “Analysis of open source principles in diverse collaborative communities”, First Monday, vol 11, n. 6, June 2006
John Corbet: “How to participate in the Linux Community”, The Linux Foundation Developer Network
Andrew Lih, “The Wikipedia revolution”, Hyperion, 2009
Tim O’Reilly: “What is Web 2.0”
Toby Segaran: Programming Collective Intelligence, O'Reilly, 2007
Toby Segaran, y otros : Programming the Semantic Web, O’Reilly, 2009
Don Tappscott & Anthony Williams : “Wikinomics: how mass collaboration changes everything”, Portfolio, 2006
Varios autores, Critical Perspectives on Web 2.0, First Monday, March 2008
63
Solución: 2.014 letras¿Ha acertado el grupo?
64