Recull de dades de cicles formatius al Ripollès, curs 2012-13
Curs 1.5 Publicació de Dades
-
Upload
iopendatabcn -
Category
Data & Analytics
-
view
82 -
download
0
Transcript of Curs 1.5 Publicació de Dades
INICIATIVA BARCELONA OPEN DATA EL VALOR D’OBRIR LES DADES
Procés de Publicació de Dades
curs 1.5
Docents:Eduard Gil @edugil39Enric Montia @EnricMontia
INTRODUCCIÓ A LES DADES OBERTES
● Identificar les tasques previes que forman part d´un
procés de públicació de dades obertes.● Descriure el que i el perquè de les tasques
relacionades a un procés de públicacio de dades
obertes.● Aplicar tot allò après a casos concrets per ser capaç de
protagonitzar casos d'èxit.
Objectius
Publicació de Dades Obertes
● Un pla de dades obertes● Seleccionar les dades● Generar un Dataset● Publicar● Promocionar
Publicació de Dades Obertes
1. Començar amb un pla
5. Manteir-
lo
2. Selecció de les dades
4. Publicaci
ó
3. Creació
d’un Dataset
Procés de l’Open Data
Publicació de Dades Obertes
Pla de Dades Obertes
Tenir un Objectiu
Avaluar la Publicació i els usos actuals
Aconseguir Suport
Demostrar el valors
Pla de Dades Obertes
● Clarificar els objectius : Que vull aconseguir?
● Establir un pla de publicació: per on vull començar?
● No oblidar temes de LOPD i nou GRDP
Pla de Dades Obertes
Abans de decidir quines dades es publiquen com dades
obertes, les entitats públiques han de tenir una visió
general de les dades que es gestionen en l'actualitat, i per
tant podrien Inclouen bases de dades, registres, recollides
de dades i enquestes, conjunts de dades geoespacials etc.
Diagnòstic situació actual:
Pla de Dades Obertes
● Clarificar els objectius : Que vull aconseguir?● Establir un pla de publicació: per on vull començar?● Guia “Com fer un cas de negoci amb open data”
http://theodi.org/guides/how-make-business-case-open-data
Pla de Dades Obertes
● Buscar lideratge i suport: Directius, Open Data
Evangelists, TIC compartint informació sobre els
objectius i els resultats del pla.● Capturar evidències que les dades obertes estan
aportant valor: consultes, impacte, etc.
Escollir les Dades
Identificar les dades que tens
Seleccionar les dades obertes que vols
publicar
Desenvolupar un Pla de Publicació de Dades Obertes
Escollir les Dades
● Hi ha tres principals vies per seleccionar quines dades
es publiquen:■Actualització de les dades que ja estan en el domini
públic.■Seguir les millors pràctiques internacionals.■Les demandes a la unitat.
Escollir les Dades
Crear Datasets
Aplicar un format obert
Capturar els metadades
Aplicar una llicència oberta
Revisar els datasets
Crear Datasets
Després de seleccionar la informació que es desitja publicar
es necessari organitzar les dades de manera que pugui
posar a disposició per a baixar en formats llegibles per les
màquines i tenir en compte si existeixen o no estàndards
internacionals (INSPIRE, els 8 principis del OPEN
GOVERNMENT DATA).
Metadades
● Identificar Metadades: informació descriptiva sobre les
dades.
● Pot descriure elements com el contingut, el formats etc.
● Unes bones metadades poden permetre la
interoperabilitat amb altres data sets.
Metadades
● Hi ha tres tipus principals de metadades:■Les metadades descriptives (títol, autor)■Les metadades estructurals (pg x capítol)■Les metadades administratives (format)
Neteja de les Dades
● La neteja de dades és l'acte de descobriment i correcció
o eliminació de registres de dades errònies d'una taula o
base de dades. ● El procés de neteja de dades permet identificar dades
incompletes, incorrectes, inexactes, no pertinents, etc. i
després substituir, modificar o eliminar aquestes dades
bruts.● Després de la neteja, la base de dades podrà ser
compatible amb altres bases de dades similars en el
sistema.
Neteja de les Dades
● Si les dades estan netes, és més fàcil de combinar
diferents conjunts de dades i obtenir una visió més
profunda.
● Hi ha una sèrie d'errors comuns en les dades que
hauríem de tenir en compte en qualsevol conjunt de
dades que està treballant.
Neteja de les Dades
● Errors en el format de les dates: L'error més comú és
l'ús mixt de formats americans (MM/DD/AAAA) i
europeus (DD/MM/AAAA).● Les persones sovint tracten d'estalviar temps en
introduir dades abreujant termes. Si aquestes
abreviatures no són consistents, pot causar errors en el
conjunt de dades.
Neteja de les Dades
● Un registre duplicat és quan s'ha introduït la mateixa
peça de dades més d'una vegada. Sovint es produeixen
quan els conjunts de dades s'han combinat o perquè no
se sabia que ja existia una entrada.● Les dades redundats son qualsevol cosa que no sigui
rellevant per al seu treball amb el conjunt de dades.
Neteja de les Dades
● Un registre duplicat és quan s'ha introduït la mateixa
peça de dades més d'una vegada. Sovint es produeixen
quan els conjunts de dades s'han combinat o perquè no
se sabia que ja existia una entrada.● Les dades redundats son qualsevol cosa que no sigui
rellevant per al seu treball amb el conjunt de dades.
Neteja de les Dades
● Els valors numèrics en els conjunts de dades sovint
utilitzen diferents escales perquè sigui més fàcil per a un
ésser humà al llegir. No obstant, això per a una màquina
provoca errors.
● Els errors d'ortografia.
Open Refine 2.0 - Introducció
https://www.youtube.com/watch?v=B70J_H_zAWM
Neteja de les Dades
Llicències
El Sector Públic sobvint externalitza serveis, es fa necessari
explicitar en els contractes de servei que les dades
vinculades a l´activitat del contracte estaran subjectes al
Open Data i podran ser consultades per tothom de forma
gratuïta.
Llicències
Hi ha mètodes diferents per facilitar l'accés a dades
obertes: com dades en bloc (dadesdump), a través d'una
interfície de
programació d'aplicacions (API), com alimentació, a través
d'un punt final SPARQL, etc. El mètode més utilitzat i útil és
dades en
bloc, el que significa que el conjunt complet de dades ha
d'estar disponible en format descarregable.
Publicar
● Hem de decidir on publiquem les dades:■Web corporativa.■Portal de dades Obertes.
Publicar
Un catàleg de dades proporciona un registre o llista de tots
els conjunts de dades existents i un punter (URL) a on es
pot accedir a les dades. Un catàleg de dades de tots els
conjunts de dades obertes de dades disponibles és
generalment el component clau d'un portal de dades
obertes, a més de socials, notícies i els elements de la
comunitat.
Promoció
● Que la gent sàpiga que has obert alguns conjunts de
dades.● Si hi ha un cert grup de persones al que voleu arribar,
pensar quina seria la millor manera d'aconseguir el
missatge per a ells?● Cal per animar-los a utilitzar les seves dades.
Activitat final
Exercici pràctic de publicació de dades.
Activitat individual.Temps: 1,5 hores.
De dades no estructurades a dades estructurades
● Vegem com de propers estem a les dades no-
estructurades.
● Maneres d’estructurar dades no estructurades ?
● Vegem un exemple: https://www.youtube.com/watch?
v=OiskE1Jsr6A
De dades no estructurades a dades estructurades
● Extraiem el so del vídeo usant: www.vidtomp3.com
● Comprovem que l’àudio estigui ben descarregat en el
nostre ordinador.● Canviem el format fent servir:
www.audio.onlineconvert.com/convert-to-wav
De dades no estructurades a dades estructurades
● Ara anem a: https://speech-to-text-demo.mybluemix.net
● Pugem l’arxiu .wav i esperem la conversió a text (5 min)
● Copieu el text en un arxiu .txt i guardeu-lo.
De dades no estructurades a dades estructurades
● Visitem el web:
http://www.online-utility.org/text/analyzer.jsp
● Copiem el text i busquem a les estadístiques.
● Fem una fulla de càlcul amb les frases més usades de
tres paraules i la guardem com a CSV.
De dades no estructurades a dades estructurades
● Pugem la informació a http://demo.ckan.org
● Revisar que la informació estigui disponible online.
Activitat final
(Ara de veritat)
Exercici pràctic de publicació i anàlisi de dades.
Activitat individual.Temps: 1,5 hores.
Activitat final
Buscar a quines hores, en el primer trimestre de 2016, es van posar les multes més cares a Madrid.
Activitat individual.Temps: 1,5 hores.
Activitat final
És un bon portal de dades obertes el portal de l’Ajuntament de Madrid ?
Activitat individual.Temps: 1,5 hores.
Activitat final
Amb quins problemes ens trobem ?
Activitat individual.Temps: 1,5 hores.
Activitat final
Amb quins problemes ens trobem ?
Activitat individual.Temps: 1,5 hores.
>CD «Direcció_on_volem_el_.csv_combinat»
>copy «Direcció_on_són_els_.csv_a_combinar» «nom_del_nou_arxiu.csv»
Combinar .csv
Activitat individual.Temps: 1,5 hores.