Objectius
-
Upload
raven-barker -
Category
Documents
-
view
20 -
download
2
description
Transcript of Objectius
Síntesi de la parla amb emocions en el domini de les converses virtuals. La
problemàtica del text.
Yesika Laplaza.
Objectius
Presentar les característiques generals de les converses virtuals
Plantejar la problemàtica existent a l’hora de tractar amb aquests tipus de textos
Proposar un mètode per normalitzar aquests textos
Converses virtuals
Són híbrids entre la oralitat i l’escriptura. Oralitat:
Col·loquial Sintaxi y morfologia simples La ortografia no segueix la norma Particularitats fonètiques Caràcter no planificat, no elaborat i no
revisat
Escriptura: Forma gràfica Permanència en el temps
Converses virtuals
Es caracteritzen per:
La rapidesa exigida a l’hora d’enviar els missatges
To informal i desig de jugar amb el llenguatge
Aproximació a la llengua oral
Rapidesa per enviar missatges
S’eliminen grafies que no representen un fonema concret
Hombre > ombre Unificació de diverses grafies
C, Q > K cuando > kuando quieres > kieres Supressió d’accents i signes de puntuació
¡Vamos! Que estoy más sola que la una > vamos q estoy mas sola q la una
Combinació de xifres i lletres
Hola morenito25 Ús de signes matemàtics
Por dios > x dios Addició de grafies en paraules concretes
Sí > sip No > nop
To informal i desig de jugar amb el llenguatge
Pèrdua de la [d] intervocàlica més enllà dels participis
Joder > Joer
Supressió d’elements per fonètica sintàcticaDe eso > deso
Supressió de síl·labesPara > pa Nada > na
Aproximació a la llengua oral
Supressió de sons inicials (Baby talk)buenas > nas
Canvi de grafiavale > fale
Substitució de grafiesbueno > weno
Monoftongaciópues > pos
Repetició de grafies per simular la prosòdiahhhhhoooolllllaaaa!!!!!
La paradójica historia del virus gripal H1N1, detectado, observado y tratado con unos recursos biomédicos e informativos sin precedente mundial, ha puesto en un compromiso a los gobiernos, a los científicos y a la Organización Mundial de la Salud (OMS), que erraron estrepitosamente al pronosticar su gravedad y actuaron como si la humanidad afrontara un mortífero peligro. A punto de cumplirse un año de la primera alerta, todos se esfuerzan ahora en exponer ante la opinión pública una cierta autocrítica que salve su credibilidad en el futuro. La OMS concluye hoy su análisis sobre lo sucedido, una reflexión que durante tres días han realizado 29 expertos que intentan justificar los errores con la «sorprendente» actuación del desconocido virus de la gripe A.
El Periódico, 14 de abril de 2010.
<"Lidia..."/> aun no has acabado examenes?<"manketú”/> no, acabo mañana<"Lidia..."/> ueueee<"manketú"/> ya te digo...mi coco esta ya muerto<"Lidia..."/> jajaja<"Lidia..."/> pobreta<"Lidia..."/> pero ya solo t keda un dia!! :D<"manketú"/> siiiii, y luego vacaciones q me voy a coger<"Lidia..."/> si?<"Lidia..."/> marxes?<"Lidia..."/> o vacaciones d semanita sabatica?<"manketú"/> jajaja, eso eso<"manketú"/> ademas viene alex, asi q estaremos x aki<"Lidia..."/> si?<"Lidia..."/> uale!<"Lidia..."/> s verdad!<"Lidia..."/> cuando venia?<"manketú"/> hoy x la noche<"Lidia..."/> uouoo<"Lidia..."/> tu crees k es bueno? xk si mñn tienes el examen... tututu... 8-)<"Lidia..."/> jajajaj<"manketú"/> jajajajajaj<"manketú"/> ya...pero bueno, q le vamos a hacer<"manketú"/> total, en un principio no me iba a presentar pq ya estoy hasta los huevos, pero me convencio pa q lo hiciera<"manketú"/> y como es el ultimo…
Normalització del text
Actualment els conversors de text a parla només tracten textos normatius i sense errors
Ampliar l’ús dels correctors a textos informals i no normatius
Normalització del text
Presa de decisions:
Quines paraules es volen normalitzar i quines es mantindran
Quines necessitats presenta el normalitzador
Què es normalitza?
Es normalitzarà tots els “errors” ortogràfics comesos pels usuaris
ske (es que) besame (bésame)
telo (te lo) b0rrax0s (borrachos)
a excepció de les paraules pertanyents a:
Registre oral col·loquial: uni, privi, cumpleañacos, insti, japos, pa’, na, to, dejao
Baby talk: nas, toy, pos
Què es normalitza?
Problemes de pragmàtica
[david19bcn] bienvenido al maricomio[m_visto_d_mujr] maricomio?[m_visto_d_mujr] eso sera por mi
[DDM] por la iglesio o por lo civil?[DDM] iglesio... jajajaj
Necessitats normalitzador
Ha de ser completament AUTOMÀTIC. L’usuari no ha d’intervenir en cap moment
La paraula ‘errònia’ ha de ser substituïda al mateix text
S’ha d’adaptar al sistema del conversor de veu Cereproc
Normalització del text
Analitzar el llenguatge que es fa servir en aquest àmbit
Avaluar el possible ús i adaptació del Corrector del GLiCom
Creació d’un normalitzador propi
Corpus
Format per 46 conversacions: 7 públiques 39 privades
Extretes durant el 2008 de: Messenger (35) Gmail (4) Inforchat (7)
Edat dels usuaris: 18-35 anys
Nombre d’intervencions: 8.782
Nombre de tokens: 40.537
Anàlisi del text
Paraules incorrectes*: 7.872 (19,4%)
ERRORS PER PARAULA
PARAULES FREQÜÈNCIA RESPECTE AL
CORPUS D’ERRORS
1 ERROR 6018 76,44%
2 ERRORS 1652 20,98%
3 ERRORS 176 2,23%
4 ERRORS 26 0,33%
* Paraules que no apareixen al diccionari de treball (959.441 paraules)
Substitució
Substitucions sistemàtiques (71.3%)
q – que k – que k – qu 0 – o
x – ch k – c d – de w – bu
Accentuació
negativa (23.85%)
positiva (0.13%)
Dubtes ortogràfics (2.13%)
b – v (balorado / beo) g – j (deges / personage)
Errors d’escriptura (1.65%)
priciosa (preciosa) acuatoriano (ecuatoriano)
Proximitat tecles (0.93%)
i – u (rebiscar) b-n (ascebder) b – h (bablar)
Eliminació
FENÒMEN FREQÜÈNCIA APARICIÓ
PERCENTATGE
ESPAI EN BLANC 287 47.59 %
VOCALS 215 35.65 %
CONSONANTS 101 16.75 %
Eliminació
INICI FINAL INTERIOR
ERROR 58 (18.35%) 22 (7%) 226 (71.5%)
PARAULA ANTERIOR
6 (2%) - -
PARAULA SEGÜENT
- 4 (1.26%) -
Situacions d’eliminació de vocals i consonants
Eliminació
Signes de puntuació punts suspensius claro amor..yo incluida coma bueno,mañana tengo q hacer mil
cosas exclamacions crea tu propio bruto!!es gratuito
Combinació de diferents elements preposició + determinant dela alo verb + pronom metenadie preposició + pronom anadie deti
Inserció
PRIMERA GRAFIA
INTERIOR DE
PARAULA
ÚLTIMA GRAFIA
TOTAL
Error ortogràfic
8 (6.4%) 20 (16%) 11 (8.8%) 39 (331.2%)
Inici paraula següent
- - 6 (4.8%) 6 (4.8%)
Final paraula anterior
14 (11.2%) - - 14 (11.2%)
Tecles pròximes
4 (3.2%) 37 (29.6%) 13 ( 10.4%) 54 (43.2%)
Repetició de grafies
- 2 (1.6%) - 2 (1.6%)
Característiques xat
- - 10 (8%) 10 (8%)
Total 26 (20.8%) 59 (47.2%) 40 (32%) 125 (100%)
Todo se creduce a las mates
Solo ke eresp esao
Yo tengo amigo schilenos
No la vcerdad
Esto sta aburrrido hoy ee
Sip
Transposició
POSICIÓ FREQÜÈNCIA APARICIÓ
PERCENTATGE
INICIAL 23 39.65%
FINAL 21 36.20%
INTERIOR 14 24.15%
Repetició
Poden afectar a: Paraules Elements paralingüístics Emoticones
Aporten informació prosòdica i expressiva
Diferenciar quan és una repetició i quan no
Holaaa Aaroonnn
Repetició Diferents tipus de repeticions
holaaaa jajajajajaja :-))))))) :-(:-(:-(
Variació en el nombre de grafies Es miaaaaa Mmmmmeeeee aaaaabbbbuuuurrrrooo
Variació de la posició un besooooo chavaliiiita guaaaapaaaa
La paraula conté números, símbols o signes
Sí No
Comprovar si és:
Dígit
Dirección electrónica
Paraula amb signe
Paraula amb símbol
Emoticona
Comprovar si la paraula hi és al diccionari
No Sí
Comprovar si és:
Abreviatura
Error freqüent
Element paralingüístic
Conté caràcters repetits
Modificar la paraula:
Substitució
Eliminació
Inserció
transposició
Comprovar la paraula al diccionari, abreviatura, errors freqüents, elements paralingüístics
Comprovar la paraula al diccionari, abreviatura, errors freqüents, elements paralingüístics
La paraula és correcte
Esquema normalitzado
r
Normalitzador
Ampliació del diccionari de treball Topònims Antropònims: Noms Cognoms Hipocorístics Paraules del llenguatge col·loquial Interjeccions Emoticones
Normalitzador
Delimitar els processos de normalització Delimitar el nombre de canvis en una
mateixa paraula
Reduir el nombre de possibles correccions
Reduir el nombre de normalitzacions incorrectes
Major rapidesa