1 Campillos DL 2010

download 1 Campillos DL 2010

of 41

Transcript of 1 Campillos DL 2010

  • 7/30/2019 1 Campillos DL 2010

    1/41

    Tecnologas del habla y anlisis de la voz.Aplicaciones en la enseanza de la lengua*

    LEONARDO CAMPILLOS LLANOSLaboratorio de Lingstica Informtica - Universidad Autnoma de Madrid

    [email protected]

    RESUMEN: El artculo presenta una revisin de los sistemas de visualizacin o anlisis de la voz y lastecnologas del habla (reconocimiento de voz, sntesis y sistemas de dilogo) que se han empleado en la

    enseanza de la lengua materna o extranjera. Se abordan tanto programas comerciales como prototipos deinvestigacin, con especial atencin a los recursos para el espaol. Asimismo, se consideran lasrecomendaciones y las evaluaciones de los programas expuestas por investigadores y expertos respecto alos procedimientos de correccin, los contenidos pedaggicos o el diseo de la interfaz. Por ltimo,ofrecemos una referencia orientativa sobre cada tipo de aplicacin ms adecuada.

    Palabras clave: tecnologas del habla, reconocimiento de voz, sntesis de voz, sistemas de dilogo,enseanza de lengua, espaol como lengua extranjera.

    ABSTRACT: The article presents a review of the systems for speech analysis and visualization and thespeech technologies (voice recognition, text-to-speech synthesis and dialogue systems) which have beenused in first or second language teaching. Both commercial programs and research prototypes areconsidered, especially those for the Spanish language. Besides, we have taken into consideration therecommendations and the evaluations of the systems made by researchers and experts regarding the

    correction methods, the pedagogic contents and the interface design. Finally, we include a brief guidingreference for every type of application.

    Keywords: speech technologies, speech recognition, speech synthesis, dialogue systems, languageteaching, Spanish as a foreign language.

    0.INTRODUCCIN

    La enseanza/aprendizaje de lenguas es un rea de desarrollo de las tecnologas del habla concierto atractivo por sus productos de investigacin. No cabe duda de que estos no se conciben comosustitutos de la instruccin presencial en el proceso de aprendizaje, sino como un complemento quese utiliza fuera del aula para el refuerzo de aspectos externos al currculo del curso o para tratardificultades particulares de cada alumno.

    La mayora de los investigadores en la enseanza de lenguas asistida por ordenador (enadelante, ELAO) constata el factor estimulante del uso del programas informticos (Ruiprez,2004). Adems, considerando la prctica de la destreza oral, un sistema automtico de evaluacin

    permite el aprendizaje en contextos de no inmersin lingstica y suple o facilita la tarea decorreccin por parte del profesor. Con todo, su uso posee limitaciones no slo de tipo tcnico sinotambin pedaggico (vid. los aspectos positivos y negativos recogidos por Pennington, 1999: 430).

    Recibido: 03 08 2010 Aceptado: 26 10 2010

    CAMPILLOS LLANOS, L. (2010), Tecnologas del habla y anlisis de la voz. Aplicaciones en la enseanza de lalengua, enDilogo de la Lengua,II, 1-41ISSN: 1989-1334

    * Este trabajo ha sido financiado por la Consejera de Educacin de la Comunidad de Madrid y el Fondo Social Europeo(FSE) a travs de un contrato predoctoral. Quiero expresar mi agradecimiento al Dr. Rafael Martnez Olalla(Universidad Politcnica de Madrid), quien revis con detalle la primera versin, y al Dr. Antonio Moreno Sandoval,

    por sus indicaciones para la mejora del artculo.

  • 7/30/2019 1 Campillos DL 2010

    2/41

  • 7/30/2019 1 Campillos DL 2010

    3/41

    sistemas de grabacin y reproduccin: su aproximacin es semejante a los ejerciciosempleados en los laboratorios de idiomas;

    sistemas que usan informacin visual: pueden presentar dos tipos de visualizacin:- informacin acstica de la onda sonora, por ejemplo, espectrogramas, oscilogramas o una

    representacin de la curva meldica; y,

    - informacin articulatoria de la posicin de los rganos fonadores, que a veces seacompaa de una animacin, un vdeo o ejemplos sonoros;

    sistemas de reconocimiento de habla: pueden proporcionar una puntuacin al alumno yabordar dos aspectos de la produccin oral:- los contenidos de aprendizaje del programa o curso en que se incluyen (del nivel

    gramatical, lxico o pragmtico, especialmente la prctica de la conversacin); y,- la prctica y la enseanza de la pronunciacin, que puede localizar errores y aportar

    consejos para mejorar la articulacin de los sonidos.

    Evidentemente, cada enfoque no es aislado, y existen programas con diferentesaproximaciones; adems, hay que aadir los que incorporan sntesis de habla y sistemas de dilogo.Como resumen, ofrecemos una tabla con las caractersticas de las aplicaciones tratadas. Cuando nose ha localizado informacin sobre un rasgo, se ha dejado el campo en blanco. Las abreviaturasusadas para cada aspecto son las siguientes:

    Len. (lengua): A: alemn; Ar: rabe; C, chino; E, espaol; N: neerlands; I, ingls; It:italiano; J: japons; S: sueco; l. es contraccin de lenguas.

    Tecnologa/enfoque: G/R: grabacin/reproduccin; Vis: visualizacin de espectrograma(esp.), espectro (sp.), oscilograma (osc.), entonacin (ent.), rganos articulatorios (rg.art.); carta de formantes (cf); tv; tringulo voclico y/o carta de formantes; RH:reconocimiento de habla; S: sntesis de voz; SD: sistema de dilogo; pt: pantalla tctil.

    Dest. ling. (destreza lingstica que se practica): A: comprensin auditiva; E: produccinescrita; Fon: aprendizaje de la fontica y la fonologa; L: comprensin lectora; O:destrezas orales; Prg: destrezas pragmticas; Pron: pronunciacin; G: gramtica; V:vocabulario; C: aspectos culturales.

    Aplicac. (aplicacin ya llevada a cabo o posible de realizar): EL: enseanza de lenguas;T: terapia de personas con necesidades especiales; TE: test de evaluacin.

    Int. (interfaz): L: diseo ldico; C: diseo para el anlisis cientfico; A: actividades deprctica y evaluacin.

    Disp. (disponibilidad): Com: comercial; Inv: prototipo o proyecto de investigacin; LD:libre distribucin.

    Us. (usuario): A: adultos; N: nios.

    Leonardo Campillos Llanos Tecnologas del habla y anlisis...

    Dilogo de la Lengua,2010, II, 1-41 3 ISSN: 1989-1334

  • 7/30/2019 1 Campillos DL 2010

    4/41

    SISTEMA LEN. TECNOLOGA / ENFOQUE DESTR. LING. APLICAC. INT. US. DISP.

    Accent coach I Vis. ent, rg. art., RH Pron, Fon EL C A Com

    Ancalvoz - Vis. osc., ent, cf Pron, Fon EL, T C A Inv

    Baldi 6 l. SD O, V, Pron EL / T L A, N Inv

    BetterAccentTutor I Vis. esp, osc., ent. Pron EL, T C A Com

    Bortolini (2002) S A, L EL / T N Inv

    Brown (2004) I RH O, G EL L A, N Inv

    CallJ J RH Pron, G, L EL Inv

    CandleTalk I RH O EL A A Inv

    Cassell (2004) I RH O, Prg N Inv

    Cmp. Sp. Lb (CSL) - An. acstico de voz Pron EL, T C, L A, N Com

    Colorado Lit. Tutor I SD O, L EL / T L A, N Inv

    CSLU Toolkit I, E SD O, Pron EL / T L, A A, N LD

    DARWARS Ar SD O, C, V EL L A Com

    DEAL I + 5 l SD V, G EL L A Inv

    EduSpeak 9 l. RH Pron EL A, N Com

    English for kids I RH Pron EL L, A N Com

    Espaol interactivo/en marcha E G/R A, L, E, O EL A A Com

    EyeSpeak I Vis. osc., ent, RH Pron, Fon EL L A Com

    GETARUN/SLIM I, It S, RH A, Pron EL Inv

    Gmez et al., 1997 I Vis. osc., ent, cf Pron, Fon EL L A, N Inv

    HearSay I RH Pron EL L A, N Inv

    Hwe (1997) E G/R Pron, Fon EL C A Inv

    I SEE I pt, S V EL A N Inv

    IBM Speech Viewer - An. acstico de voz Pron EL, T L Com

    ISLE I RH Pron EL A A Inv

    Learn to Speak Span. E RH O, Prg, V, G EL L, A A Com

    Lets go I SD O EL A Inv

    LISTEN I RH Pron, L, L EL A N Inv

    Microworld I RH O, Prg EL L A Inv

    MyET / MyCT I. C V. osc., ent., rg art., RH Pron, EL A A Com

    NativeAccent I RH Pron EL L, A A Com

    Neri et al., (2008) N RH Pron, O EL L, A A Inv

    PARLING I RH Pron, V, L EL L N Inv

    PLASER I RH, vis. rg. art. Pron EL C A InvPraat - Vis esp, osc., ent., sp, S Pron EL, T C A LD

    Pron. y Font. 2.0. E G/R, vis. rg. art. Pron, Fon EL C A Com

    Pronto E RH Pron EL L A, N Inv

    ProNunciation I G/R, vis osc., rg. art. Pron EL C A Com

    RossettaStone 30 l. RH O EL L, A A Com

    Saybot I RH O EL A A Com

    Seneffet al. (2004) C SD O, V, G EL A A Inv

    Seneffet al. (2007) I SD O EL L A Inv

    SPACE N S/RH L EL N Inv

    Speech Analyzer - Vis. osc., ent, sp, S Pron, Fon EL, T C A LDSpeech Filing Syst. - Vis. esp, osc., ent., S Pron EL, T C A LD

    STAR I RH Pron, V, L EL A N Inv

    Leonardo Campillos Llanos Tecnologas del habla y anlisis...

    Dilogo de la Lengua,2010, II, 1-41 4 ISSN: 1989-1334

  • 7/30/2019 1 Campillos DL 2010

    5/41

    STRAIGHT/SNACK - S Pron, Fon EL C A Inv

    Subarashii J RH/SD Pron O V G EL A Inv

    TAIT E A RH O, Pron EL A Inv

    TBALL I RH, pt L EL A N Inv

    Tell me more/TTM 8 l. V. osc, ent, rg art, RH Pron, O, A. EL L, A A, N Com

    TraciTalk I RH O, Prg EL L A InvVersant I E Ar RH O, Pron TE A Com

    VICK - Vis. esp, osc, ent, sp. Pron EL, T L A Inv

    Ville S Vis. esp. Pron, G/R EL A A Inv

    VISHA - Vis. osc., ent, sp Pron, Fon EL, T C, L A, N Inv

    VisiPitch - Vis. esp, osc, ent, sp., tv Pron EL, T C, L A, N Com

    WASP - Vis. esp, osc., ent., sp. Pron EL, T C A LD

    Watch Me! Read I RH O, L EL A N Inv

    WaveSurfer - Vis. esp, osc., ent., sp Pron EL, T C A LD

    WinPitch - Vis. esp, osc., ent., tv, S Pron EL, T C A Com

    WinSnoori - Vis esp, osc., ent., sp, S Pron EL, T C A LDWord War C SD O, V, Pron EL L A Inv

    Zengo Sayu J RH G, V EL L Inv

    Tabla 1 - Caractersticas de los sistemas y los programas analizados para la enseanza de la lengua

    1.1. Sistemas de grabacin y reproduccin.Algunos programas educativos para la prcticade la produccin oral o la enseanza de la fontica y la fonologa permiten al usuario grabar sus

    propias producciones orales y compararlas con el modelo de lengua que incluyen (Llisterri, 2006).Su base pedaggica estriba en el sistema de audicin y repeticin propio de los enfoques deenseanza estructuralistas y audio-linguales de los aos 50.

    No obstante, la efectividad de este mtodo no resulta clara. Mientras que los experimentos deAkahane-Yamada, Tohkura, Bradlow y Pisoni (1996) muestran que nicamente el entrenamiento dela percepcin puede ser efectivo, los resultados de investigacin de Celce Murcia y Goodwin (1991;apud Eskenazi, 1999) indican que la repeticin de sonidos no parece ser una forma eficaz deaprender a articularlos correctamente. Su debilidad principal puede estribar en que no se realiza unacorreccin apropiada de la pronunciacin del usuario, siendo l quien debe evaluar la forma como

    pronuncia. Esto ocurre en la aplicacin desarrollada por Hwu (1997) para la enseanza y la prcticade la fontica espaola, o en los programas ProNunciation (vid. resea de Brown, 2000), oPronunciacin y Fontica v. 2.0. (vid. resea de Corsbie y Gore, 2002). En un sistema ms reciente

    para el aprender el sueco, Ville (Wik y Hjalmarsson, 2009), se emplea este enfoque en la versinpara el nivel inicial, pero en otros niveles ya se incorpora anlisis acstico del habla y correccin dela produccin fontica. De entre todos estos programas, destacamos Espaol interactivo (vid. reseade Adams, 1998) y Espaol en marcha (Gimeno Sanz, 1998), desarrollados en la UniversidadPolitcnica de Valencia, por incluir grabaciones de nativos en actividades que simulan interaccionesreales, integrando el aprendizaje de contenidos fonticos, gramaticales y lxicos. Quiz, como

    propona Jones (1997) para la enseanza de la pronunciacin, la tendencia es superar un enfoque deaudicin y repeticin mecnica integrando la prctica en actividades ms libres de tipocomunicativo, que simulen situaciones autnticas.

    1.2. Visualizacin y anlisis acstico de la seal sonora.

    1.2.1. Oscilograma, curva meldica y espectrograma. Las primeras aplicaciones devisualizacin del habla, que datan de los aos 60, surgieron para la rehabilitacin de personassordas, y posteriormente se aplicaron a la enseanza de lenguas; ejemplos de ello son VisiPitch yComputerized Speech Lab (CSL), ambos de Kay Elemetrics (actualmente, Kay Pentax), IBM

    Leonardo Campillos Llanos Tecnologas del habla y anlisis...

    Dilogo de la Lengua,2010, II, 1-41 5 ISSN: 1989-1334

  • 7/30/2019 1 Campillos DL 2010

    6/41

    Speech Viewer, o el ms reciente VICK (VIsual FeedbaCK) (Nouza, 1998). Estos sistemas permitenvisualizar el resultado de un procesamiento avanzado de la voz del estudiante o el modelo queimitar, entre otros:

    el oscilograma: con la informacin de la intensidad de la seal sonora, importante para ladeteccin del acento;

    la estimacin de la curva meldica: para la visualizacin de la entonacin; y, el espectrograma: para el anlisis visual de los timbres voclicos y de las caractersticas

    acsticas de las consonantes.

    La herramienta WinPitch(Germain y Martin, 2000; Martin, 2005) presenta todos los tipos deinformacin visual anteriores y permite incluso anotar la seal sonora del usuario, reproducirla avelocidad ms lenta o resintetizarla con la prosodia correcta, aunque intentando simplificar larepresentacin grfica de la curva meldica. La manipulacin y sntesis de la onda original tambinse puede realizar en programas de libre distribucin como WaveSurfer, Praat (vid. figura 1 abajo),WinSnoori, o Speech Filing System (SFS) 4, que ofrecen el espectrograma de la voz, el

    oscilograma, la curva meldica, la deteccin de formantes o el espectro de una porcin de la seal3

    .La conveniencia de un programa u otro depender de la cantidad de informacin que requiera elusuario sobre la onda sonora. As, por ejemplo, en el mbito investigador se emplea para el anlisisacstico el lenguaje de programacin MATLAB (figura 2), para el cual ya existe una herramientallamada COLEA, que permite, entre otros, la grabacin de una seal o la visualizacin de una granriqueza de datos (espectro y espectrograma, anlisis de tono y formantes, etc.).

    Figura 1 Oscilograma (arriba) y espectrograma (abajo) de unaseal de voz obtenidos con Praat. Entre otros, se muestran elcontorno meldico de la entonacin y la estimacin de los

    formantes voclicos.Figura 2 Espectrogramaobtenido con MATLAB

    Las herramientas de visualizacin se han venido utilizando en el anlisis contrastivo de lasproducciones nativas y no nativas, ya sea por parte del profesor o fonetista con fines puramente deinvestigacin, ya sea por el propio alumno, para que aprenda los sonidos visualizndolos (vid. laseccin siguiente, 1.2.1.1). No obstante, su uso directo en el aula de idiomas puede representardificultades si el docente carece de rudimentos de fontica acstica, adems de que podra asustaren cierto modo al aprendiz. Como sealan Gmez Vilda et al. (2008), estas herramientas precisanvencer el salto semntico mediante el diseo de interfaces apropiadas, actividades ldicas o

    procedimientos de correccin sencillos.Por ello, una aproximacin ms didctica es la integracin de este tipo de datos acsticos en

    un programa elaborado propiamente para la enseanza de la lengua. Es el caso de ProNunciation

    Leonardo Campillos Llanos Tecnologas del habla y anlisis...

    Dilogo de la Lengua,2010, II, 1-41 6 ISSN: 1989-1334

    3 Una completa relacin de programas y recursos disponibles puede consultarse en la pgina del Speech and HearingInstitute (www.speechandhearing.net). Tambin se ofrecen capturas de pantallas y funcionalidades de muchos

    programas en la siguiente pgina web de J. Llisterri: http://liceu.uab.cat/~joaquim/phonetics/fon_anal_acus/herram_anal_acus.html

    http://www.speechandhearing.net/http://liceu.uab.cat/~joaquim/phonetics/fon_anal_acus/herram_anal_acus.htmlhttp://liceu.uab.cat/~joaquim/phonetics/fon_anal_acus/herram_anal_acus.htmlhttp://liceu.uab.cat/~joaquim/phonetics/fon_anal_acus/herram_anal_acus.htmlhttp://liceu.uab.cat/~joaquim/phonetics/fon_anal_acus/herram_anal_acus.htmlhttp://www.speechandhearing.net/http://www.speechandhearing.net/
  • 7/30/2019 1 Campillos DL 2010

    7/41

    (vid. resea de Brown, 2000), para la prctica de la pronunciacin, que incorpora el oscilograma dela seal, o de Speaker (Cazade, 1998), que muestra la curva meldica de la entonacin. Un sistemams reciente, BetterAccentTutor (Kommisachirk y Kommisachirk, 2000), incluso proporciona unacorreccin de la curva meldica, el acento o el ritmo del enunciado. Accent Coach (vid. resea deTaylor, 1999), adems de mostrar la curva meldica, incorpora reconocimiento de habla (para ms

    detalles vase el artculo de Martin, 2005). Otros programas comerciales, como Tell me more o Talkto me, incluyen reconocimiento de voz y tambinofrecen el oscilograma o la curva meldica paraque el alumno visualice su produccin sonora y la compare con el modelo nativo.

    1.2.1.1. Visualizacin del oscilograma, la curva meldica y el espectrograma de la voz deproducciones nativas y no nativas. Gracias a las herramientas de visualizacin, cada vez ms

    potentes y accesibles, se han realizado estudios fonticos tanto de muestras de nativos como de nonativos. Como ejemplo de esto ltimo se puede citar la aportacin de Molholt y Hwu (2008),quienes se valen del uso de espectrogramas de las consonantes aspiradas sordas y sonoras del hindi,

    pronunciadas por nativos o por estudiantes americanos, para comparar las diferencias en la

    pronunciacin de cada uno.Pero una aplicacin ms all de los fines tericos o descriptivos es el uso de este tipo desistemas para el aprendizaje de la pronunciacin por parte del alumno, quien visualiza y realiza elanlisis de sus propias producciones. Por lo que respecta a la visualizacin de espectrogramas, ya enlos aos 90 Labrador Gutirrez y Fernndez Juncal (1994) propusieron el uso del sistema VISHA(Visualizador del Habla)4 para la enseanza de la fontica y la pronunciacin del espaol. Estaherramienta consta de varios mdulos, entre los que se incluyen ISOTON, para la prctica de laentonacin, la intensidad o rasgos de los sonidos como la sonoridad o la fricatividad, y Pc-VOX,que permite visualizar el espectrograma, la forma de onda o la intensidad de una frase, junto a otros

    parmetros ms detallados. El mtodo de trabajo del alumno pasa primero por visualizar con

    PcVOX los sonidos conflictivos y luego repetir y grabar las propias producciones; posteriormente,el alumno imita la produccin del profesor con el programa ISOTON. Los autores citados loaplicaron a alumnos anglosajones que practicaban la pronunciacin de las vocales /e/ y /o/ (que

    tienden a diptongar en [e] y [o]), la consonante fricativa velar /x/ (que suele a aspirarse y producir

    el sonido [h]), la // y la /r/ (que generalmente se realizan como aproximante, []) y las oclusivas /p t

    k/ (que se pronuncian aspiradas). Los alumnos experimentaron, aunque en diferentes grados, unamejora generalizada de la pronunciacin.

    La visualizacin de la forma de onda de los enunciados puede ser til para la adquisicin delvalor fonolgico de la duracin de los sonidos. Por ejemplo, MotohashiSaigo y Hardison (2009)

    proponen su uso para el aprendizaje de la percepcin y la distincin de las consonantes y vocalesgeminadas en japons (p. ej.,sasu, sassu, con geminacin de /s/,ysaasu, con alargamiento de /a/),y comentan un experimento con resultados significativos en la identificacin de estos sonidos tras elentrenamiento.

    Respecto a la visualizacin de la curva meldica, cabe citar las propuestas de Chun (1998:81-87) para integrarla en la enseanza de la entonacin: aportar correccin visual, dotar a losestudiantes de habla autntica y variada, grabar y analizar interacciones entre hablantes, y realizarun seguimiento del progreso del estudiante. Hardison (2004), por ejemplo, muestra un experimentode uso de Computerized Speech Lab (CSL) para el aprendizaje de la prosodia del francs, conresultados positivos en la generalizacin a nuevos enunciados; y otro test para esclarecer la relacin

    Leonardo Campillos Llanos Tecnologas del habla y anlisis...

    Dilogo de la Lengua,2010, II, 1-41 7 ISSN: 1989-1334

    4 La herramienta VISHA fue desarrollada por la Escuela Tcnica Superior de Ingenieros de Telecomunicacin de laUniversidad Politcnica de Madrid en colaboracin con el departamento de Filologa de la Universidad Nacional deEducacin a Distancia.

  • 7/30/2019 1 Campillos DL 2010

    8/41

    de la prosodia y la adquisicin del lxico en el aprendizaje a largo plazo. Por su parte, Molholt yHwu (2008) abordan su uso en el aprendizaje de los tonos del chino.

    Levis y Pickering (2004) tambin plantean los beneficios del apoyo visual para el aprendizajede la entonacin, pero ilustran mediante un experimento la necesidad de abordar la enseanza y la

    prctica de la misma no solamente en la oracin, sino tambin en el nivel discursivo. En efecto, de

    modo semejante a como las tabulaciones o convenciones tipogrficas marcan los lmites entreprrafos en los textos escritos, el ascenso del tono marca el inicio de cada grupo de enunciados quetrata un nuevo tpico en el discurso (que Levis y Pickering denominan paratono o prrafoentonativo). Asimismo, la entonacin dentro y entre dichos prrafos de habla puede mostrar unaactitud de convergencia hacia el oyente o de distanciamiento. As, los hablantes no nativos puedennecesitar comprender dichos patrones meldicos para mejorar su entonacin, en la que suelen

    predominar patrones descendentes y suspendidos, resultando en un habla menos dinmica o conmenor fluidez (vid. Hincks, 2005a, para un estudio de la fluidez y la variacin de la entonacin delas producciones orales de estudiantes de ingls y una propuesta de evaluacin automtica; o elestudio de Hincks y Edlund, 2009, acerca del efecto de la correccin visual sobre la variacin en la

    entonacin).Por ltimo, Toledo (2005) expone aplicaciones de la visualizacin de todos los aspectos

    acsticos anteriores mediante Speech Analyzer, que puede ser usado en combinacin con otrosprogramas como WinCecil (de tipo experimental) y Phonology Assistant (todos estos fuerondesarrollados por el Summer Institute of Linguistics). Speech Analyzer ofrece el espectrograma deuna seal sonora, la variacin de la frecuencia fundamental, el anlisis espectral o medidas deduracin, y tambin permite la manipulacin de la onda para realizar tests perceptivos. Con el fin decorregir la pronunciacin de aprendices de espaol cuya lengua materna es el francs, Toledo

    muestra espectrogramas y oscilogramas de las vibrantes simple (//) y mltiple (/r/), as como de la

    fricativa velar sorda /x/ y de la oclusiva velar sonora /g/ frente a su alfono aproximanteintervoclico []. Adems, ofrece curvas de intensidad para distinguir palabras que nicamente se

    diferencian en el acento (p. ej.: lmite, limite, limit)5 y curvas de entonacin que diferencianoraciones interrogativas y declarativas.

    Las comparaciones entre la forma de onda nativa y no nativa pueden ser de gran utilidad parala enseanza emprica de la pronunciacin, a partir de los datos acsticos de las produccionesorales. No obstante, parece imprescindible la supervisin del estudiante por parte de un profesor oexperto en fontica, por lo que recomendamos descartar su uso en el autoaprendizaje.

    1.2.2. Carta de formantes y tringulo voclico. Otros sistemas incluyen la visualizacin dela informacin acstica de las vocales en un grfico similar a una carta de formantes. Como explicaGil Fernndez (2007: 436), dicha representacin dispone los valores en frecuencia del primerformante voclico (F1) en el eje de ordenadas y los correspondientes al segundo formante (F2) en eleje de abscisas, de modo que el punto coordenado de los dos ejes representa el timbre propio de lavocal y permite localizarla respecto al resto de vocales (vid. figura 2)6.

    Leonardo Campillos Llanos Tecnologas del habla y anlisis...

    Dilogo de la Lengua,2010, II, 1-41 8 ISSN: 1989-1334

    5 Los estudiantes francfonos de espaol experimentan dificultades en la adquisicin del patrn acentual castellano,pues tienden a acentuar la ltima slaba por interferencia de su lengua materna.

    6 A veces se representa el tercer formante (F3) en lugar del primero o el segundo, o incluso se puede emplear un tercereje vertical para expresar los valores de F3 en un espacio tridimensional, como en las representaciones que muestran ensu libro Bernal Bermdez, Bobadilla Sancho y Gmez-Vilda (2000).

  • 7/30/2019 1 Campillos DL 2010

    9/41

    Figura 3 Carta de formantes de las vocales cardinales primarias y secundarias(Delattre et al., 1952; apudGil Fernndez, 2007: 437)

    Este tipo de informacin visual (junto a la curva meldica, la forma de onda con lainformacin acerca de la intensidad y el espectrograma) se presenta grficamente en el sistema

    VisiPitch, el cual fue usado por Molholt y Hwu (2008) para exponer algunas cuestiones decorreccin fontica de producciones no nativas. Dichos investigadores comparan el espectrogramao la posicin de los sonidos en el tringulo voclico de las vocales del ingls o del espaol

    producidas por el nativo y por el no nativo, de modo que se aprecien visualmente sus diferencias.Adems de la informacin anterior, otro tipo de interfaz tambin dispona de una ventana

    donde se presentaba la informacin de la evolucin del movimiento de los formantes en el tringulovoclico, o un esquema de rasgos consonnticos, lugar de articulacin o grado de apertura (vid., porejemplo, el sistema desarrollado para el aprendizaje del ingls por Gmez Vilda et al., 1997). Laaplicacin Ancalvoz, desarrollada por este equipo de investigadores y programada en el lenguajeMATLAB, presenta el oscilograma y el espectrograma junto a la informacin de la dinmica de los

    sonidos voclicos en una tabla de formantes. Dicha forma de visualizacin es realmente valiosapara el fonetista, pero puede ser difcil de interpretar en el aprendizaje autnomo del alumno, quedepende del apoyo explicativo del profesor (Hincks, 2003:5; Neri, Cucchiarini, Strik, Boves,2003:6). De esta forma, se ha propuesto el diseo de interfaces de usuario ms ldicas para lacorreccin del alumno: por ejemplo, para el aprendizaje de las vocales inglesas, Gmez Vilda y suscolaboradores crearon un entorno grfico que simula una tirada de dardos, de manera que cuantoms se acerca la pronunciacin del alumno a la nativa, ms se aproxima el dardo al centro de ladiana, indicndole adems hacia dnde se ha desviado de la pronunciacin modelo. Igualmente,estos investigadores desarrollaron un simulador de frmula uno en el que el vehculo vaconduciendo ms centrado o se va saliendo ms de la carretera conforme su pronunciacin sea mssemejante a la que ha de imitar (vid. ms detalles en Gmez Vilda et al., 2008).

    1.2.3. Visualizacin de rganos fonadores y movimientos articulatorios.Los aprendices deuna L2 quiz dependan ms de la informacin visual en la comprensin auditiva al igual que los

    bebs en la adquisicin de su lengua materna, como indica Flege (1998: 372). Este hechoexplicara la gran dificultad que los estudiantes experimentan para comprender mensajes portelfono. Lo que an no queda del todo claro es el tipo de informacin visual ms influyente en la

    percepcin del habla, o ms determinante para el aprendizaje de la pronunciacin.Por un lado, se han llevado a cabo estudios sobre el efecto de la retroalimentacin visual en la

    adquisicin de los rasgos articulatorios de una L2. Dcadas atrs, el fonetista e investigador Flege

    (1988) emple el glosmetro optoelectrnico, un dispositivo de visualizacin del movimiento de lalengua del propio locutor mientras habla. El glosmetro se introduce en la boca y consiste en una

    pieza de plstico que se sujeta al paladar y va provista de sensores, los cuales van registrando los

    Leonardo Campillos Llanos Tecnologas del habla y anlisis...

    Dilogo de la Lengua,2010, II, 1-41 9 ISSN: 1989-1334

  • 7/30/2019 1 Campillos DL 2010

    10/41

    movimientos articulatorios. Flege us este dispositivo para estudiar la neutralizacin articulatoria de

    las vocales // y // del ingls por parte de una hablante nativa de espaol, que tiende a realizarlas

    con los sonidos [i] y [a] respectivamente. A la participante en el experimento se le presentaban enuna pantalla representaciones esquemticas de las posiciones de la lengua que tena que llegar aalcanzar a partir del punto de articulacin de la vocal. Pese a que los resultados no permitendeterminar la influencia determinante de la informacin visual, los problemas de pronunciacin enuna L2 parecieron eludirse en cierto grado con el apoyo de cierta forma de visualizacin.

    Un curioso fenmeno que demuestra la influencia de la informacin visual en la percepcin delhabla es el llamado efecto McGurk(McGurk y MacDonald, 1976; MacDonald y McGurk, 1978). Se

    puede observar con un experimento sencillo que consiste en que a un individuo se le presenta unsonido /ba/ por un canal auditivo (por ejemplo, mediante unos auriculares), y simultneamente, por uncanal visual (por ejemplo, en un video), una persona articulando la slaba /ga/. Debido al conflictoentre la informacin visual y auditiva, el sujeto tiende a percibir /da/, un sonido intermedio entreambos. La importancia de la percepcin visual en la comprensin oral resulta, pues, innegable,aunque algunos investigadores consideran que su influencia parece reducirse al rea de la boca yquiz la parte interior de los labios (Flege, 1988: 370). Esto parece haberse confirmado en estudiosms recientes de percepcin del habla que han empleado modelos virtuales (obtenidos mediantearticulografa electromagntica) para reproducir los movimientos articulatorios de los labios y lalengua (Badin et al., 2010). Los resultados obtenidos por el citado grupo de investigadoresconstatan la predominancia de la lectura de los labios en la comprensin del habla, aunque podracomplementar este proceso leer los movimientos de la lengua. As, tambin se han hecho estudiossobre la articulacin lingual; por ejemplo, comparando la visualizacin de movimientos reales ysintticos (Engwall y Wik, 2009a y 2009b).

    Precisamente, otros investigadores han correlacionado el grado de comprensin del habla y lo

    natural que resulta cualquier forma de visualizacin que acompaa a la produccin oral. En efecto,la interaccin de una persona con otra no produce el mismo efecto que si la comunicacin se realizacon un personaje virtual, posiblemente por el grado de cercana o naturalidad que experimentamosen la comunicacin entre humanos. Especialmente interesante al respecto es el test que explicanBeskow et al. (1997); sus resultados indican que la influencia de cada tipo de informacin se ordenade este modo:

    En todo caso, sea cual sea el alcance o la importancia de la informacin visual en el habla,muchos sistemas para el aprendizaje de la lengua han ido incorporando algn tipo de apoyo visual.Muchas aplicaciones especialmente para la prctica de la pronunciacin cuentan con unarepresentacin articulatoria del tracto vocal y los rganos fonadores que complementan a lainformacin acstica. Es el caso de los programas Tell me more o Talk to me, o My English Tutor(MyET) y My Chinese Tutor (MyCT), respectivamente para el aprendizaje del ingls y el chino(ref. n. 27). Otros sistemas ofrecen explicaciones ms detalladas de la posicin y el movimiento delos rganos de articulacin (como Pronunciacin y Fontica v. 2.0., vid. resea de Corsbie y Gore,

    2002), o incluso animaciones que describen los movimientos articulatorios (vase la aplicacindesarrollada por Hwu, 1997).

    Leonardo Campillos Llanos Tecnologas del habla y anlisis...

    Dilogo de la Lengua,2010, II, 1-41 10 ISSN: 1989-1334

  • 7/30/2019 1 Campillos DL 2010

    11/41

    No obstante, como indica Llisterri (1997, 2001, 2006), la representacin visual del tractovocal o de los movimientos articulatorios, adems de requerir un procesamiento de la seal sonorano exento de complejidad, puede resultar ineficaz. En efecto, debido al fenmeno de compensacinarticulatoria, el hablante puede llegar a producir un sonido con una configuracin de los rganosfonadores distinta a la del modelo. Otros investigadores (Neri, Cucchiarini, Strik y Boves, 2003: 2)

    han propuesto incluir en los sistemas la visualizacin del movimiento de los labios para mejorar laproduccin y la percepcin del sonido, en consonancia con la reflexin citada de Flege (1988: 370).Probablemente sea positiva la inclusin de ambos tipos de representaciones.

    Por un lado, los rganos fonadores y articulatorios internos, que resultan ms fciles deexponer en una figura o animacin artificial o incluso un avatar virtual. De hecho, Erikssonet al. (2005) recomiendan lo siguiente7: aportar la referencia visual del paladar y lamandbula en la representacin de los movimientos articulatorios (preferiblemente conimgenes tridimensionales), as como destacar (por ejemplo, con otro color) los rasgos o

    puntos importantes de la articulacin. Por otro lado, la articulacin externa de los sonidos tambin parece importante, y la mejor

    manera como se puede incorporar es mediante un video que muestre a autnticos nativospronunciando una palabra o frase, centrndose en la zona de la boca y el movimiento de loslabios.

    Todo ello parece adecuado siempre que los modelos visuales de los rganos fonadoresresulten sencillos y con bajo nivel de detalle para no abrumar al usuario (Eriksson et al., 2005). Paramejorar las representaciones en estos sistemas, seguramente resultarn provechosos losconocimientos y progresos recientes en fontica articulatoria.

    1.3. Reconocimiento automtico del habla.El uso del reconocimiento automtico del hablaen la enseanza de lenguas es un rea en la que han proliferado no pocas aplicaciones informticas,

    investigaciones cientficas e incluso tesis doctorales8

    . Aparte de la enseanza y prctica de lapronunciacin (aspecto que trataremos despus en 1.3.1), uno de los enfoques de uso es laintegracin en las lecciones de un curso completo de aprendizaje de una lengua (junto alvocabulario o la gramtica). Los sistemas suelen incorporar grabaciones de producciones nativas

    para la prctica de la comprensin oral, reconocimiento de voz para interactuar con el alumno, ycorreccin visual sobre la pronunciacin. Precisamente este aspecto se corrige medianteindicaciones sobre el sonido errneo o la posicin de la vocal en una ilustracin de los rganosarticulatorios, donde se muestra su grado de altura o anterioridad/posterioridad. Igualmente, se sueleofrecer la forma de la onda producida por el hablante para indicar rasgos como la duracin.

    As sucede en productos comerciales para la enseanza del ingls, como Saybot (dirigido a

    estudiantes chinos; vid. referencia n. 30), RossettaStone (disponible para ms de treinta lenguas,entre ellas el espaol peninsular e hispanoamericano; vid. referencia n. 29), EyeSpeak (Ferguson,2005), o Tell me more y Talk to me (tambin disponible para el espaol y otras seis lenguas). Estosdos ltimos programas permiten que el estudiante mantenga dilogos interactivos con el programaen situaciones comunicativas que se aproximan al uso real del lenguaje. Tambin simulanintercambios comunicativos autnticos programas como Microworld, entorno del sistema MILT

    Leonardo Campillos Llanos Tecnologas del habla y anlisis...

    Dilogo de la Lengua,2010, II, 1-41 11 ISSN: 1989-1334

    7 Aunque dichas recomendaciones se recogieron para el diseo de un sistema destinado a personas con dficitsauditivos, nos han parecido tambin adecuadas para una aplicacin de enseanza de lenguas.

    8 Por ejemplo, se han presentado las siguientes tesis doctorales sobre el tema: Use of Speech Recognition in Computer-Assisted Language Learning, de S. M. Witt (Cambridge University, Reino Unido, 1999); Computer Support forLearners of English, de R. Hincks (KTH School of Computer Science and Communication, Estocolmo, 2005); y Thepedagogical effectiveness of ASR-based computer assisted pronunciation training, de A. Neri (University Nijmegen,2007).

  • 7/30/2019 1 Campillos DL 2010

    12/41

    (Military Language Trainer), o el entorno didctico TraciTalk (vid. referencias de ambos en eltrabajo de Gamper y Knapp, 2002). Asimismo, el curso para el aprender espaol Learn to SpeakSpanish incorpora situaciones de dilogo bastante realistas (vid. resea de Gill, 1999). Algunossistemas, adems de usar reconocimiento de habla para la prctica de destrezas orales y laevaluacin de la pronunciacin, incorporan la comprensin auditiva y lectora; por ejemplo, VILTS

    (Voice Interactive Training System), desarrollado por la empresa Nuance para el aprendizaje delingls en varios niveles (desde inicial a avanzado), y la versin francesa ECHOS (Rypa y Price,1999). Otros dignos de mencin son NativeAccent, comercializado por Carnegie Speech (ref. n. 3)a partir del proyecto de investigacin FLUENCY en la universidad Carnegie Mellon (que desarrollel reconocedor CMU SPHINX); o CandleTalk, prototipo del mbito investigador desarrollado enTaiwan para la prctica de dilogos (Liou, Chiu y Yeh, 2006). Sin duda, como indican Neri,Cucchiarini, Strik y Boves (2003), estas aplicaciones no slo incluyen las ventajas de los juegos

    para el aprendizaje, sino que tambin permiten la adquisicin de la lengua mediante el aprendizajepor tareas.

    Una aproximacin diferente, como plantea Brown (2004), es el uso de tutores inteligentes

    guiados mediante la voz. Por ejemplo, para el aprendizaje de las preposiciones del ingls, elestudiante consulta un mapa y debe ir guiando a un personaje mediante las expresiones de espacioadecuadas. Otro tutor inteligente que incorpora el reconocimiento y la grabacin de voz esIntelligent Tutor, de la empresa DinEd (antes Dynamic English), tambin para el aprendizaje delingls (ref. n. 25).

    El reconocimiento del habla se est experimentando para automatizar la evaluacin de laproduccin oral en tests de nivelacin (vid. Wet et al., 2009, para la lengua inglesa). En algn caso,se ha llegado a incluso implementar en exmenes automticos a hablantes extranjeros; por ejemplo,

    para el ingls existe el sistema SpeechRaterSM (Zechner, Higgins, Xia y Williamson, 2009) o el testpor telfono Versantantesllamado PhonePasso SET10, que slo necesita 10-12 minutos (vid.ms detalles en Bernstein y Chen, 2008). Esta prueba es gestionada por la empresa Ordinate (vid.ref. n. 16). El sistema integra un reconocedor desarrollado por el equipo de Bernstein, que procedainicialmente del campo de investigacin de las aplicaciones para las patologas del habla. Losresultados de evaluacin de Versantparecen tener una correlacin muy cercana a la correccinrealizada por evaluadores profesionales (vid. Bernstein y Chen, 2008). Este equipo deinvestigadores tambin implement un sistema semejante para la evaluacin del rabe y del espaol(vid. Bernstein et al., 2004).

    1.3.1. Reconocimiento automtico del habla y enseanza de pronunciacin.La utilidad delos programas para la enseanza de la pronunciacin asistida por ordenador (Computer Assisted

    Pronunciation Teaching, o CAPT) se fundamenta en la hiptesis de que la simple exposicin a lalengua extranjera no asegura el desarrollo de la pronunciacin ni la produccin oral correcta, comoindican varios investigadores o desarrolladores de aplicaciones (vid. Hwu, 1997; Neri, Cucchiarini yStrik, 2002). Adems, tambin se justifica por la necesidad de completar el aprendizaje de unalengua con el dominio de la pronunciacin, pero fuera de la instruccin presencial, donde no suelehaber tiempo material para practicarla (Strik, Neri, Cucchiarini, 2008).

    Llisterri (2001, 2007) ofrece una exhaustiva bibliografa reciente sobre el uso delreconocimiento automtico del habla en este mbito9. Respecto a la tecnologa integrada, como

    proponen Gamper y Knapp (2002), se puede distinguir entre los sistemas de reconocimiento dehabla discreta (que analizan patrones simples y se emplean generalmente para la enseanza de la

    Leonardo Campillos Llanos Tecnologas del habla y anlisis...

    Dilogo de la Lengua,2010, II, 1-41 12 ISSN: 1989-1334

    9 Una bibliografa actualizada se puede consultar en la pgina personal de Joaquim Llisterri: http://liceu.uab.es/~joaquim/applied_linguistics/L2_phonetics/CALL_Pron_Bib.html

    http://liceu.uab.es/~joaquim/applied_linguistics/L2_phonetics/CALL_Pron_Bib.htmlhttp://liceu.uab.es/~joaquim/applied_linguistics/L2_phonetics/CALL_Pron_Bib.htmlhttp://liceu.uab.es/~joaquim/applied_linguistics/L2_phonetics/CALL_Pron_Bib.htmlhttp://liceu.uab.es/~joaquim/applied_linguistics/L2_phonetics/CALL_Pron_Bib.html
  • 7/30/2019 1 Campillos DL 2010

    13/41

    pronunciacin o la mejora de la fluidez) y lossistemas de reconocimiento de habla continua (parael habla ms espontnea). Estos ltimos an presentan deficiencias importantes. Los resultados msrpidos y fiables parecen obtenerse con frases prefabricadas, que dejan poca libertad creativa alusuario, en dominios controlados y con vocabulario reducido.

    Cuando se consideran los errores de pronunciacin, se diferencia entre los que afectan a los

    segmentos (fonemas mal pronunciados) y a los suprasegmentos (entonacin, ritmo, acento deintensidad o fluidez de habla). Ambos niveles (el segmental y el suprasegmental) han sidoconsiderados para su correccin automtica (por ejemplo, una propuesta de correccin automticade la entonacin se presenta en Arias et al., 2010). Asimismo, los dos parecen tener igual rango deimportancia en la comprensin del habla (Neri, Cucchiarini y Strik, 2002). Sin embargo, con latecnologa actual parece existir la necesidad de abordar desde perspectivas diferentes los erroresfontico-fonolgicos. As, el reconocimiento automtico del habla puede corregir la pronunciacinen el nivel segmental, pero puede plantear un reto de procesamiento analizar a la vez la variacin enel tono y la entonacin, el ritmo y la duracin, aunque llegue a medir con xito la velocidad dehabla (Hincks, 2003). Precisamente este ltimo factor ha sido relacionado con el grado de

    competencia en el habla extranjera por varios estudios (Cuchiarini, Strik y Bobes, 2000); esto es,parece que se tiende a percibir que un no nativo domina un idioma con fluidez si habla bastanterpido, aunque su gramtica est plagada de errores.

    Por todo ello, respecto al grado de correccin de la pronunciacin por parte del sistema, sepueden emplear dos enfoques, como explican Strik, Neri y Cucchiarini (2008) y Eskenazi (2009):

    deteccin de un error individual (de la pronunciacin de un nico fonema); o, evaluacin de la pronunciacin (la impresin global de la fluidez del habla).

    Para la deteccin del error individual se han empleado tcnicas de enfoque en errores msfrecuentes, mtodos probabilsticos propios del reconocimiento del habla, o clasificadores fontico-

    acsticos (vid. una comparacin de clasificadores aplicados para el neerlands en Striket al., 2009).Por ejemplo, uno de los ms frecuentes es el algoritmogoodness of pronunciation (GOP) propuestopor Witt (1999). Los aspectos tcnicos del ajuste automtico de niveles correccin de lapronunciacin se pueden consultar en Neumeyeret al. (1999), Witt y Young (2000) o en Li et al.(2006).

    Bsicamente, un modelo de sistema para la correccin de la pronunciacin asistida porordenador tendra las siguientes fases, como explican Neri, Cucchiarini y Strik (2003):

    reconocimiento de habla: la fase ms importante, de la que dependen las siguientes; puntuacin: evala la correccin de la pronunciacin del hablante a partir de suspropiedades acsticas o temporales, y tomando como modelo un enunciado nativo;

    deteccin del error: es importante que el sistema no localice falsos positivos, esto es,errores que realmente no son tales; y que no deje de corregir errores autnticos;

    diagnstico del error: el sistema identifica el tipo de error y sugiere cmo mejorar lapronunciacin usando modelos de errores tpicos almacenados previamente; y,

    presentacin de la correccin: puede realizarse mediante una escala numrica, medianteuna barra con diferentes grados, o indicando el sonido o la slaba donde aparece laincorreccin mediante un color diferente (como hace Tell to me). Gamper y Knapp(2002) aaden otras formas de correccin: expresar comentarios orales, rechazarrespuestas no entendidas por el sistema o mostrar una indicacin visual.

    Este ltimo es el diseo que incorpora el sistema para el aprendizaje del neerlandsdesarrollado por el equipo de Neri, Cucchiarini y Strik (2008; Cucchiarini et al., 2009). Otraherramienta que sigue un esquema semejante es PLASER (Maket al., 2003), para la prctica de la

    pronunciacin del ingls por hablantes de chino cantons originarios de Hong Kong. El sistema

    Leonardo Campillos Llanos Tecnologas del habla y anlisis...

    Dilogo de la Lengua,2010, II, 1-41 13 ISSN: 1989-1334

  • 7/30/2019 1 Campillos DL 2010

    14/41

    ofrece ilustraciones de los rganos articulatorios y vdeos que muestran los movimientos de la cara,y corrige a nivel de fonema (segn un cdigo de tres colores) y de palabra (una puntuacin global).Otros programas incorporan, junto a la correccin de la pronunciacin, ejercicios para aprendizajede lxico o gramtica; es el caso del sistema CallJ para iniciarse en el japons (Waple et al., 2007;Wang et al., 2009), cuya particularidad es la generacin dinmica de preguntas para variar cada

    leccin.1.3.1.1. Bases de datos de hablantes no nativos.Con el objeto de mejorar la correccin de

    los errores de pronunciacin, se ha abordado el estudio del habla de no nativos mediantegrabaciones de producciones controladas, poco espontneas, obtenidas mediante pruebas derepeticin de palabras o frases, correccin de estructuras gramaticales, lectura de textos, etc. Tal esel procedimiento que siguieron Raux y Kawahara (2002) con hablantes japoneses de ingls.

    Otros investigadores han recogido bancos de datos ms extensos o con un diseo mselaborado. El proyecto ISLE (International Spoken Learner English)10 desarroll un corpus degrabaciones de estudiantes de ingls que tuvieran como lengua materna el italiano y el alemn. Se

    llev a cabo la descripcin de la interlengua11

    fontica de estos hablantes, y a partir del anlisis deerrores se pudo establecer un conjunto de reglas fonticas que modelaban la produccin de los nonativos, teniendo en cuenta los procesos de interferencia de su lengua materna (L1 en adelante): la

    adicin de vocal [] tras slaba final por parte de los italianos, el ensordecimiento de las oclusivas

    sonoras finales por los alemanes, etc. (Bonaventura, Herron y Menzel, 2000). No obstante, pareceque el uso de dichas reglas es limitado y no puede modelar completamente la variabilidad propia decada hablante extranjero, lo que explica que los resultados de reconocimiento hayan sido pobres(Menzel, Herron, Bonaventura y Morton, 2000)12. Tambin para el ingls, el equipo de Dalby yKewley-Port (2008) realiz un anlisis de errores de las grabaciones de no nativos en el desarrollode los sistemas HearSay y Prontopara la prctica y la percepcin de la pronunciacin (Dalby y

    Kewley-Port, 1999). Igualmente, para la mejora del modelo acstico de un reconocedor destinado aexmenes orales de ingls, el equipo de Zechner, Higgins, Lawless et al. (2009) recogigrabaciones de frases ledas por no nativos con distinta L1 (japons, chino, coreano y espaol),atendiendo a las dificultades fonticas segn su idioma materno.

    Por lo que respecta a otras lenguas, el grupo de investigacin de Neri, Cucchiarini y Strik(2006; Doremalen et al., 2009) tambin ha empleado bancos de datos de no nativos para el diseo oentrenamiento de un sistema de reconocimiento de habla dirigido al aprendizaje de neerlands en unnivel inicial. Destaca, por lo prctico que resulta, el mtodo de obtencin de grabaciones que

    proponen Wik y Hjalmarsson (2009) para reunir producciones de no nativos en una L2. Mientraslos estudiantes utilizan el sistema Ville para el aprendizaje del sueco, su pronunciacin es grabada e

    incorporada al banco de datos oral. Por lo que respecta al espaol, se ha recogido una base de datosde producciones ledas por norteamericanos y hablantes de ingls de origen latinoamericano (Brattet al., 1998; Precoda y Bratt, 2008). Este equipo de investigacin termin constituyendo una spin-off, EduSpeak (vid. ref. n. 8), que actualmente comercializa motores de reconocimiento de habla

    para nueve lenguas (entre ellas, el ingls o el espaol latinoamericano).

    Leonardo Campillos Llanos Tecnologas del habla y anlisis...

    Dilogo de la Lengua,2010, II, 1-41 14 ISSN: 1989-1334

    10 Ms informacin en la pgina: http://nats-www.informatik.uni-hamburg.de/~isle/

    11 La interlengua, segn la definicin que estableci Selinker del concepto (1972), es el sistema lingstico variable queconstruye la persona que aprende una lengua durante estadio intermedio del proceso de adquisicin.

    12 En la aplicacin diseada en este proyecto se corrige la pronunciacin (sobre el fonema o el acento de la palabra malpronunciado) mediante representaciones visuales (vid. Menzel et al., 2001).

    http://nats-www.informatik.uni-hamburg.de/~isle/http://nats-www.informatik.uni-hamburg.de/~isle/http://nats-www.informatik.uni-hamburg.de/~isle/
  • 7/30/2019 1 Campillos DL 2010

    15/41

    Ms informacin acerca de otras bases de datos no nativas se presenta en el artculo deZinovjeva (2005). El principal obstculo para la explotacin de estos recursos es el acceso a losmismos, por sus dificultades de elaboracin, como indica Blake (2008: 64).

    1.3.2. Reconocimiento de habla para nios y el aprendizaje de la lectura.Existen menosaplicaciones destinadas a nios, debido a que es necesario contar con bancos de datos especficos dela edad (cuya disponibilidad es ms limitada que los corpus de voz adulta) para entrenaracsticamente los sistemas. Dicha necesidad parte del hecho de que la voz infantil posee unas

    propiedades acsticas particulares: en rasgos generales, unos valores tpicos ms altos de lafrecuencia fundamental y de los formantes, una mayor variabilidad espectral (dadas las diferenciasanatmicas y morfolgicas del tracto vocal) y una velocidad de habla ms lenta (vid. Price et al.,2009, donde se indican ms investigaciones al respecto). Adems, como apunta Eskenazi (2009),los reconocedores deben afrontar la variabilidad propia del habla infantil, llena de reformulaciones,dudas, incorrecciones fonticas, etc. Entre los estudios que han evaluado la precisin de losalgoritmos de reconocimiento automtico de habla infantil, se pueden consultar los que citan Neri,

    Mich, Gerosa y Giuliani (2008: 395).Uno de los campos ms activos es el de los llamados tutores de lectura (reading tutors).Russell et al. (1996) desarrollaron el sistema STAR (Speech Training Aid Research) para la prcticainteractiva de la pronunciacin del ingls por nios de entre 5 y 7 aos. Utiliza un reconocedor

    basado en modelos ocultos de Markov (Hidden Markov Models o HMM), para cuyo entrenamientofue necesario recopilar un corpus de voz infantil a partir de la lectura de un vocabularioseleccionado. Al usuario se le presentaba la imagen de una palabra que tena que producir y su

    pronunciacin era evaluada automticamente. Los resultados del experimento de uso del sistema enla clase fueron positivos, y los nios encontraron la aplicacin estimulante (vid. Russell et al.,2000). Tambin fue probado en el aula el prototipo desarrollado por el equipo de Mostow (Mostow

    et al., 1994; Mostow, 2004; Aist y Mostow, 2009) en el marco del proyecto LISTEN de launiversidad Carnegie Mellon. El tutor de lectura desarrollado emplea un reconocedor de voz dehabla continua para evaluar la lectura en voz alta de una historia leda por un nio. Por su parte,Zechner, Sabatini y Chen (2009) aplicaron un sistema de correccin automtica de la pronunciacinen la lectura de pasajes de textos y palabras aisladas. Con respecto a la lengua neerlandesa, se hadiseado SPACE, que incorpora reconocimiento y sntesis de habla para el seguimiento del procesode lectura en el nio y evaluacin del nivel lector (Duchateau et al., 2009). Dicho sistema tambin

    puede ser empleado por nios con retraso lector.Para el aprendizaje del ingls por parte de nios italianos, el equipo de Neri, Mich, Gerosa y

    Giuliani (2008) desarroll PARLING (PARla INGlese), dirigido a la prctica de la pronunciacin a

    nivel de palabra. Se trata de un sistema modular en que cada componente contiene: una historia (p. ej., Hansel y Gretel); un juego de palabras, que se va adaptando al usuario segn su progreso o el itinerario de

    tareas que realiza; un conjunto de palabras activas; un diccionario visual (con algunas palabras con hipervnculos a la imagen y supronunciacin);

    una herramienta para que el usuario cree su propio diccionario (con grabaciones suyas eilustraciones propias); y,

    un men de ayuda.

    PARLING incorpora un reconocedor de voz que fue entrenado con un banco de datos dehabla infantil del rango de edad de los usuarios a los que se dirige (10-11 aos), tanto nativos comono nativos. El prototipo fue probado con un grupo de alumnos italianos: unos recibieron instruccin

    Leonardo Campillos Llanos Tecnologas del habla y anlisis...

    Dilogo de la Lengua,2010, II, 1-41 15 ISSN: 1989-1334

  • 7/30/2019 1 Campillos DL 2010

    16/41

    tradicional, y otros mediante PARLING. Los resultados apuntan que, tanto con un sistema comocon otro, los nios mejoraron la pronunciacin de palabras difciles o desconocidas, pero aquellosque practicaron con PARLING necesitaron menos tiempo de prctica. A pesar de dichos resultados,los investigadores no dejan de sealar las limitaciones de su trabajo, que necesitara una poblacinexperimental ms amplia y se enfoca nicamente a la prctica de palabras aisladas (lo cual resulta

    poco realista para aprender a hablar espontneamente en una L2, dominando con naturalidad losefectos de coarticulacin y la fonotctica de la lengua meta).

    El proyecto TBALL (vid. Alwan et al., 2007), desarrollado en la universidad de SouthernCalifornia y en la universidad de Los ngeles, tiene como objetivo la prctica y evaluacin de lasdestrezas lectoras de nios norteamericanos nativos y no nativos procedentes de Mxico. Secompone de los siguientes mdulos:

    interfaz multimedia, con un diseo multimodal (presenta imgenes, texto y sonido,integrando tambin una pantalla tctil) y recoge datos de interaccin con el usuario;

    mdulo de correccin y evaluacin de la pronunciacin, que incorpora reconocimientode voz; y,

    interfaz del profesor, que realiza un seguimiento del estudiante y permite consultar susdatos personales o acadmicos (nivel del idioma, edad, procedencia, etc.).

    Las actividades para la prctica de la lectura son de distinto tipo: juntar y leer dos slabas paraformar una palabra, responder preguntas de tipo s/no a partir de un texto ledo en voz alta,identificar el sonido representado por un carcter alfabtico, o determinar el nombre correcto de unaletra. Es de sealar que cada tarea de evaluacin incorpora diferentes versiones segn el nivel dedificultad, permitiendo al usuario controlar en cada una el progreso de su aprendizaje (aunque concierto control automtico de la temporizacin o tiempo para realizar la actividad). Igual que paraotros sistemas antes mencionados, fue necesario recoger un banco de datos de habla infantil nativa

    y no nativa para el entrenamiento acstico del reconocedor; para dicha tarea se utiliz una interfazde tipo mago de Oz13 y se procedi despus al anlisis de errores de las producciones obtenidas, locual permiti aadir reglas de errores para extender el lexicn. El sistema fue llevado al auladurante el curso acadmico 2007-2008 (vid. detalles en Price et al., 2009), y dicho estudio de casoha planteado cuestiones como la falta de acuerdo de los profesores en lo que considerar comocorrecto, la falta de objetividad en la evaluacin del acento extranjero, o la dificultad dediagnosticar cada error, en el que a menudo confluyen factores de distintos niveles (ortografa,fontica, etc.).

    Entre los programas comerciales para nios, se pueden sealar Talk to me, Tell me more Kids(Auralog), English for kids (vid. resea de Krajka, 2001), los productos comercializados por la

    empresa Soliloquy Learning (vid. referencia n. 14), o los reconocedores de EduSpeak (vid. ref. n.8), que tambinincluyen modelos acsticos de voz infantil para el ingls americano. Incluso IBMdesarroll el sistema Watch Me! Readpara la mejora de las destrezas de lectura y presentacin oral(vid. ref. n. 39).

    Por ltimo, existen prototipos multimodales que combinan el procesamiento de voz con otrossistemas de entrada como texto, tacto o reconocimiento de escritura en pantalla. Un ejemplo de elloes el proyecto I SEE (Xiao et al., 2002; Oviatt et al., 2004), en el marco del cual se ha estudiado lainteraccin entre nios de 7 a 10 aos con un programa que les realizaba preguntas sobre animalesmarinos mediante sntesis de voz. Tambin se estn investigando sistemas de audicin de historias(Story Listening Systems, SLS) dirigidos a nios que cuentan cuentos. Por ejemplo, Sam the

    Leonardo Campillos Llanos Tecnologas del habla y anlisis...

    Dilogo de la Lengua,2010, II, 1-41 16 ISSN: 1989-1334

    13 En la prueba mago de Ozel usuario interacta con una herramienta informtica (por ejemplo, un sistema de dilogo oun programa de correccin de la pronunciacin) que simula ser automtico pero en realidad es controlado por uninvestigador. Su objetivo es probar el sistema para detectar errores de diseo antes de implementar la versin definitiva.

  • 7/30/2019 1 Campillos DL 2010

    17/41

    CastleMate, desarrollado por el equipo de Cassell (2004), que emplea una interfaz conversacionalcon reconocimiento de voz para dialogar con el usuario, y un mdulo de visin informtica querealiza un seguimiento de sus gestos o su postura, de modo que pueda interactuar con lconvenientemente.

    1.3.3. Sistemas de reconocimiento de habla para el aprendizaje del espaol. En primerlugar, abordamos los sistemas surgidos en el mbito de la investigacin acadmica. Uno de los

    primeros fue The Audio Interactive Tutor (TAIT), de los laboratorios de investigacin Mitsubishi(Waters, 1995), como recogen Gamper y Knapp (2002) en su recopilacin de sistemas inteligentesempleados en la enseanza de lenguas asistida por ordenador (IntelligentCALL oICALL). Para laenseanza de la pronunciacin del espaol a norteamericanos se desarroll el programa Pronto,surgido del trabajo de investigacin para la mejora de la pronunciacin de nios con problemas deaudicin o articulacin mediante el sistema ISTRA de reconocimiento de voz (Dalby y Kewley-Port, 1999). Dispone de una interfaz ldica que simula juegos para corregir la pronunciacin (porejemplo, los bolos: cuanto ms se aproxime el enunciado pronunciado al modelo nativo, ms bolos

    se derriban). Fue desarrollado con el enfoque de reforzar especialmente la percepcin fontico-fonolgica. Las dificultades de pronunciacin fueron determinadas a partir de estudios empricos decorpus no nativos y anlisis de errores entre pares de lenguas. Ignoramos los resultados de Prontosobre el aprendizaje del espaol, aunque cabe sealar que un programa similar para el ingls(HearSay) result positivo para aprender a pronunciar las consonantes y vocales tanto de las

    palabras practicadas con el programa como de las desconocidas que incluan los contrastesproblemticos (vid. Dalby y Kewley-Port, 2008).

    Para el espaol de Mxico, se ha empleado el mdulo de reconocimiento del CSLU Toolkit,desarrollado por el Center for Spoken Language Understanding, Oregon Graduate Institute(Kirschning, Aguas y Ahuactzin, 2000). El sistema evala la pronunciacin del hablante

    comparando la seal que graba con el modelo nativo.En el mbito comercial existen los programas ya mencionados Talk to me y Tell me more (ambos de Auralog; vid. ref. n. 36), RosettaStone (ref. n. 29), el test oral por telfono Versant de laempresa Ordinate (Bernstein y Chen, 2008), as como losreconocedores de habla comercializados

    por empresas como EduSpeak (ref. n. 8). A estos podemos aadir Learn to Speak Spanish (vid.resea de Gill, 1999), programa para el aprendizaje del espaol con reconocimiento de vozintegrado en la prctica de ejercicios de vocabulario o dilogos para interactuar con un personajevirtual, de gran utilidad para la prctica de la conversacin, aunque nicamente para el hablamexicana.

    1.3.4. Evaluacin de la efectividad de los programas que incorporan sistemas de

    reconocimiento de habla para el aprendizaje de lenguas. A menudo los sistemas de ELAOsolamente son evaluados por los propios desarrolladores, lo cual proyecta una imagen incompletade su eficacia. Adems, la metodologa empleada a veces no proporciona resultados que arrojen luzacerca del impacto que tienen en el proceso de aprendizaje en contextos reales (Felix, 2005), unaspecto sobre el cual tampoco abundan las evaluaciones (vid. al respecto la revisin de sistemasrealizada por Stockwell, 2007).

    Eskenazi y Brown (2006) exponen algunos de los aspectos que tener en cuenta en laevaluacin de un programa de este tipo: lo estimulante y la facilidad de uso, los objetivos

    pedaggicos, las tecnologas empleadas, la forma de realizar la correccin, la manera como losestudiantes son evaluados o guiados, etc. Tambin merece la pena considerar los criterios que

    sugiere Chapelle (2001) para la evaluacin de un programa de ELAO: el potencial para elaprendizaje de la lengua, cmo se ajusta al perfil del estudiante, el foco de significado (esto es, elconocimiento lingstico o el proceso en el que el aprendiz fija su atencin mientras realiza la

    Leonardo Campillos Llanos Tecnologas del habla y anlisis...

    Dilogo de la Lengua,2010, II, 1-41 17 ISSN: 1989-1334

  • 7/30/2019 1 Campillos DL 2010

    18/41

    tarea), el impacto en el proceso de aprendizaje, la autenticidad de la actividad, y la funcionalidad dela herramienta (o sea, lo prctico que resulta su uso)14.

    La evaluacin de la aplicacin de sistemas de dictado automtico (por ejemplo, DragonNaturally Speaking, de Nuance; vid. referencia de Internet n. 22) en la correccin de lapronunciacin ha tenido resultados negativos, debido a que son sistemas que no se disearon para el

    reconocimiento del habla no nativa ni para la correccin de errores (vid. Strik, Neri y Cuchiarini,2008). En cuanto a programas diseados especficamente para la enseanza de lenguas, se hanrealizado evaluaciones de programas como Talk to me (Auralog) para el aprendizaje del espaol(Lafford, 2004) y del ingls (Hincks: 2003, 2005b). En este ltimo caso, se llev a cabo unexperimento controlado en que se compar un grupo que fue instruido con el programa y otro queno. Tanto Lafford como Hincks apuntan que la herramienta se aleja un tanto de los principios de laenseanza comunicativa y se centra en ejercicios de repeticin propios de enfoques audio-linguales.Tambin se ha evaluado con un experimento el sistema de correccin automtica de la

    pronunciacin para el aprendizaje del neerlands desarrollado por el equipo de Neri, Cucchiarini yStrik (2008). Los resultados obtenidos indican la mejora significativa de la pronunciacin, a pesar

    de la distancia tipolgica entre la lengua materna de los estudiantes y la lengua meta. Lasconclusiones de este equipo coinciden con los de Hincks (2003) en el hecho de que los hablantescon un acento ms marcado obtuvieron una mejora mayor, lo cual parece recomendar el uso de

    programas de ayuda para la pronunciacin en los niveles ms bajos. Aliaga-Garca (2007) tambinrealiz un experimento con EyeSpeak para la enseanza de la pronunciacin de las oclusivas sordasdel ingls a espaoles y catalanes. Pese a los resultados positivos obtenidos, expresa su cautelasobre la influencia de estas aplicaciones, por lo que parecen necesarias ms investigaciones alrespecto.

    Resultados no tan positivos fueron obtenidos por el equipo de Mayfield Tomokiyo (2000),que evalu la eficacia del sistema FLUENCY (desarrollado en la Universidad Carnegie Mellon para

    el aprendizaje del ingls). El sistema detecta errores de pronunciacin, seala al usuario dnde hanocurrido y le explica cmo pronunciar correctamente los sonidos. El procesamiento toma, entreotros, informacin sobre la duracin voclica (Eskenazi, 1999), aspecto importante en la fonticadel ingls. Los investigadores llevaron a cabo un experimento con un grupo de hablantes dediferente L1 que recibi instruccin para la mejora de la pronunciacin con esta herramienta, frentea otro grupo que recibi la misma enseanza en clase. La prueba no mostr una mejora destacable

    por parte de los estudiantes de niveles iniciales, ni tampoco una mejora comparativamentesignificativa entre el grupo que recibi correccin por el sistema de reconocimiento y el grupo quefue corregido en clase. Adems, en el grupo experimental pareci existir una gran variacin en elnivel de mejora de la pronunciacin, a diferencia de quienes recibieron instruccin presencial, que

    perfeccionaron sus producciones de manera ms homognea. Barr et al. (2005) tambin aportanresultados negativos en la mejora de las destrezas orales en el aprendizaje del francs (nivel inicial)haciendo uso de un programa con reconocimiento de voz (Tell me more), aunque en su estudioaquel se integraba en un entorno multimedia ms amplio. Dichos investigadores apuntan lanecesidad de actividades que consigan una comunicacin orientada al mensaje, propia de lacomunicacin cara a cara.

    Respecto a la importancia del uso de informacin visual para el aprendizaje de lapronunciacin, sera positivo plantear una evaluacin como la que propuso Flege (1988: 402), estoes, comparar los resultados en la mejora de la pronunciacin entre cuatro grupos de sujetos: uno que

    Leonardo Campillos Llanos Tecnologas del habla y anlisis...

    Dilogo de la Lengua,2010, II, 1-41 18 ISSN: 1989-1334

    14 Existen multitud de reseas de programas en la revista CALICO (www.calico.org) o en asociaciones comoInformationand Communications Technology (ICT) for Language Teachers (www.ict4lt.org), en cuya pgina se presenta un modelo de

    parrilla de evaluacin de software educativo para la enseanza de lenguas (http://www.ict4lt.org/en/evalform.doc).

    http://www.calico.org/http://www.ict4lt.org/en/evalform.dochttp://www.ict4lt.org/en/evalform.dochttp://www.ict4lt.org/http://www.ict4lt.org/http://www.calico.org/http://www.calico.org/
  • 7/30/2019 1 Campillos DL 2010

    19/41

    recibiera nicamente correccin visual, otro que recibiera correccin visual y auditiva, otro grupoque tuviera que imitar las producciones nativas, y otro que, adems de tener que intentaraproximarse a ese modelo, fuera evaluado por un profesional.

    1.3.5. Problemas del reconocimiento de habla para la enseanza de la lengua.Para lograrun reconocimiento de calidad y una buena integracin en un sistema completo de ELAO, an hayque resolver deficiencias tecnolgicas. Hincks (2003) y Eskenazi y Brown (2006) han indicado,entre otras, las siguientes.

    Parecen an necesarios avances en el rea del procesamiento del lenguaje natural y elreconocimiento del habla para emplearlas ms all de dominios restringidos. Laaplicacin del reconocimiento de habla libre, poco controlada, genera una gran tasa deerror, por lo que se hace imprescindible predecir las producciones del usuario. As, elestudiante puede llegar a asumir un papel pasivo, pues slo repite un conjunto cerrado defrases o un vocabulario reducido. Para evitarlo, pueden adoptarse tcnicas de obtencinde enunciados que anticipan los que producir el hablante, pero concedindole cierto

    margen de libertad. Esta estrategia se realiza en el sistema FLUENCY (Eskenazi, 1999) oen el proyecto LISTEN (Aist y Mostow, 2009), ambos de la universidad CarnegieMellon. Con todo, los fallos de reconocimiento de habla espontnea impidenimplementar an actividades muy atractivas (por ejemplo, una discusin abierta), oincluso dificultan el tratamiento de niveles lingsticos como la sintaxis o la morfologa(Cucchiarini et al., 2009).

    Probablemente se obtengan mejores resultados cuando se perfeccionen los sistemas dereconocimiento independientes de locutor. Actualmente, el reconocimiento funcionamejor cuanto ms se haya entrenado el sistema con un mismo hablante, as que es difcilobtener buenos resultados en las primeras locuciones de un nuevo usuario. Por ejemplo,

    los sonidos correspondientes a fonemas ligeramente distintos (como // y // en ingls)se pueden solapar en el espacio acstico si los modelos de los sonidos se entrenanindependientemente de un hablante especfico (algo necesario para que cualquierhablante use el sistema), como explican Neri, Cucchiarini, Strik y Boves (2003). Paraevitarlo, se pueden incluir palabras que son fonticamente muy diferentes, o informacinsobre la duracin.

    Los futuros sistemas han de tener en cuenta de mejor manera el sexo del locutor o suedad, debido a la diferencia de timbre entre hombres adultos y mujeres o nios.

    An se ha de mejorar el reconocimiento de sonidos en determinados contextos; porejemplo, en el nivel fontico a veces existen problemas de reconocimiento con los

    primeros sonidos de un enunciado tras un silencio, y con los sonidos de slabas tonas(parece ser que las slabas tnicas se reconocen ms fcilmente).

    Otros investigadores aaden que el reconocimiento de habla no nativa es menos precisa querespecto al habla nativa, debido en parte al alto nmero de disfluencias (titubeos, pausas,reparaciones, reinicios, etc.) en las producciones orales realizadas por extranjeros (van Doremalenet al., 2009). Dichos fenmenos de la oralidad precisan ser incluidos en el modelo de lenguaje.Asimismo, las variantes de pronunciacin debidas a la interferencia de la L1 necesitan una atencinespecial. As, es necesario adaptar el modelo acstico del reconocedor (Mayfield Tomokiyo yWaibel, 2001), por ejemplo incorporando sonidos mal pronunciados, aunque se trata de un procesoan no resuelto definitivamente (van Doremalen et al., 2009, Zechner, Higgins, Lawless et al.,2009) y en el que se estn experimentando nuevos mtodos (vid.por ejemplo Ohkawa et al., 2009).Por otra parte, como indica Blake (2008: 64), la incorporacin del reconocimiento automtico de

    Leonardo Campillos Llanos Tecnologas del habla y anlisis...

    Dilogo de la Lengua,2010, II, 1-41 19 ISSN: 1989-1334

  • 7/30/2019 1 Campillos DL 2010

    20/41

    habla a la enseanza de lenguas tendr un impacto significativo cuando se disponga de unaherramienta de autor que haga ms simple su uso por los no ingenieros.

    1.4. Conversin texto-habla. La sntesis de habla es una tecnologa que no ha sido muyconsiderada para las aplicaciones de enseanza de lenguas, en cierto modo porque an no presentaun grado suficiente de madurez tecnolgica (cuando se compara, por ejemplo, con elreconocimiento de habla), de manera que la voz sintetizada resulta poco natural (Delmonte, 2008).Una de las crticas principales de su uso es precisamente la falta de autenticidad del habla generada.Como contrapartida, Delmonte (2008) expone la ventaja que supone poder sintetizar cualquier textoinmediatamente generado u obtenido para el estudiante, sin necesidad de que un hablante o unlocutor profesional grabe la lectura del mismo, o sin que un tutor humano est presente mientrasrealiza una actividad de aprendizaje. Con todo, podemos diferenciar tres estrategias de empleo de lasntesis de voz para la enseanza de lenguas.

    El uso de la sntesis para percibir los resultados de la manipulacin de la voz (duracin,timbre, meloda prosdica). Dicho enfoque es el ms sencillo, pues puede prescindir

    de modelos acsticos para la sntesis, manipulando simplemente la grabacin de unhablante y resintetizndola. Algunos programas de visualizacin del habla incluyentambin mdulos para transformar la seal y sintetizar el resultado: por ejemplo, Praat,WinSnoori, Speech Filing System (SFS) o WinPitch, como ya se ha explicado en elapartado 1.2.1. En esta lnea de trabajo, se ofrecen ejemplos de aplicaciones didcticas

    para la enseanza del acento de intensidad en Hincks (2002); de la prosodia, en LahozBengoechea (2008); y tambin de la entonacin y el ritmo, en Sundstrom (1998) yMartin (2005). Probst et al. (2002) han planteado que la resntesis de la propia voz delhablante proporciona mejores resultados de aprendizaje, y este procedimiento es el queaplican Felps et al. (2009, manipulando rasgos prosdicos y segmentales) o Bissiria y

    Pfitzinger (2009, para la adquisicin del acento lxico del alemn por parte de italianos).Anlogamente, el sistema de sntesis STRAIGHT (Kawahara y Akahane-Yamada, 2006)y otras herramientas como SNACK Sound Toolkit se han empleado en experimentos defontica perceptiva, con ejercicios de identificacin de fonemas cuya duracin,intensidad o timbre se ha manipulado, o experimentos de discriminacin de patronesmeldicos modificados (Sjoelander et al., 1999). Otras pruebas de discriminacin

    perceptiva que hacen uso de la sntesis de habla se explican en Berkovitz (1999) o enVogel et al. (2009).

    El empleo de sntesis de voz en los sistemas de dilogo que, junto al mdulo dereconocimiento y de gestin de la conversacin, permiten la interaccin comunicativa

    con el hablante para practicar la lengua. Por ejemplo, las herramientas del Center forSpoken Language Understanding (CSLU) Toolkit, desarrolladas en la Universidad deOregn, integran el conversor texto-habla Festival (creado en la Universidad deEdimburgo), que puede sintetizar habla en ingls, pero tambin en gals y en espaol devariedad mexicana (vid. apartado 1.5.3).

    Herramientas que integran la conversin texto-habla en un sistema multimedia para elaprendizaje de una lengua, ya sea de los aspectos de la pronunciacin o la ortografa(para dictados), la prctica de la comprensin lectora o la lectura en voz alta de cadaentrada de un diccionario bilinge (vid. al respecto Lyras et al., 2009). A continuacintrataremos este tipo de aplicaciones, que de manera preponderante se han desarrollado

    para el ingls, aunque ha sido creado algn prototipo para una lengua minoritaria comoel bretn (Mercier, Guyomard y Siroux, 1999).

    Leonardo Campillos Llanos Tecnologas del habla y anlisis...

    Dilogo de la Lengua,2010, II, 1-41 20 ISSN: 1989-1334

  • 7/30/2019 1 Campillos DL 2010

    21/41

  • 7/30/2019 1 Campillos DL 2010

    22/41

    1.5.1. Sistemas de dilogo para la prctica de situaciones comunicativas.Hemos reunidoen este apartado sistemas de dilogo que en mayor o menor medida emulan la interaccin ensituaciones de comunicacin determinadas. Por ejemplo, Raux y Eskenazi (2004) explican elsistema Lets go, que simula un dilogo en que el usuario solicita informacin sobre los horarios delautobs. Como estos investigadores comentan, un sistema de dilogo aplicado al aprendizaje de

    lenguas tiene dos objetivos: que el usuario complete la tarea requerida y que mejore su destrezalingstica y conversacional. As, el diseo de las estrategias de correccin ha de cuidarse para que,cuando le pregunte el sistema, el usuario no realice una simple repeticin o confirmacin deinformacin, sino que practique frases completas con unas dificultades determinadas. La correccinal usuario, adems, ha de ser concisa y comprensible.

    A medio camino entre una aplicacin con reconocedor de voz y gestor de la conversacin, yun sistema de dilogo, la herramienta Subarashii (Ehsani et al., 2000) permite el aprendizaje del

    japons en niveles iniciales, mediante la interaccin con el programa en encuentros comunicativoscomo una presentacin o concertar un plan de ocio. No solamente se corrige el nivel de la

    pronunciacin, sino tambin errores gramaticales o de lxico.

    El grupo de sistemas de dilogo del Massachussets Institute of Technology ha desarrolladouna herramienta para el aprendizaje del chino mandarn por hablantes de ingls (explicado endetalle en Seneff, Wang, Peabody y Zue, 2004). El diseo pedaggico de los contenidos parte deun dominio temtico (los viajes, el tiempo o la informacin sobre vuelos) que se expande enescenarios y situaciones concretas (el hotel, el aeropuerto, etc.). Previamente a la prctica oral,se plantean ejercicios o juegos va web que emplean traduccin automtica. El objetivo de estas

    prcticas es doble:

    preparar el vocabulario y la gramtica de la leccin; y, recoger producciones escritas (respuestas a preguntas de los contenidos) para el mdulo

    de comprensin de lenguaje natural (Natural Language UnderstandingoNUL) y obtenergrabaciones de habla para entrenar el reconocedor.

    El sistema resulta muy flexible, pues el hablante puede interactuar mediante la voz o porescrito, y adems permite el uso de la lengua nativa del usuario por medio del mdulo de traduccinautomtica (se traducen al chino las preguntas en ingls cuando el usuario no encuentra la forma de

    preguntar en la lengua meta). Este grupo de investigadores ha seguido la misma metodologa paradesarrollar otras aplicaciones que incorporan sntesis de habla (para or la traduccin que el usuariodebe repetir), o que se han implementado para su uso por telfono.

    1.5.2. Sistemas de dilogo integrados en el entorno de un videojuego.Uno de los enfoquesde investigacin y desarrollo en el rea de sistemas de dilogo educativos ser el diseo de

    aplicaciones e interfaces cercanas a las de un videojuego, lo que aade un componente decompetitividad y ampla la participacin a ms usuarios, como apunta Seneff (2007). En el artculocitado se presentan ejemplos de videojuegos que incorporan sistemas de dilogo: en uno de ellos elhablante tiene que colocar en el lugar donde se le indica formas geomtricas (cuadrados, tringulos)con determinados colores, seleccionndolos mediante la voz; en otro, en el dominio temtico deltiempo libre, el usuario tiene que conversar con el sistema sobre sus aficiones para cuadrar suhorario y conseguir quedar con el personaje (vid. Seneff, Wang y Chao, 2007). El usuario es asistidoen la actividad del dilogo con un tutor robtico que le ayuda a planificar la interaccin. Otro juegoms reciente, Word War (McGraw y Seneff, 2008; McGraw, Yoshimoto y Seneff, 2009), incorporala interaccin mediante la voz para el aprendizaje del vocabulario del chino mandarn. El usuarioutiliza comandos de voz en esta lengua para mover al hueco indicado por el sistema imgenes deanimales, plantas o comida (aunque puede crear otras nuevas segn sus necesidades de

    Leonardo Campillos Llanos Tecnologas del habla y anlisis...

    Dilogo de la Lengua,2010, II, 1-41 22 ISSN: 1989-1334

  • 7/30/2019 1 Campillos DL 2010

    23/41

    aprendizaje). Un rasgo importante de Word War es que se realiza un seguimiento continuo delusuario y sus pronunciaciones son grabadas para su posterior anlisis.

    Para la enseanza del vocabulario y otros niveles lingsticos junto a los aspectos culturales,se ha integrado un sistema de dilogo para interactuar con personajes virtuales en un videojuego: elDARWARS Tactical Language Training System (TLTS) desarrollado por el equipo de Johnson

    (2004). Dirigido al aprendizaje de rabe por soldados americanos destinados a Irak, recientementeha sido comercializado por la empresa Alelo (Johnson y Valente, 2008). En la dcada anterior yaexista un sistema semejante en objetivos tambin estaba destinado a militares y diseo eramultimedia, aunque no en un entorno de videojuego (Harless, Zier y Duncan, 1999). Este

    programa, llamado Virtual Conversations, tambin empleaba reconocimiento de voz para practicarel rabe en simulaciones de situaciones reales. Otro juego en desarrollo, DEAL, emplea un avatarcon el que se interacta mediante un sistema de dilogo, para el aprendizaje de la gramtica o elvocabulario en el dominio del comercio (vid. Wiket al., 2007; Wik y Hjalmarsson, 2009).

    Por ltimo, tampoco habr que dejar de lado las posibilidades de integracin de los sistemasde dilogo con la realidad virtual. La combinacin de estos avances ya se ha llevado a cabo en el

    programa experimental Zengo Sayu para el aprendizaje del japons (Rose y Billinghurst, 1995), oen el prototipo para la prctica de la comprensin auditiva en el aprendizaje del ingls queexplican Garca-Ruiz et al. (2008). La adquisicin de una lengua mediante la interaccin y laactividad fsica del hablante aunque limitada a un entorno virtual encaja en la lnea deenfoques de enseanza como la respuesta fsica total (Total Physical Response) de J. Asher o elenfoque natural (Natural Approach) de T. Terrell y S. Krashen (para ms detalles sobre ambos,vid. Richards y Rodgers, 2003).

    1.5.3. Sistemas de dilogo y agentes animados. Otros desarrollos integran el uso de carasparlantes (talking faces) en los que se visualizan los movimientos articulatorios del habla. Por

    ejemplo, las herramientas integradas en el Center for Spoken Language Understanding (CSLU)Toolkitpermiten la creacin de agentes animados que interactan con el usuario mediantereconocimiento y sntesis de voz. Una de las principales ventajas es el uso de informacinmultimodal: auditiva y visual, sirviendo esta ltima de mayor apoyo a los hablantes de segundaslenguas o con dficits auditivos (Granstrm, 2004). La generacin de voz est sincronizada con lasimgenes tridimensionales que simulan los movimientos articulatorios de la boca o los rganosfonadores (vistos desde interior, desde una vista de perfil medio sagital, o incluso desde atrs), ascomo otros gestos de la cara. Estas imgenes se sintetizan, por ejemplo, utilizando datos de losrganos articulatorios obtenidos mediante electropalatografa o ultrasonidos en el proceso defonacin (Massaro, 2006).

    Dichas tecnologas se han usado al parecer, con buenos resultados para que los estudiantesde segundas lenguas aprendan el vocabulario o la pronunciacin. Un ejemplo de ello para el inglses el agente animado Baldi (Massaro, 2006), que tambin se ha adaptado para el espaol, el francs,el italiano, el rabe o el mandarn. Cole et al. (1999) explican las ventajas del uso de un agente

    parlante: aportar una dimensin ms humana a la interaccin hombre-mquina, poder transmitircontenido emocional, o reunir mayor capacidad de transmitir informacin. Baldi tambin se hadestinado a usuarios con problemas de sordera, con trastornos del espectro autista o inclusodislexia. Sin embargo, algunos investigadores han destacado ciertas limitaciones: no proporcionainstrucciones especficas sobre la propia pronunciacin del hablante ni le corrige sus errores(Engwall et al., 2006); tampoco se ha evaluado la usabilidad del sistema (vid. Eriksson et al., 2004),

    y el uso de la sntesis de voz puede resultar artificial (Cole et al., 1999) aunque el profesor puedegrabar cualquier enunciado y emplearlo en lugar del habla sinttica. Estos sistemas de agentesanimados tambin se han destinado a la adquisicin de las destrezas de lectura por parte de nios; es

    Leonardo Campillos Llanos Tecnologas del habla y anlisis...

    Dilogo de la Lengua,2010, II, 1-41 23 ISSN: 1989-1334

  • 7/30/2019 1 Campillos DL 2010

    24/41

    el caso del Colorado Literacy Tutor (Hagen et al., 2003), que incorpora un mdulo de evaluacin deresmenes.

    2. RECOMENDACIONES DE DISEO DE APLICACIONES DE VISUALIZACIN DE VOZ Y DETECNOLOGAS DEL HABLA PARA LA ENSEANZA DE LENGUAS

    Tanto en el mbito comercial como investigador, sera beneficiosa la participacin del usuariofinal (docente o aprendiz) en la fase de diseo de una aplicacin didctica, como expone el modelode diseo de programas de ELAO sugerido por Colpaert (2004; apudWard, 2006: 134). Junto aello, consideramos positivas las recomendaciones recogidas en la bibliografa consultada, queexponemos a continuacin, acerca de los procedimientos de correccin (2.1), los contenidos

    pedaggicos (2.2) o el diseo de la interfaz (2.3).

    2.1. Los procedimientos de correccin.Varios investigadores ya han indicado que el factorms importante de cualquier tecnologa de habla o de visualizacin de la voz para la enseanza deuna lengua es que el alumno reciba una evaluacin acerca de su enunciado o de cmo pronuncia,

    esto es, una puntuacin dependiendo de si se aleja ms o menos del modelo nativo (Hincks, 2003:5; Neri, Cucchiarini, Strik, Boves, 2003: 6; Martin, 2005; Gmez Vilda et al., 2008). No solamentees necesario marcar los aspectos negativos de su produccin oral, sino tambin sus aciertos.Adems de ello, lo ptimo sera recibir evaluacin acerca del lugar donde se ha cometido el error de

    pronunciacin (Hincks, 2003), para evitar la persistencia del mismo en el habla (o fosilizacin, entrminos de Selinker, 1972). Por ejemplo, Tell me more y Talk to me muestran en otro color las

    palabras en que se han cometido errores, mediante un sistema de reconocimiento de habla queprocesa la seal producida por el no nativo y la compara con el modelo de pronunciacin nativa(Lafford: 2004). En cuanto a los aspectos prosdicos, el sistema BetterAccentTutor (Kommisachirky Kommisachirk, 2000) presenta una correccin visual de la entonacin, el acento y el ritmo.

    Respecto a qu corregir, se pueden distinguir dos niveles en la pronunciacin extranjera: elacento extranjero y la inteligibilidad (vid. Neri, Cucchiarini y Strik, 2002). Parece ms razonableintentar alcanzar una pronunciacin correcta (en cuanto a su grado de comprensin) que unacompletamente libre de acento extranjero, por lo que resulta ms sensato concentrarse en la prcticade la pronunciacin de los sonidos que ms dificultan o impiden la comunicacin. De esta forma, setorna imprescindible establecer jerarquas de errores para el aprendizaje de cualquier par delenguas. Baremos que consideren tanto el nivel fontico-fonolgico como el suprasegmental, yaque, por ejemplo, las variaciones de intensidad o de duracin pueden ser ms importantes ydistintivas en una lengua que en otra (Eskenazi, 1999). En el sistema desarrollado por el equipo de

    Neri, Cucchiarini y Strik (2002, 2008; Cucchiarini et al., 2009), los errores que corregir deban ser

    perceptivamente significativos, frecuentes, comunes entre hablantes de lenguas maternas diferentes,persistentes en el tiempo, que podran dificultar la comunicacin, y apropiados para ser detectadosautomticamente. Respecto a la correccin automtica, es importante que sea lo ms parecida a laevaluacin humana de la pronunciacin. Para ello, en el desarrollo de un sistema, pareceaconsejable realizar estudios en los que se comparan las valoraciones o juicios de inteligibilidad devarios evaluadores humanos acerca de los enunciados producidos por no nativos (por ejemplo,Warren et al., 2009), a fin de establecer un parmetro de referencia para la correccin.

    Todo ello plantea la necesidad de que la correccin sea, en la medida de lo posible, especficapara la lengua materna del hablante extranjero. Para lograrlo, sern provechosos los estudios debase emprica (fundamentadas en corpus de producciones no nativas) sobre la interferencia fontica

    y fonolgica en el proceso de aprendizaje, especialmente utilizando herramientas de visualizacin yanlisis acstico de la voz.

    Leonardo Campillos Llanos Tecnologas del habla y anlisis...

    Dilogo de la Lengua,2010, II, 1-41 24 ISSN: 1989-1334

  • 7/30/2019 1 Campillos DL 2010

    25/41

    En cuanto a cmo corregir, se ha sugerido que el mtodo de correccin debe ser comprensiblea primera vista y fcil de interpretar (Neri, Cucchiarini y Strik, 2002), sin ser demasiado repetitivo,insistente o con frases largas (Eskenazi: 1999; apudWik y Hjalmarsson, 2009). Un mtodo que

    parece eficaz y adecuado es el uso de sistemas de colores o iconos sencillos (como las luces detrfico empleadas en Ville; vid. Wik y Hjalmarsson, 2009). Tambin es importante no corregir

    excesivos errores para no desanimar al alumno; por ejemplo, en el sistema que exponen Neri,Cucchiarini y Strik (2008), como mximo se sealan tres errores en un mismo enunciado. Desdeluego, como proponen Neri, Mich, Gerosa y Giuliani (2008), se hace necesario un estudioexperimental entre varios grupos que reciban diferentes formas de correccin, para estudiar lainfluencia de cada uno.

    2.2. El diseo de los contenidos pedaggicos.Los aspectos pedaggicos de los sistemas queincorporan tecnologas de habla suelen carecer de las pautas propias procedentes de la investigacinen la adquisicin de segundas lenguas (Neri, Cucchiarini, Strik y Bobes, 2002). Igualmente, puedenadolecer de un currculum limitado, o no parten de un marco terico claro ni siguen un modelo

    determinado de pronunciacin (Pennington, 1999: 432-433). De hecho, Eskenazi y Brown (2006)consideran importante para la formacin de un especialista en tecnologas de habla educativasabordar una introduccin a la teora del aprendizaje cognitivo y los principios del diseo delsoftware que se derivan de ella.

    Siguiendo las recomendaciones de Neri, Cucchiarini y Strik (2003, 2008) es importantedisear adecuadamente las actividades de aprendizaje para que las tareas de reconocimiento sean lo