111 Jornadas - Universidad de Granada

10

Transcript of 111 Jornadas - Universidad de Granada

Page 1: 111 Jornadas - Universidad de Granada
Page 2: 111 Jornadas - Universidad de Granada

111 Jornadas de Ingeniería Telemática JITEL 2001

Barcelona, 19 al 21 de septiembre de 2001

Editores: Emilio Sanvicente Gargallo Miguel Soriano Ibáñez Jorge Mataix Oltra

Departament d'Enginyeria ~. nntol Telematica .~

UN IVERSIT AT POLl TtCN ICA DE CATAL UN YA

Page 3: 111 Jornadas - Universidad de Granada

Servei d'lnformació, Imatge i Publicacions de la UPC, 2001 (6065) Imprimeix: Barcelona Digital, si Diposit legal: 8-37983-2001 ISBN: 84-7653-783-2

Page 4: 111 Jornadas - Universidad de Granada

14

Diseño e interconexión de redes BIDERAL: Base de información para el diseño experto de LAN .................................................. 117 J. A. /rastorza, K. Hackbart

Integración de tecnologías de acceso de banda ancha. Proyecto HIAD ................. .125 C. López. J. Carda. F. J. Conzá/ez, P.S. Rodríguez, J. M. Pausada

Algoritmo para el encaminamiento de tráfico en redes de conmutación de circuitos .................................................................................................... 133 K. Hackbarth, S. /báñez, J. A. Portilla

Diseño de un Sistema para el Desarrollo de Aplicaciones en Entornos LAN-WLAN ...................................................................................................... 141 E. Madas, A. Suárez, C. Nieves, E. Robayna

Análisis de la integración entre tráfico IP y redes ATM. Simulador MPLS .............. 149 M. A. Martín, M. Caspar, J. L. Conzá/ez

Metodología de diseño para la planificación de redes conmutadas en entornos locales ...................................................................................... 157 E. Pallarés, J. Carda Haro

2B Aplicaciones telemáticas Aplicación para la gestión electrónica de documentos XML ........................................................ 167 P. Hernández, M. Cárdenes

Mediador inteligente para comercio electrónico en entornos móviles ..................•.. .175 D. Pon ce, M. Soriano

Sistema de comercio electrónico de contenidos con anonimato mediante dinero no trazable ......................................................................... .183 J. Unzilla, A. Muñoz, J. Egui/uz, C. Perfecto

DelfosnetX: Sistema de recuperación de información basado en meta datos .........•...............•...•••••.•.•..........•.••••......••..•••.•...........•••...••..•.•••••.••..••...• 191 P. Pavón, J. Rodríguez, M. J. Fernández, M. Llamas, J. Santos, M. Caeiro, L. Anido

Desarrollo de un sistema remoto de consultas y reservas mediante interfaz oral ........................................................................................ 199 J. E. Díaz-Verdejo, P. Carda, R. López-Cozar, J. M. López-So/er

Modelado de Servicios Complejos en una Plataforma de Intermediación para Comercio Electrónico .............................................................. 205 E. Vázquez, F. Va/era, L. Bellido

Page 5: 111 Jornadas - Universidad de Granada

m Jornadas de Ingeniería Telemática. JITEL 2001 199

Desarrollo de un sistema remoto de consultas y reservas mediante interfaz oral.

Jesús E. Díaz-Verdejo, Pedro García, Ramón López-Cózar, Juan M. López-Soler, Juan M. Estévez, A. Rubio Ayuso

Dpto. Electrónica y Tecnología de Computadores. Universidad de Granada. Facultad de Ciencias. 18071 - Granada

Teléfono: 958244011 Fax: 958243230 E-mail: [email protected]

Abstract. This paper describes the architectureJunctioning and development of an automated system for information retrieval in a bus company environment. The access to the service is done orally by using a telephone. The system has been developed with the main objective of providing a natural and comfortable service. Therefore, the user should speak in a natural way, without constraints nor a predejined flow of query-answers. For this purpose, a dialog system is inc/uded in order to guide the interaction between the system and the user. Other main components are a continuous speech recognition system and a text-to-speech synthesizer. A keypointfor the properoperation ofthesystem is the modeling ofreal dialogs that have be en obtained by monitoring a man-operated information system.

1 Introducción

La posibilidad de acceso remoto a información de diversa naturaleza constituye uno de los objetivos prioritarios de la denominada "Sociedad de la Información". Habitualmente, el acceso se realiza mediante "terminales" de usuario, como pueden ser, p.e., ordenadores o teléfonos móviles dotados de navegadores, en los que la comunicación se basa en técnicas vtalmente diferentes de la comunicación habitual en el hombre, esto es, la comunicación por vía oral. Sin embargo, la tecnología de reconocimiento del habla posibilita el desarrollo de sistemas automáticos que permitan la comunicación con los usuarios mediante la voz [1], [2], [3]. El sistema en desarrollo que se describirá a continuación pretende permitir una comunicación oral para la adquisición de los datos de interés, así como para ordenar ciertas acciones o actuaciones relacionadas con los mismos. De esta forma se consigue que la comunicación resulte más natural al usuario al tiempo que se sustituyen los costosos terminales informáticos por un sencillo terminal telefónico sin ningún tipo de función adicional.

Evidentemente, la disminución de los requerimientos relativos a uno de los extremos de la comunicación se traducirá en el incremento de la complejidad del sistema fmal a desarrollar.

El presente artículo se desarrollará realizando, en primer lugar, una descripción funcional del sistema en la que se señalarán tanto los objetivos como los problemas a abordar. También se presentarán los antecedentes del mencionado sistema, indicando los aspectos en los que se pretenden introducir mejoras,

así como la arquitectura propuesta para la consecución de los objetivos marcados. A continuación se describirán los tres módulos principales del sistema, esto es, el módulo de reconocimiento de voz, el módulo de diálogo y el módulo de conversión texto-a-voz. Para fmalizar, se presentarán algunos aspectos relativos a la implementación práctica del sistema y su evaluación.

2 Descripción del sistema

2.1 Descripción funcional

El sistema en desarrollo proporciona un servicio de consulta oral automática para una compañía de autobuses, contemplando la posibilidad de realizar la reserva de billetes.

El objetivo del sistema es, por tanto, proporcionar la información solicitada por los locutores mediante la interacción oral con los mismos. Para ello, obviamente, debe ser capaz de determinar la información objeto de consulta a partir de las preguntas que se le realicen. Este objetivo aparentemente simple presenta enormes dificultades en varios aspectos.

En primer lugar, es necesario "transcribir" las preguntas realizadas, para lo que se utilizarán sistemas de reconocimiento de voz.

Por otra parte, las consultas suelen contener ambigüedades e imprecisiones que imposibilitan la obtención de la información mediante consultas directas a bases de datos, siendo necesario acotar y delimitar claramente el objeto de las mismas. Para ello es necesario interaccionar con el hablante a fm de obtener la información adicional que se estime

Page 6: 111 Jornadas - Universidad de Granada

200

A: Alsina, buenos días, le atiende Noelia, dígame .

B: Buenos días. Para saber los horarios a Carchuna.

A: ¿Para hoy? B: No para .. . para mañana A: A Carchuna tiene a las 6 45 de la

mañana, 9 30 de la mañana, 11 30, 17, 17 30 Y 19 30

B: Vale muchas gracias. A: Nada, a usted. B: Hasta luego.

Fig. 1: Ejemplo de conversación real.

oportuna en cada caso y que permita establecer la consulta exacta a realizar a la base de datos. Es necesario, por tanto , incluir un sistema de diálogo que mantenga una "conversación" con el locutor que permita determinar exactamente la información requerida (véase la Fig. 1).

Finalmente, será necesario proporcionat los mensajes salientes en forma oral, para lo que se utilizará un conversor texto - a- voz, dada la naturaleza dinámica de los mensajes que hay que proporcionar en cada fase de la interacción con los locutores.

Cada uno de los tres aspectos mencionados presentan una problemática específica, que se detallará posteriormente, si bien la principal dificultad del sistema reside en la capacidad del mismo para desarrollar una "conversación" de la forma más natural posible. Idealmente, el locutor no debería ser capaz de determinat si le está atendiendo un operador humano o un sistema automático, ya que de ello depende en gran parte la aceptación del sistema por parte de los potenciales usuarios del servicio.

2.2 Antecedentes

El sistema descrito presenta un antecedente inmediato en el denominado Sistema Telefónico Automático de Consulta de Calificacione s (ST ACC) [4] desarrollado con tecnología propia por el Grupo de Investigación en Señales y Comunicaciones de la Universidad de Granada. Dicho sistema (Fig. 2) permite a los alumnos de algunas titulaciones acceder a sus calificaciones de forma automática a través de una consulta telefónica, sin más que ir respondiendo a las preguntas que se le realizan. A este fin, el sistema utiliza un módulo de control basado en un autómata de estados fmitos (Fig. 3). Este autómata permite deteIDlinat el mensaje o pregunta saliente que se le realiza al usuario, así como delimitar, en finlción de los datos disponibles, las posibles respuestas que puede proporcionar (modelo de lenguaje). El modelo de interacción es, por tanto, rígido, no pudiendo hablarse de diálogo real entre la máquina y el usuario, ya que todo el proceso está especificado a priori.

ID Jornadas de Ingeniería Telemática. JITEL 2001

linea telefónIca ::CXX

Base de datos . estudios - a51gnat1.lUlS - nombres .DNI - calificaciones

Fig. 2: Diagrama de bloques del sistema ST ACC.

ilYUdil C-' error ! :1 <i:H;;gnJL~ ¡

aYI..'diIC. ¡

flfrr1r ! \ <:.nDmbnt;. :

espera una lIamaaa bienven ida esper a el nombre de la c an era

espera el nombre de 1,;, asignatura espera nombre y apelldos

espera DNI Informa de la caJlfl~aaón SI <nombre>

ccincrdecon < [)NI>

no d.3. la calil icaciicin S I <nombre:> no COlnCld ecoll dJi'>Jb

desea mas c;;.lri lCaclon eg '>'?

o. despedida

AUTÓMATA DE ESTADOS

FINITOS DEL SISTEMA

STACC

Fig. 3: Autómata de estados flnitos de STACC.

El diseño aplicado para el sistema descrito permite cambiar fácilmente la aplicación concreta a la que está destinado sin más que modificat los atchivos de descripción del autóma ta y los mensajes salientes. A modo de ejemplo, esta catacterística ha posibilitado su utilización para proporcionat información personalizada sobre la cita previa de los alumnos de la Facultad de Ciencias para la realización de la matricula durante el curso 2000/2001. Sin embargo, el propio diseño del sistema impone limitaciones a su uso, ya que es necesario estructurat, de acuerdo a un autómata de estados fmitos, toda la interacción con el locutor. Por otra patte, las posibles respuestas del locutor deben encontrarse en un grupo flnito, que también se establece previamente a pattir de los datos disponibles. La naturalidad de la interacción es, por tanto, reducida, ya que se exigen respuestas concisas y precisas.

2.3 Arquitectura del sistema

La atquitectura del sistema en desarrollo se muestra en la Fig. 4. En ella se pueden diferenciar varios grupos funcionales que, a su vez, se encuentran implementados en distintos módulos que se relacionan entre sí de forma específica a fin de conseguir los objetivos globales.

Page 7: 111 Jornadas - Universidad de Granada

ID Jornadas de Ingeniería Telemática. JITEL 2001

Sistema de Diálogo

201

Fig. 4: Diagrama de bloques del sistema de consulta

El sistema se encuentra organizado en 4 bloques principales: sistema de control de diálogo, sistema de reconocimiento, conversor texto-a-voz e interfaz de E/S de voz. El intercambio de información entre los diferentes sistemas así como la activación de los mismos se gestiona mediante un módulo de control global e integración, que, en consecuencia, será el encargado de ir activando los módulos necesanos en cada estado del sistema glo ba\.

A diferencia del sistema ST ACC, en éste existe un módulo dédicado específicamente a la gestión del diálogo con éste que, por tanto, irá guiando la interacción con el usuario y evaluando las respuestas probables a partir de un modelo de diálogo. Este módulo constituye, en cierta medida, el núcleo del sistema, ya que debe interaccionar directamente tanto con el conversor texto a voz, indicándole la frase que debe ser emitida, como con el sistema de reconocimiento, al que debe proporcionar un modelo de lenguaje que corresponda a la estimación realizada sobre las posibles respuestas del usuario.

Evidentemente, esta nueva arquitectura, si bien responde al objetivo inicial de mejorar la naturalidad de la interacción con el usuario, introduce un mayor grado de complejidad en la actuación, tanto del sistema global, como de cada uno de los módulos individuales. Así, por ejemplo, el sistema de reconocimiento debe pasar de ser capaz de reconocer una opción concreta de entre un conjunto preestablecido a reconocer una frase a partir de un modelo de gramática que únicamente contempla probabilidades de aparición de palabras.

3 Módulo de reconocimiento El módulo de reconocimiento de voz utiliza una librería de funciones desarrollada por el Grupo de Investigación en Procesamiento de Señales y Comunicaciones de la Universidad de Grarnda [5] [6]. Esta librería permite implementar sistemas de reconocimiento de voz continua (CSR, Continuous Speech Recognition) mediante la utilización del modelado oculto de Markov [7] combinado con modelos de lenguaje que permiten establecer y comprobar hipótesis acerca de las frases a reconocer.

En esta aproximación, el proceso de reconocimiento puede ser descrito como el cálculo de la probabilidad P(WIA) de que una frase W corresponda a la señal acústica A, sobre todo el conjunto de frases posibles, a fm de encontrar la que proporciona el valor máximo. De esta forma, el reconocimiento de una frase consistirá en la selección de la secuencia de

palabras W que cumpla

P(W I A) =max P(W I A) w

La probabilidad P(WIA) no puede ser evaluada directamente, aunque, utilizando la regla de Bayes, puede ser calculada como

P(W I A) = P(W)P (A I W) peA)

Page 8: 111 Jornadas - Universidad de Granada

202

donde P(W) es la probabilidad de la frase W, P(AIW) es la probabilidad de la señal acústica, A, dada la frase W, y peA) es la probabilidad de la señal acústica. El reconocimiento de voz puede ser dividido, por tanto, en dos fases: evaluación de la evidencia acústica y evaluación de la probabilidad de emisión de la frase. De esta forma, es necesario considerar dos modelos: el modelo acústico, determinado por P(AIW), y el modelo de lenguaje, descrito por P(W). Para el modelado acústico se utilizan los modelos ocultos de Markov (HMM), mientras que para el modelado de lenguaje es habitual considerar modelos denominados bigramáticas. Una bigramática es una gramática estocástica de estados finitos en la que se considera que la probabilidad de producción de una palabra depende únicamente de la palabra emitida anteriormente. Por tanto, la bigramática queda determinada por el vocabulario (conjunto de palabras aceptadas) y las probabilidades de producción de cada una de las palabras del vocabulario tras

cualquiera otra de ellas, P(r, I rj ) . La probabilidad

de emisión de una frase compuesta por m palabras será, por tanto

P(W) = fI P(w¡ I Wj-J) ;=1

siendo W¡ la palabra i-ésima de la frase.

Resulta evidente que el módulo de reconocimiento debe combinar la información procedente de los modelos acústicos, en forma de modelos HMM, con los modelos de gramática. Por otra pa rte, dada la gran cantidad de palabras existentes en cualquier idioma, los modelos HMM utilizados corresponden habitualmente a unidades inferiores a la palabra. En nuestro caso, se utilizan fonemas. Para componer los modelos de palabras simplemente se conc atenan los modelos fonemáticos correspondientes de acuerdo al vocabulario considerado. Asi, una vez entrenados los modelos HMM, éstos permanecen fijos en el sistema. Sin embargo, el modelo de lenguaje, si bien puede ser estimado a partir de un conjunto suficientemente amplio de frases observadas, debería ser variable a fm de adaptarse al flujo de la conversación entablada entre el sistema y el usuario. En consecuencia, el modelo de lenguaje será implementado a partir de un modelo genérico que debe ser modificado por el módulo de diálogo (fig. 4).

4 Módulo de diálogo

Como ya se ha mencionado anteriormente, el módulo de diálogo constituye, en cierta medida, el núcleo del sistema, ya que determina el flujo de la conversación e intenta adaptarse a los requerimi entos tanto del sistema como del locutor.

La fmalidad básica del módulo de diálogo es la gestión directa de la interacción con el locutor, para

ID Jornadas de Ingeniería Telemática. JITEL 2001

lo que necesita tanto las transcripciones realizadas por el módulo de reconocimiento como las funciones del conversor texto a voz. Adicionalmente, dado que el conjunto de respuestas probables depende del estado de diálogo, debe proporcionar información al sistema de reconocimiento, a través de los modelos de gramáticas, acerca de las frases que pudieran ser emitidas. La finalidad de este mecanismo es aumentar la fiabilidad del proceso de reconocimiento al limitar en cierta medida el espacio de búsqueda de la cadena a reconocer.

También es misión del módulo de diálogo la obtención de los datos solicitados por el locutor, tanto directa como indirectamente, asi como guiar al sistema y al locutor hacia la consecución de un objetivo concreto, como podría ser la obtención de un dato o la realización de una reserva.

La operación del módulo de diálogo se estructura en tomo al establecimiento de un conjunto de acciones [8], cada una de las cuales puede requerir el conocimiento de un conjunto de datos previos. Es misión del sistema de diálogo determinar la acción concreta, p.e. consultar la hora de llegada de un autobús, y requerir del locutor los datos necesarios para poder realizar dicha acción de forma satisfactoria.

La implementación del módulo de diálogo se ha realizado siguiendo una estrategia de iniciativa mixta [9], en la que se utiliza un analizador semántico hasado tl1 tramas que pennite el procesamiento del mensaje contenido en las frases de los usuarios [10]. Cada trama está compuesta por un conjunto de slots (ranuras) que almacenan los datos relevantes de las frases en relación a proporcionar infonnación suficiente al sistema para que realice la acción requerida. Si una frase o interacción con el usuario no proporciona toda la infonnación necesaria, se generarán slots vacíos en la trama asociada. & misión del sistema de diálogo la obtención de los datos adicionales que pennitan rellenar estos slots y, por tanto, completar la trama. Obviamente, se hace necesario establecer mecanismos de unificación de tramas, que pennitan combinar infonnaciones parciales.

5 Conversión texto a voz El conversor texto- a- voz tiene, obviamente, la misión de convertir las cadenas de texto proporcionadas por el módulo de diálogo a su forma oral a fin de que puedan ser presentadas al locutor por vía telefónica. Para ello debe disponer de los correspondientes modelos acústicos, que son concatenados de acuerdo a la cadena indicada, y de un modelo de prosodia que permita aplicar la entonación y cadencia correcta a la frase fmal. El modelo prosódico es especialmente importante, ya que es el que confiere en mayor grado la sensación de naturalidad a la voz sintetizada.

Dado que el estudio de los modelos prosódicos queda fuera de los objetivos del presente trabajo, se ha optado por incluir en el sistema a implementar el

Page 9: 111 Jornadas - Universidad de Granada

ID Jornadas de Ingeniería Telemática. JITEL 2001

Datos estadistico~ .

N. de conversaciones

N. de frases

N. de palabras totales

N. de palabras diferentes

Nombres de destinos

N. de elisiones

,~'t'm.=.

Categoría

Consulta

Reserva

Compra

Quejas Objetos perdido;

Entrega a domicilio

Otros

Precios Duración del trayecto Existencia de plazas Número de teléfono

Realización Anulación

489

3677

17839

1341

1004

434

30

<1 <1 <1 <1

<1

Tabla 1: Datos del corpus adquirido.

sintetizador multilingüe de dominio público Festival, desarrollado en la Universidad de Edimburgo [11], por proporcionar una calidad aceptable.

6 Implementación del sistema

La implementación práctica del sistema requiere la realización de un conjunto de tareas previas relacionadas con la obtención de los diferentes modelos a utilizar. Las más destacables son:

Estudio de conversaciones. En primer lugar, se ha realizado un proceso de grabación y transcripción de numerosas conversaciones mantenidas por el servicio de atención telefónica de la compañía Alsina Graells, con la finalidad doble de extraer modelos de lenguaje que se adapten a la situación real y de determinar las acciones y datos asociados necesarios (diferentes tipos y plantillas de tramas para el sistema de diálogo). El análisis de dichas transcripciones indica que un gran porcentaje de las conversaciones (en torno al 90%) responden a un modelo simple para la consulta del horario de salida o llegada de autobuses (Fig. 1). Los datos más relevantes se muestran en la tabla 1.

Modelado acústico. En segundo lugar, es necesario establecer los modelos acústicos a utilizar en el reconocimiento (modelos semicontinuos de Markov fonemáticos). Para ello se está procediendo a la adaptación de los modelos empleados en el sistema STACC, ya que no responden adecuadamente a las nuevas condiciones de utilización debido a factores como

203

diferencias en el sistema de adquisición, niveles de ruido, etc. La obtención de los modelos se ha realizado a partir de las señales de voz preenfatizadas y segmentadas en tramas de 30 ms. con solapamientos de 10 ms. , que son parametrizadas mediante el Cepstrurn, la energía y sus respectivas derivadas [7] . El número de componentes empleados en la mezcla es de 1024.

Acceso a la base de datos. Se están desarrollando las herramientas que permitan realizar consultas a la base de datos de la compañía (actualmente en formato dBase3) a través de la red, así como la traducción de las peticiones del sistema de diálogo a un lenguaje de consulta adecuado.

Otro de los aspectos fundamentales del desarrollo del sistema es la integración y adaptación de los diferentes módulos que la componen. Aunque algunos de dichos módulos estaban ya presentes en el sistema STACC, deben ser adaptados al nuevo sistema e integrados adecuadamente para que operen de forma conjunta con los restant es módulos. Además, es necesario dotarlos de nuevas funcionalidades y mayor grado de fiabilidad, dada la mayor complejidad de la tarea a abordar.

A modo de ejemplo, el sistema de reconocimiento de voz continua operaba en el sistema ST ACC con modelos de lenguaje que respondían a gramáticas de estados fmitos no estocásticas. En el nuevo sistema ha de utilizar bigramáticas, por lo que ha sido necesario adaptar los mecanismos de gestión del modelo de lenguaje.

También se esta trabajando en el desarrollo e integración de medidas de confianza de las palabras reconocidas a fm de proporcionar al sistema de diálogo de mayor robustez y tolerancia a fallos en el reconocimiento [12]. Para ello se estima la probabilidad de que cada palabra sea la correcta en cada caso, incluyéndose esta información en las tramas utilizadas por el sistema de diálogo, que actuará en consecuencia.

7 Evaluación

La evaluación del sistema se realizará en tres fases: en el laboratorio, evaluación real con diálogo reducido y evaluación real con diálogo.

La primera de las fases, actualmente en desarrollo, corresponde a la evaluación en condiciones de laboratorio del sistema, firndamentalmente, de los modelos acústicos y de lenguaje obtenidos. Para ello se está utilizando un módulo de diálogo que responde a una gramática de estados finitos, análogo en su operación al empleado en el sistema ST ACC.

Una vez se de por fmalizada esta fase, se procederá a la evaluación del mismo sistema en un entorno real. Se usará el mismo módulo de diálogo que en la fa se

Page 10: 111 Jornadas - Universidad de Granada

204

anterior, es decir, el sistema obligará al locutor a la elección de una de entre varias opciones. La fmalidad de esta fase es comprobar la robustez del sistema de reconocimiento así como evaluar la respuesta de los usuarios ante el uso de un sistema automático.

Finalmente, si las fases anteriores resultan satisfactorias, se procederá a evaluar el sistema completo, incluido el módulo de diálogo.

8. Conclusiones y trabajo futuro

En este artículo se ha descrito la funcionalidad y arquitectura de un sistema de información telefónica mediante comunicación oral que está siendo desarrollado por el Grupo de Investigación en Procesamiento de Señales y Comunicaciones de la Universidad de Granada. Se han señalado los principales pro blemas a abordar así como las téc nicas y sistemas que se están utilizando. Los elementos básicos del sistema son un reconocedor de voz continua, un sistema de diálogo y un conversor texto­a-voz, que deben ser integrados adecuadamente para que trabajen de forma cooperativa.

El desarrollo adecuado del sistema ha requerido del estudio de un número suficiente de conversaciones reales con usuarios a fm de extraer las caracteristicas relevantes. Una vez modelado el diálogo y evaluado el sistema en laboratorio será necesario realizar la prueba real del sistema en las condiciones normales de operación.

Agradecimientos

Este trabajo está subvencionado por la Comisión Interministerial de Ciencia y Tecnología bajo el proyecto TEL1999-0619.

Referencias

[1] Asoh H., Matsui T., Fry J. , Asano F. Hayamizu S. "A Spoken Dialog System for a Mobile Office Robot", Eurospeech '99, pp. 1139-1142.

[2] L. Bell, J. Gustafson, "Interaction with an Animated Agent in a Spoken Dialogue System", Eurospeech '99, pp. 1143-1146.

ID Jornadas de Ingeniería Telemática. HrEL 2001

[3] O. Grisvard, B. Gaiffe, "An Event-Based Dialogue Model and its lmplementation in MultiDia12", Eurospeech '99, pp- 1155-1158.

[4] A. Rubio , P. García, A. De la Torre, J. C. Segura, J. Díaz-Verdejo, M. C. Benítez, V. Sánchez, A. M. Peinado, J.M. López-Soler, J.L. Pérez-Córdoba. "STACC: an automatic service for information access using continuous speech recognition through telephone line". Proc. Of EUROSPEECH-97, vol. 4 . pp. 1779-1782. Septiembre, 1997.

[5] J. Díaz. "Reconocimiento de voz continua mediante una aproximación híbrida basada en SLMM". Tesis doctoral. Universidad de Granada. Noviembre, 1995.

[6] P. García. "Reconcomiento de voz continua basada en técnicas MVQHMM". Tesis doctoral. Universidad de Granada. Febrero, 1996.

[7] L. Rabiner, B. Juang. "Fundamentals of Speeeh Reeognition". Signal Proeessing Series. Prentiee Hall, 1995.

[8] R. López-Cozar, P. Gareía, J. Díaz, A. Rubio. "A voice activated dialog system for fast-food restaurant applieations". EUROSPEECH-97 , vol. 4, pp- 1783 -86. Septiembre, 1997.

[9] Rosset S. , Bennacef S., Lamel L., "Design Strategies for Spoken Language Dialog Systems", Eurospeeeh ' 99, pp. 1535-1538.

[lO] 1. Allen, "Natural Language Understanding", BenjaminlCurnmings Publishíng Company Ine. 1995.

[11] A. Black, P. Taylor, R. Ca ley. "The Festival Speech Synthesis System".

[12] Mazin Rahim, "Utteranee verifieation for the numerie language in a natural spoken dialogue", Eurospeech ' 99, pp. 57-60.