Voip2day Verbio 201511
-
Upload
pablo-gil-robiou -
Category
Presentations & Public Speaking
-
view
221 -
download
0
Transcript of Voip2day Verbio 201511
PowerPoint Presentation
erbioVoIP2Day 2015
Pablo Gil Robiou
Tendencias y aplicaciones prcticas sobre tecnologas del habla
[NLP]Procesamiento deLenguaje Natural
El procesamiento del lenguaje natural es un campo que rene a las ciencias de la computacin, la inteligencia artificial y la ligstica. Estudia las interacciones entre las computadoras y el lenguaje humano.
En el futuro prximo todos vosotros vais a confiar en la tecnologa de reconocimiento de voz para poder interactuar con cualquier dispositivo cada da. Esta tecnologa se va a propagar de tal manera que probablemente se usar la voz como uno de los mtodos ms intuitivos para interactuar con cualquier dispositivo.Esta tecnologa y su potencial han estado a la vuelta de la esquina todos estos aos, pero por algn motivo que ahora veremos no ha llegado a superar las expectativas que tenamos sobre la misma.2
AntesPocoAvanceExpectativasFrustradasPoca PrecisinTecnologaNo embebidaPocasAplicaciones
3
https://youtu.be/CA4h59JbsD8Antes
4
ltimos 18 mesesGranAvanceExpectativasAltasMejorPrecisinTecnologaembebidaAlgunasAplicaciones
5
https://youtu.be/3JsN56-6wjQ
ltimos 18 meses
6
Presente y FuturoAvanceVertiginosoExplosinBig Data
Nuevos Dispositivos
InteraccinRpidaDemocratizacin y Uso Masivo
7
Crculo Virtuoso
Mejora Continua
8
Crculo Virtuoso Lenguaje Natural
Adopcin y uso
Ms datos
Mejor rendimiento
Redes Neuronales
BIData Mining
9
A continuacin mostramos el Portfolio de Soluciones sobre Lenguaje NaturalSoluciones Empticas
10
Contenido propuestoSntesisde Voz
Reconocimiento de VozPortalesde VozContact Centers
Biometra Vocal
11
[TTS]Sntesis de voz
12
Wolfgang von Kempelen
Speaking Machine
Sir Charles Wheatstone
Improved Replica
Alexander Graham Bell
Experiments and Research Telephone
Bell Telephone Laboratory Homer Dudley
The Vocoder The Voder - Electric1769Sntesis de Voz [Historia]1
2
3
4
183718761937
13
DEC based on Dennis Klatts work
DECtalk Stephen Hawking
HMM-based Speech Synthesis System (HTS)
Flexibility, quality, naturalness
Yamaha VocaloidUTAU (2008)
Singer voices and music synthesizer
Deep Learning-based Speech Synthesis
Conditional distribution of acoustic features given linguistic features1984Sntesis de Voz [Historia]5
6
7
8
199920042006
14
Casos PrcticosSntesis de Voz
MegafonaAeropuertos, medios de transporte, ascensores, sistemas de gestin de turnos Ayuda en la navegacinSistemas GPS para la conduccinTelefonaSistemas de IVR con requerimiento y entrega de informacinWearables, Connected-HomeSmartwatches, google glass, smart-tv, etc.AsistentesGoogle Now, Siri, CortanaAyuda en la lecturaE-books para invidentesAprendizaje nuevos idiomas
RetosSntesis de Voz
Diferentes estados de nimo (espectogramas)
Fuente: TUB emotional database
Sntesis de Voz Ajustes y mejoras [TTS]
SSMLTTS soporta las etiquetas definidas dentro del estndar SSML (Speech Synthesis Markup Language) a travs de las cuales podemos indicar al motor la forma como queremos sintetizar una palabra o conjunto de ellas.
EtiquetaDescripcin
Reproduccin de ficheros (PCM lineal 16 bits)Seleccin de aspectos semnticoslanguagevoiceprosodysay-asbreakaudioemphasis
age, gender, namePitch, range, rate, volumedate, time, digits, telephone
Seleccin del idioma de sntesisSeleccin del tipo de locutorSeleccin de la intensidad de la vozSeleccin de aspectos prosdicosGestin de pausas
VerbioPrompt(Por favor\, tras or la seal\, diga dgito a dgito \, la siguiente secuencia: ${DIGITS:0:1}${DIGITS:1:1}${DIGITS:2:1}${DIGITS:3:1} .,${TTS},${SPK},v)
17
RetosSntesis de Voz
Tener cada uno su propia voz sinttica (hoy en da posible pero a un coste elevado)Contemplar riesgos potenciales para evitar fraude y suplantacin de identidadGenerar una voz sinttica personal y multiidiomaContemplar diferencias fonticas y prosdicas (como la entonacin) entre idiomasExpresar diferentes estados de nimo con resultado realista, bien alterando la prosodia mediante procesado digital de la seal (DSP) o mediante uso de diferentes unidades fonticas.
[ASR]Reconocimientode voz
19
Info gramatical Contienen informacin acerca de las estructuras gramaticales ms probables en el entorno de trabajo.Info estadsticaContienen informacin de probabilidades de que una palabra preceda o suceda a otra palabra.Info contextualComplementan al odo para que el motor de reconocimiento determine cul ha sido la locucin pronunciada.Los modelos lingsticos son el cerebro del motor de reconocimiento. Ejercen un papel clave en la gestin de la decisin a tomar ante ambigedades acsticas, pues contienen informacin lingstica contextual para el entorno de trabajo.
El modelo lingstico010203Reconocimiento de Voz Fundamentos tecnolgicos [ASR]Los modelos acsticos son el odo del motor de reconocimiento.Estn basados en modelar los semi-fonemas del idioma de trabajo a partir de tcnicas de procesado de la seal, principalmente en el dominio espectral, que extraen sus particularidades nicas.Cada semi-fonema es un modelo matemtico que representa las caractersticas acsticas nicas del fonema en cuestin en presencia de otro fonema concreto anterior o posterior.
El modelo acstico
al restaurantecorrercomer coser
Ayer fu a comer al restaurante Gramticas deterministas (ABNF, XML)
Modelos Estadsticos del Lenguaje (SLM)
A%
Ayer fu a
20
Distintos TiposReconocimiento de Voz
Reconocimiento discretoCapaz de reconocer palabras o frases cortas dichas tal y como se espera, sin incluir discurso anterior o posterior.Reconocimiento continuoCapaz de reconocer palabras y expresiones en cualquier punto de la conversacin, no afectando al reconocimiento lo que se dice antes o despus de la expresin.Reconocimiento de lenguaje naturalBasado en transcripcin, que a su vez se fundamenta sobre modelos estadsticos del lenguaje, que toman en cuenta la distribucin de probabilidades sobre secuencias de palabras.EjemploComercial, marketing, tcnico, recursos humanosEjemploconsultar el estado de mi cuenta, realizar una transferencia, revisar una factura, darme de bajaEjemploMi queja con el servicio viene porque llevo dos semanas esperando a que me llegue el pedido. Me dijeron que tardara una semana en llegar, pero ya han pasado dos y estoy muy disgustada porque nadie se ha puesto en contacto conmigo todava
Casos PrcticosReconocimiento de Voz
Transcripcin y DictadoInformes, Actas, Eventos, Noticiarios, Apariciones pblicas y actos de prensa Cualquier escenario en el que se requiera pasar del canal hablado al escritoAyuda en la navegacinSistemas GPS para la conduccinMviles conectados mediante bluetoothTelefonaSistemas de IVR con requerimiento y entrega de informacinAsistentesGoogle Now, Siri, CortanaAplicaciones mviles para ejecutar acciones transaccionalesAyudaAprendizaje Nuevos idiomasAccesibilidad y ayuda para discapacitados
Wearables, Connected-HomeSmartwatches, google glass, smart-tv, etc.
RetosReconocimiento de Voz Igualar efectividad en Reconocimiento Independiente del Locutor que en Reconocimiento Dependiente del LocutorIgualar efectividad en Reconocimiento Independiente del Contexto que en Reconocimiento Dependiente del ContextoNivelar avances para distintos IdiomasNivelar mejoras para diferentes canalesMejorar el reconocimiento con ruido y para personas con diferentes caractersticas prosdicas (como el acento)
[ASR/TTS]Portales de Voz
24
Portales de VozEstrategias de dilogo [ASR/TTS]Se anuncian las respuestas posibles a cada pregunta, lo que implica lentitud en las transaccionesFlujo SecuencialLa mquina conduce el dilogo: el usuario no puede tomar la iniciativa en ningn momentoRigidez ante casos de error, llevando a la frustracin del usuario
25
Portales de VozEstrategias de dilogo [ASR/TTS]Las preguntas pueden ser ms abiertas, permitiendo introducir ms de un dato por preguntaDilogo AcotadoEl dilogo se adapta a la experiencia del usuarioEstrategias de confirmaciones implcitas y prompts dinmicosSe podrn tratar los datos agrupados (ms de un dato en la respuesta) y desordenados, e incluso permitir al usuario corregir informacin anteriormente entregada, con dilogo adaptativo en funcin de las circunstancias
26
Portales de VozEstrategias de dilogo [Verbio ASR/TTS]Apoyado por reconocimiento y basado en patrones estadsticos, formula preguntas abiertas y toma decisiones dinmicamente en funcin de la respuestaDilogo LibreAlgoritmo de decisin complejoSe persigue agilizar an ms el proceso para todos los usuarios, sin penalizar a los espordicos respecto a la estrategia guiada
Sistema experto que interacciona con el usuario de forma similar a como lo hara un humano
27
Pregunta abiertaDesplegar un servicio telefnico automatizado del tipo say anything, donde el usuario podr responder abiertamente y con lenguaje natural a la pregunta inicial En qu puedo ayudarle?.Ms de 60 operativasEl sistema deber comprender el motivo por el cual llama el usuario y etiquetar dicha llamada con la categora correcta entre las ms de 60 existentes.Recuperacin de metadatosNo se trata de implementar un servicio de Call Steering (redireccin de llamadas). El sistema deber tener la capacidad de obtener informacin relevante para la operativa seleccionada, con objeto de no repreguntarla posteriormente al usuario.Redireccin a IVRCuando el sistema haya comprendido el motivo de la llamada, y tras haber extrado la informacin disponible, redirigir al usuario hacia la rama del IVR correspondiente.Experiencia conversacionalSe persigue ofrecer al usuario una experiencia conversacional soportada en el estado del arte del NLP (Lenguaje Natural), no slo en la pregunta abierta sino tambin en la automatizacin de la operativa posterior.Servicio altamente autoatendidoSe busca la reduccin de los costes de atencin telefnica, y se persigue que el portal de voz tenga la capacidad de resolver la operativa demandada por el usuario sin ser necesaria la intervencin de un agente.Portales de VozLenguaje Natural [ASR/TTS]
?[A]
28
Los portales de Voz del pasado han hecho un uso deficiente de la tecnologa, buscando principalmente reducir costesIVRs al servicio de las empresasPortales de Voz - PasadoObjetivo 1 - Disminuir necesidad de Agentes (Costes)Objetivo 2 Generar Ingresos para sufragar Costes (902)Objetivo 3 Disuadir al cliente de llevar a cabo ciertas operativas
Los portales de Voz del presente buscan potenciar una imagen positiva de la empresa o, al menos, no potenciar una imagen negativaIVRs al servicio de las empresas y sus clientesPortales de Voz - PresenteObjetivo 1 Automatizar con calidadObjetivo 2 Conseguir promotores y prescriptoresObjetivo 3 Optimizacin y mejora continua
Los portales de Voz del futuro sern sistemas expertos capaces de ejecutar transacciones y solucionar incidencias de forma (casi) tan eficiente como un humanoIVRs al servicio de sus clientesPortales de Voz - FuturoObjetivo 1 Parte del Plan de Marketing. Orientacin al clienteObjetivo 2 Transacciones rpidas, sencillas, cmodas y resolutivasObjetivo 3 Poltica de 0 clientes insatisfechos. Seguimiento
[Speech & Text Analytics]ContactCenters
32
Contact CentersMulticanalidad [Speech Analytics]Mvil App./SMSTelfonoE-mailWEB/Chat/IM
Redes SocialesFax/Carta
33
Los Contact Centers buscan la excelencia a travs de mtricas tales como el Nivel de Servicio y Encuestas de Calidad (NPS)Pasado, presente y futuroContact CentersPasado Atender/Emitir llamadas por canal telefnicoProductividadPresente Atender/Emitir eventos por mltiples canales de contactoExperiencia de Usuario (Calidad, Satisfaccin, FCR, T resolucin)Futuro Convergencia y Seguimiento, Deslocalizacin y CloudExperiencia multicanal y personalizada para cada cliente
Para mejorar la calidad hay que empezar planificndola, asegurando que los procesos la cumplen y monitorizando que el resultado final es el esperadoEl grado en el que un conjunto de caractersticas inherentes cumple con los requisitosQu es calidad?Planificar la calidad (Diseo de procesos, argumentario, objeciones)Aseguramiento de la calidad (checklists, auditoras)Control de Calidad (encuestas de satisfaccin, mistery shopping)
Speech AnalyticsUn vistazo sobre el resultado de recopilar informacin, clasificarla, medirla y cruzarla
IdeaPartiendo de: - audios pregrabados para su posterior procesado - conversaciones telefnicas en tiempo real (pinchadas o intervenidas)
36
Voz del Cliente
37
Quality Assurance
38
Cumplimiento Normativa
39
Cruce de la informacin unidimensional recabada en:Voz del ClienteQuality AssuranceCumplimiento de la NormativaCon las diferentes categoras identificadas como motivos de la llamada, para conocer en qu medida se ven impactados los diferentes KPIs definidos y acordados con el cliente (FCR, Transfer, Script Compliance, Cross Selling), con navegacin en profundidad y filtros de servicio, agente, supervisor, destino y llamante.
Solucin
40
Caso prctico [Verbio SA]
Anlisis multidimensional
41
Text Analytics se usa tambin para generar modelos lingsticos y estadsticos usando tcnicas de aprendizaje automtico con el fin de relacionar la informacin para aportar conocimiento con fines predictivos o resolutivosProcesamiento del Lenguaje Natural Predecir y Solucionar Problemas de NegocioText AnalyticsCategorizacin, clustering, taxonomasExtraccin de datos de negocio, resmenesSentiment Analysis
Procesamiento del Lenguaje Natural Predecir y Solucionar Problemas de NegocioText AnalyticsCRM Analytics - TranscripcinSocial Media Analytics + Sentiment AnalysisIntencin de Compra, Prediccin de rotacin de clientes, Riesgo para la Reputacin
[Speaker Recognition]Biometra Vocal
44
Para generar la huella vocal se usar entrenamiento implcito o explcitoLa huella vocal es tan fiable como la huella dactilar o el escner de irisSistemas de BiometraVerificacin Autenticacin, Firma Vocal, Prueba de VidaIdentificacin y Clustering Lucha contra el FraudeIndexacin Separacin de locutores por marcas de tiempo
Cmo evitar que nos engaen? Previendo las tcnicas y poniendo los mediosDefensas antispoofingSistemas de BiometraAnti ReproduccinAnti RepeticinDesafo dinmico
RetosBiometra de Voz
Extender su uso para evitar fraude (cualquier sistema con un elemento de seguridad puede ser sustituido por la voz)Obtener validez legal al nivel del certificado electrnico para la firma digital de documentosIntegracin multidispositivo para acceso a diferentes servicios IoTMitigar la alta dependencia del canal, las condiciones de ruido y de la prosodia
[Aplicaciones Prcticas sobre Tecnologas del Habla]Complementos
48
49
Asistentes Virtuales
Pasado: Asistentes Virtuales para EmpresasIkeaVuelingEroski
Presente: Asistentes Virtuales para Mvil, PCGoogle NowCortanaSiri
Futuro: Asistentes en Hogar, Wearables y en IoTAmazon EchoUbi + Samsung SmartThings
50
Traduccin Simultnea
Pasado: Traduccin de Texto On-lineGoogle Translator
Presente: Traduccin de Texto y Voz en tiempo Real p2pSkype TranslatorTraduccin de Mensajes (Realidad Aumentada) en tiempo RealGoogle Translate (Mvil)
Futuro: Traduccin de Imgenes/Voz automtica Mass-media
51
52
Wearables
Pasado: Pulsmetro, GPS, Podmetro, GoPro, cascos BT, alarmas
Presente: Smartwatches, Google Glass, Cmaras, eHealh, VR
Futuro: Microchip interno, Casco Inflable, Smart Clothing, lentillas AR
53
Retos
Unique ID: Utilizar mecanismos biomtricos combinados
Lenguaje Verbal + No Verbal: Analizar las emociones mediante la voz y signos del cuerpo
Prediccin: Alertas automticas que nos avisen de:OportunidadesRiesgosFuturos problemas
54
55
Gracias!
56
null33254.133null231668.67