Post on 03-Oct-2020
Identificacion Automatica deCaracterısticas Cualitativas del
Llanto Infantil
por
Mar ıa Antonia Ruız Dıaz
Tesis sometida como requisito parcial para obtener el gradode
Maestro en Ciencias en elArea de Ciencias Computacionalesen el
Instituto Nacional de Astrofısica,Optica y Electronica
Supervisada por:
Dr. Carlos Alberto Reyes Garcıa, INAOEDr. Luis Carlos Altamirano Robles, BUAP
c©INAOE 2011El autor otorga al INAOE el permiso de reproducir y distribuir copias
en su totalidad o en partes de esta tesis
Resumen
En el análisis del llanto infantil, es de gran importancia reconocer las caracterís-
ticas cualitativas, ya que proporcionan información adicional que permite identificar
variaciones o semejanzas entre llantos normales y patológicos.
En la actualidad el análisis de características cualitativas se realiza de forma ma-
nual, por medio de la percepción visual (espectrograma) y auditiva (sonido) de los
médicos expertos, quienes de acuerdo a lo que ven y escuchan, emiten un diagnóstico.
Un proceso previo al análisis de características cualitativas, es la detección de uni-
dades de llanto, es por eso que en este trabajo se presentan dos métodos. En el primer
método se hace uso de dos umbrales. Un umbral aplicado a la energía se la señal, el
cual permite detectar de forma automática las unidades de llanto de una grabación, y
otro umbral que permite eliminar los sonidos inspiratorios. El segundo método llama-
do por nosotros método del dodecacrama, permite identificar razonablemente el tipo
de melodía, shifts, glides y concentraciones de ruido en unidades de llanto de forma
automática.
Finalmente, de acuerdo con las características cualitativas identificadas automáti-
camente se proporciona un diagnóstico del llanto analizado, el diagnóstico puede ser:
Llanto normal o llanto con tendencia a patológico.
[i]
ii Resumen
Coordinación de Ciencias Computacionales Instituto Nacional de Astrofísica, Óptica y Electrónica
Abstract
In infant cry analysis, the identification of qualitative characteristics is of great
importance, because this provides additional information that allows to identify va-
riations and similarities between normal and pathological cries.
Nowadays, the analysis of qualitative characteristics is made manually, through
visual (spectrogram) and auditive (sound) perception of medical experts, they make
a diagnosis according to what they see and hear.
In this work, we present a method based in the use of a threshold, this threshold is
applied to the energy of the signal, our method allows detect automatically cry units
of a record, and another threshold, which eliminates the inspiratory segments. Also
we present the dodecagram method, which allows identify the type of melody, shifts,
glides, and noise concentrations reasonably in cry units automatically.
Finally, in accordance to the qualitative characteristics found, the method auto-
matically provides a diagnosis of the analyzed cry, which can be: normal cry or cry
with a pathological tendency.
[iii]
iv Abstract
Coordinación de Ciencias Computacionales Instituto Nacional de Astrofísica, Óptica y Electrónica
Agradecimientos
Un sincero agradecimiento a todo el personal que labora en el Instituto Nacional de
Astrofísica Óptica y Electrónica (INAOE), por las facilidades y atenciones brindadas
durante mi estancia en el instituto.
Al grupo de investigadores de la Coordinación de Ciencias Computacionales, por
sus críticas, sugerencias y conocimiento transmitido.
A mis asesores, los Dres. Carlos Alberto Reyes García y Luis Carlos Altamirano
Robles, por la paciencia y la orientación que me brindaron durante el desarrollo de
éste trabajo de tesis.
A los médicos expertos en el área de análisis del llanto infantil del Instituto Na-
cional de Rehabilitación (INR). Los Dres. Mario Mandujano, Emilio Arch y Antonio
Verduzco. Por su colaboración en la detección manual de unidades de llanto y la
identificación manual de características cualitativas en las muestras de llanto infantil.
Finalmente, agradezco al Consejo Nacional de Ciencia y Tecnología (CONACyT),
por haberme otorgado la beca académica de maestría.
[v]
vi Agradecimientos
Coordinación de Ciencias Computacionales Instituto Nacional de Astrofísica, Óptica y Electrónica
Dedicatoria
A Mi mamá M. Eugenia Díaz, mi papá Antonio Ruíz, mi hermana M. Guadalupe,
mi tia Rosario, mi tia Paty y a Patito.
A Jorge Eduardo Xalteno.
A quienes son como de mi familia: Pedro Tecuanhuehue, la Profa. Consuelo Vargas
y Enrique Hernández.
Y a mis amigos.
Porque todos ellos son ese motorcito que me hace seguir adelante día con día.
[vii]
viii Dedicatoria
Coordinación de Ciencias Computacionales Instituto Nacional de Astrofísica, Óptica y Electrónica
Tabla de Contenido
Resumen i
Abstract iii
Agradecimientos v
Dedicatoria vii
Lista de Figuras xiii
Lista de Tablas xv
1. Introducción 1
1.1. Problemática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2. Objetivo general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3. Objetivos específicos . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.4. Contribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.5. Método propuesto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.6. Contenido del documento . . . . . . . . . . . . . . . . . . . . . . . . 4
2. Marco teórico 7
2.1. El llanto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2. Antecedentes del análisis del llanto infantil . . . . . . . . . . . . . . . 8
2.3. Fundamentos del análisis del llanto infantil . . . . . . . . . . . . . . . 12
2.3.1. Propiedades fisiológicas del llanto . . . . . . . . . . . . . . . . 12
2.3.2. Mecanismo de producción del llanto . . . . . . . . . . . . . . . 13
2.3.3. Modelo de Golub . . . . . . . . . . . . . . . . . . . . . . . . . 14
[ix]
x TABLA DE CONTENIDO
2.3.4. Técnicas del análisis del llanto infantil . . . . . . . . . . . . . 16
2.4. El espectrograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.5. Detección del llanto . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.6. Variables cuantitativas . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.7. Variables cualitativas . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.8. Características cuantitativas del llanto infantil . . . . . . . . . . . . . 22
2.9. Características cualitativas del llanto infantil . . . . . . . . . . . . . . 23
2.10. Enfermedades en las que se presentan algunas de las características
cualitativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3. Estado del arte 29
3.1. Análisis de características cualitativas . . . . . . . . . . . . . . . . . . 29
3.2. Detección del llanto infantil . . . . . . . . . . . . . . . . . . . . . . . 30
3.3. Análisis de la melodía . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3.1. Método FLM (Five Line Method) . . . . . . . . . . . . . . . . 33
3.4. Conclusiones del Estado del Arte . . . . . . . . . . . . . . . . . . . . 35
4. Propuesta de solución 37
4.1. Selección de características cualitativas . . . . . . . . . . . . . . . . . 37
4.2. Definición de llanto normal y patológico . . . . . . . . . . . . . . . . 37
4.3. Medidas de las características cualitativas . . . . . . . . . . . . . . . 38
4.4. Esquema general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.5. Detección de unidades de llanto . . . . . . . . . . . . . . . . . . . . . 40
4.5.1. Método desarrollado para la detección automática de unidades
de llanto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.6. Identificación automática de características cualitativas . . . . . . . . 45
4.6.1. Concentración de ruido . . . . . . . . . . . . . . . . . . . . . . 45
4.6.2. Tipo de melodía . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.6.3. Shifts y Glides . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.7. Diagnóstico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5. Resultados experimentales 49
5.1. Detección automática de unidades de llanto . . . . . . . . . . . . . . 49
5.2. Identificación automática de características cualitativas . . . . . . . . 50
5.3. Diagnóstico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
Coordinación de Ciencias Computacionales Instituto Nacional de Astrofísica, Óptica y Electrónica
TABLA DE CONTENIDO xi
6. Conclusiones y trabajo futuro 65
6.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
6.2. Trabajo futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
Apéndices 67
A. Interfaz 69
Referencias 73
Identificación Automática de Características Cualitativas del Llanto Infantil
xii TABLA DE CONTENIDO
Coordinación de Ciencias Computacionales Instituto Nacional de Astrofísica, Óptica y Electrónica
Lista de Figuras
2.1. Aparato fonador y respiratorio. . . . . . . . . . . . . . . . . . . . . . 13
2.2. Modelo de Golub. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3. Espectrograma. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.4. Tipos de melodías. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.5. Deslizamiento o glide. . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.6. Vibrato. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.7. Concentración de ruido. . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.1. Principales pasos del AICD . . . . . . . . . . . . . . . . . . . . . . . 31
3.2. Clasificación de la melodía . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3. Ejemplos de la obtención de melodías de llantos representadas por FLM 33
3.4. Ilustrando las melodías más comunes de los 580 llantos analizados. . . 34
4.1. Esquema general del método propuesto. . . . . . . . . . . . . . . . . . 39
4.2. Pasos para la detección de unidades de llanto. . . . . . . . . . . . . . 43
4.3. Señal y espectrograma de la muestra 88.wav. . . . . . . . . . . . . . . 44
4.4. Señal y espectrograma de la muestra 103.wav. . . . . . . . . . . . . . 44
4.5. Método del dodecagrama. . . . . . . . . . . . . . . . . . . . . . . . . 46
4.6. Reducción del código. . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
A.1. Interfaz. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
A.2. Campo AXES de la interfaz. . . . . . . . . . . . . . . . . . . . . . . . 71
[xiii]
xiv LISTA DE FIGURAS
Coordinación de Ciencias Computacionales Instituto Nacional de Astrofísica, Óptica y Electrónica
Lista de Tablas
5.1. Detección manual y automática para el conjunto de llantos de infantes
mexicanos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.2. Detección manual y automática para el conjunto de llantos de infantes
cubanos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.3. Identificación manual y automática de las características cualitativas
etiquetadas por los médicos expertos del INR, utilizando el método
propuesto. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.4. Identificación manual y automática para las características cualitati-
vas etiquetadas por los médicos del INR, utilizando el método FLM
propuesto en (Várallyay et al., 2009b). . . . . . . . . . . . . . . . . . 54
5.5. Identificación automática de características cualitativas para las mues-
tras de Llantos clasificados como Asfixia, utilizando el método propuesto. 56
5.6. Identificación automática de características cualitativas para las mues-
tras de Llantos clasificados como Alto riesgo, utilizando el método pro-
puesto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.7. Identificación automática de características cualitativas para las mues-
tras de Llantos clasificados como Hiperbilirrubinemia, utilizando el mé-
todo propuesto. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.8. Identificación automática de características cualitativas para las mues-
tras de Llantos clasificados como Sordera, utilizando el método pro-
puesto. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.9. Identificación automática de características cualitativas para las mues-
tras de Llantos clasificados como Sanos, utilizando el método propuesto. 58
5.10. Resultados del conteo de características cualitativas en las muestras
clasificadas como Asfixia. . . . . . . . . . . . . . . . . . . . . . . . . . 59
[xv]
xvi LISTA DE TABLAS
5.11. Resultados del conteo de características cualitativas en las muestras
clasificadas como Alto riesgo. . . . . . . . . . . . . . . . . . . . . . . 59
5.12. Resultados del conteo de características cualitativas en las muestras
clasificadas como Hiperbilirrubinemia. . . . . . . . . . . . . . . . . . . 59
5.13. Resultados del conteo de características cualitativas en las muestras
clasificadas como Sordera. . . . . . . . . . . . . . . . . . . . . . . . . 60
5.14. Resultados del conteo de características cualitativas en las muestras
clasificadas como Sanos. . . . . . . . . . . . . . . . . . . . . . . . . . 60
5.15. Resultados de las características cuantitativas para las muestras de
Llantos de infantes clasificados como Asfixia. . . . . . . . . . . . . . . 61
5.16. Resultados de las características cuantitativas para las muestras de
Llantos de infantes clasificados como Alto riesgo. . . . . . . . . . . . . 62
5.17. Resultados de las características cuantitativas para las muestras de
Llantos de infantes clasificados como Hiperbilirrubinemia. . . . . . . . 62
5.18. Resultados de las características cuantitativas para las muestras de
Llantos de infantes clasificados como Sordera. . . . . . . . . . . . . . 62
5.19. Resultados de las características cuantitativas para las muestras de
Llantos de infantes clasificados como Sanos. . . . . . . . . . . . . . . 63
Coordinación de Ciencias Computacionales Instituto Nacional de Astrofísica, Óptica y Electrónica
Capítulo 1
Introducción
Han transcurrido 186 años desde que Gardiner (Reyes et al., 2009), (Martínez
et al., 2004) describiera el llanto infantil a partir de su ubicación en el teclado de un
piano, lo cual, a pesar de basarse en sus observaciones clínicas no deja de ser un primer
intento válido de caracterizar la primera y natural forma de comunicación del infante
al llegar al mundo. En todo este tiempo, múltiples y variados esfuerzos han desple-
gado generaciones de investigadores que tratan de establecer las leyes generales que
describen los procesos de generación y percepción del llanto infantil, no sólo como un
evento acústico-lingüístico, sino también, como indicador del estado neurofisiológico
del infante.
De forma tradicional, el llanto puede ser analizado desde dos perspectivas, el aná-
lisis cuantitativo y el análisis cualitativo. En el primero de ellos los estándares para el
llanto de un infante sano o llanto de un infante “normal” han sido establecidos, de tal
forma que un llanto “normal” está caracterizado por una frecuencia fundamental con
valores promedio de 450Hz y rangos de 400Hz a 600Hz (Lind et al., 2002), (Hirsch-
berg, 1999), (Michelsson et al., 1999), (Gilbert et al., 1996) , armónicos sobrepuestos
simétricamente y con duración de las señales de llanto entre 1 y 1.5 segundos en
promedio(Lind et al., 2002), (Hirschberg, 1999), (Obediente, 2007).
Por otra parte la descripción cualitativa del llanto, es parte complementaria del
análisis cuantitativo (Reyes et al., 2009), el análisis de características cualitativas se
hace por medio de la observación y estudio de espectrogramas, esta parte cualitativa
es de suma importancia para la descripción del llanto ya que proporciona información
adicional que permite identificar variaciones o semejanzas entre llantos normales y
patológicos.
En la actualidad, los médicos analizan los espectrogramas de las señales de llanto
para identificar de manera visual las características cualitativas presentes en el llanto
[1]
2 1. Introducción
de un infante, y de acuerdo a su percepción emiten un posible diagnóstico.
El presente trabajo se enfoca en identificar algunas de las características cualita-
tivas del llanto infantil, consideradas las más relevantes para diferenciar entre llan-
tos normales y patológicos, para lograr este objetivo se propone realizar un análisis
acústico de la señal, para obtener una descripción detallada de éstas características
cualitativas y finalmente emitir un diagnóstico: Llanto Normal/ Llanto con tendencia
a patológico.
1.1. Problemática
Las características cualitativas en el llanto infantil permiten diferenciar razonable-
mente entre llantos normales y patológicos. En la actualidad no se cuenta con ningún
sistema computarizado que sirva de apoyo al médico experto, que permita la identi-
ficación automática de éstas características y que genere alertas sobre alguna posible
patología. Los beneficios de esta búsqueda no son la detección de enfermedades sino
ofrecer una herramienta no invasiva para valorar el llanto y poder intervenir lo más
tempranamente posible en aras de proveer un tratamiento pronto y efectivo.
1.2. Objetivo general
Identificar automáticamente algunas de las características cualitativas del llanto
infantil (tipo de melodía, shift, glide, y concentraciones de ruido), por medio del aná-
lisis acústico de las señales de llanto y generar alertas sobre alguna posible patología.
1.3. Objetivos específicos
Seleccionar las características cualitativas más relevantes para diferenciar entre
un llanto normal y un llanto patológico.
Detectar automáticamente las unidades de llanto en una grabación.
Establecer medidas para cuantificar las características cualitativas.
Establecer reglas que permitan obtener un diagnóstico con base en las caracte-
rísticas cualitativas identificadas en una grabación.
Coordinación de Ciencias Computacionales Instituto Nacional de Astrofísica, Óptica y Electrónica
1.4 Contribuciones 3
Mostrar los resultados obtenidos en una interfaz, que permita observar el espec-
trograma de la grabación analizada, y etiquetar las características cualitativas
reconocidas.
De acuerdo a las características cualitativas identificadas automáticamente en
una grabación, emitir un diagnóstico: Llanto normal o Llanto con tendencia a
patológico.
1.4. Contribuciones
Se desarrolló un método basado en la energía de la señal, el cual permite recono-
cer de manera efectiva las unidades de llanto en una grabación de llanto infantil,
este método funciona de manera correcta aún bajo condiciones de ruido.
Con las unidades de llanto detectadas se obtienen otros atributos de interés
para los médicos, éstos atributos son: tiempo de inicio y fin de cada unidad de
llanto, número de unidades de llanto contenidas en la grabación y tiempo total
de llanto en la grabación.
También se desarrolló un método novedoso, al cual nombramos “método del
dodecagrama”, éste método permite identificar automáticamente el tipo de me-
lodía de unidades de llanto: melodía ascendente, melodía descendente, melodía
ascendente-descendente, melodía descendente-ascendente, melodía plana, y sin
forma melódica. El método del “dodecagrama” obtuvo un porcentaje de acier-
to de 90.49 % sobre un conjunto de muestras etiquetadas, acertando en casos
en los cuáles, es difícil determinar el tipo de melodía de forma visual en el
espectrograma.
Con los valores extraídos de la frecuencia fundamental de cada unidad de llanto,
se pudo determinar la presencia de las características cualitativas: shift, glide y
concentracion de ruido de forma automática.
Se desarrolló un sistema de gran utilidad para los médicos expertos, el cual
permite reducir el tiempo y esfuerzo al realizar un análisis cualitativo en una
grabación de llanto infantil.
Identificación Automática de Características Cualitativas del Llanto Infantil
4 1. Introducción
1.5. Método propuesto
Un procedimiento previo y de vital importancia para la identificación de caracte-
rísticas cualitativas, es la detección de unidades de llanto.
La detección de unidades de llanto consiste en separar los segmentos de llanto de
la grabación, éstos segmentos separados son analizados posteriormente con el objetivo
de identificar en ellos características cualitativas.
Para automatizar el proceso de identificación de características cualitativas, fue
necesario automatizar el proceso de detección de unidades de llanto, por ello, en el
presente trabajo se proponen dos métodos:
El primer método permite detectar y separar de manera automática las unida-
des de llanto de una grabación, eliminando los segmentos sordos, el ruido del
ambiente y sonidos inspiratorios, éste método está basado en la definición de un
umbral aplicado a la energía de la señal, y otro umbral que permite eliminar los
sonidos inspiratorios, obteniendo así, las unidades de llanto útiles para realizar
el análisis cualitativo.
El segundo método permite identificar de manera automática las características
cualitativas de más relevancia para diferenciar entre un llanto normal y un llanto
con tendencia a patológico. El método está basado en (Várallyay et al., 2009b),
y consiste en fijar la frecuencia fundamental en un dodecagrama, y con base en
algunas reglas establecidas, obtener un código de cadena que permite identificar
el tipo de melodía de las unidades de llanto, además, con los valores obtenidos de
la frecuencia fundamental se logra identificar los shifts, glides y concentraciones
de ruido.
1.6. Contenido del documento
Este documento se encuentra organizado de la siguiente manera: En el capítulo 2
se presentan los conceptos básicos sobre el análisis del llanto infantil, sus antecedentes,
fundamentos y demás conceptos relacionados. En el capítulo 3 se presenta una revisión
del estado del arte, tanto en el ámbito de la detección de unidades de llanto, como en
el análisis de las características cualitativas. En el capítulo 4 se detalla la propuesta
de solución, se describe la metodología llevada a cabo, así como los experimentos
Coordinación de Ciencias Computacionales Instituto Nacional de Astrofísica, Óptica y Electrónica
1.6 Contenido del documento 5
realizados. En el capítulo 5 se muestran los resultados experimentales para la detección
de unidades de llanto, para la identificación de características cualitativas y para el
diagnóstico. Finalmente en el capítulo 6 se presentan las conclusiones y el trabajo
futuro.
Identificación Automática de Características Cualitativas del Llanto Infantil
6 1. Introducción
Coordinación de Ciencias Computacionales Instituto Nacional de Astrofísica, Óptica y Electrónica
Capítulo 2
Marco teórico
Este capítulo tiene como objetivo presentar los conceptos básicos sobre el análisis
del llanto infantil.
2.1. El llanto
El llanto es el vehículo de comunicación más eficaz del recién nacido. Nada como
el poder del llanto para comunicarse con sus padres.
Un bebé recién nacido anuncia su llegada a través del llanto. El primer llanto
del bebé, abre los pulmones y los pone a trabajar. Contribuye a sacar el líquido de
las vías respiratorias del bebé, de tal manera que éste pueda absorber el oxígeno.
Es un componente importante de la reacción inmediata del bebé, el cual indica su
supervivencia fuera del vientre materno.
El llanto representa fisiológicamente hablando, el control autónomo de los meca-
nismos de inhibición y del despertar (sueño/vigilia), así como la coordinación de la
actividad cardiorespiratoria con la musculatura laringea. Pero el llanto es además, un
evento acústico, que contiene información sobre el funcionamiento del sistema ner-
vioso central (SNC) y puede ser enfocado como una forma de comunicación. Es el
comienzo de la vocalización y tiene implicaciones en el desarrollo futuro de la voz y
del lenguaje (Brazelton, 2003). A través del llanto el bebé expresa sus necesidades y
sentimientos básicos como hambre, calor, incomodidad, dolor, etc.
El llanto es parte de un sistema de regulación, actuando como si fuera una especie
de termostato que se dispara en el momento oportuno para indicar alguna necesi-
dad. En él intervienen procesos de conducta y fisiológicos para mantener el balance
homeostático, regulando la duración y frecuencia del cuidado y atención del infante.
[7]
8 2. Marco teórico
Este sistema de regulación por el llanto es la primera línea de defensa del organismo,
constituyendo señales tempranas de alerta. Si el llanto forma parte de este sistema de
regulación, potenciales variaciones en la acústica del llanto pudieran correlacionarse
con cambios en este sistema.
Hay un ancho rango de variaciones en la calidad del llanto del niño. Diferencias
temperamentales son responsables de estas variaciones, además, los infantes lloran
por diferentes razones a diferentes edades. El significado funcional del llanto cambia
con la edad. En los dos primeros meses el llanto es por muchas razones, a veces
inexplicables, porque el infante necesita atención por algún motivo. Entre los siete y
nueve meses, el llanto es por precaución, por el miedo a lo extraño y la separación
de personas cercanas a él. A esta edad se incrementa la habilidad cognoscitiva y
la memoria. El llanto se torna más diferenciado, las madres hablan del llanto de
enojo y del llanto de atención por hambre o pánico, lo que indica que un cambio en
la fisiología y anatomía del niño está ocurriendo, el sistema nervioso del niño se está
organizando. La conducta contribuye a la regulación fisiológica y el llanto juega un rol
importante en este proceso, este llanto ayuda a reducir tensiones. El periodo de doce
a veinticuatro meses es importante en cambios de maduración del sistema nervioso y
en la adquisición de conocimientos, las emociones son particularmente fuertes en este
periodo, el niño lucha por su autonomía, el llanto puede ser por el temor al fracaso,
desarrollando en él un sentido del derecho e injusticia. Los infantes entienden los
cambios de regla cuando los padres les imponen límites, que ellos rechazan pero que
además quieren.
Alrededor del segundo año de vida el berrinche es usual debido a las frustraciones,
como por ejemplo en los juegos donde el niño siente la necesidad de cierta indepen-
dencia y de hacer prevalecer su individualidad. Entre los cinco y siete años el llanto
está asociado al proceso de adaptación a la escuela y en la adolescencia a emociones
que generalmente están asociadas a culpa.
2.2. Antecedentes del análisis del llanto infantil
El análisis del llanto infantil inició con los estudios de Gardiner (Reyes et al.,
2009) (Martínez et al., 2004), hace 186 años. Gardiner dio una primera descripción
del llanto a partir de su ubicación en el teclado de un piano. A partir del estudio de
Gardiner han surgido varios trabajos, los cuales han tratado de describir los procesos
Coordinación de Ciencias Computacionales Instituto Nacional de Astrofísica, Óptica y Electrónica
2.2 Antecedentes del análisis del llanto infantil 9
de generación y percepción del llanto infantil. A continuación se describe de manera
muy general, algunos de los trabajos más relevantes en el área del análisis del llanto
infantil.
A lo largo de los años 60’s se efectuaron importantes estudios guiados por Waz-
Höckert y Lind, a través del análisis auditivo y espectrográfico, vinculándose rasgos
anormales de parámetros característicos del llanto con problemas médicos. Entre estos
trabajos se encuentran: las anormalidades orofaríngeas (Lind y otros, 1965; Massen-
gill, 1968; Michelson y otros, 1975, (Raes et al., 1980); (Raes et al., 1982), asfixia
neonatal (Wasz-Höckert et al., 1968), (Michelsson, 1971); (Michelsson et al., 1977),
bajo peso al nacer (Michelsson, 1971), herpes encefalitis e hipotiroidismo congénito,
y otras más.
En las décadas de los 80 y 90, se abordaron aspectos puntuales del análisis del
llanto como: características espectrográficas (Michelsson, 1980), características acús-
ticas de los primeros llantos (Gardosik et al., 1980), análisis acústico del llanto normal
de dolor (Thoden et al., 1980), características acústicas y perceptuales de tipos de
llantos de niños (Murry, 1980), patrones de frecuencia fundamental (Keating, 1980),
llanto y madurez (Prescott, 1980), llanto infantil, una guía para el diagnóstico (Golub
et al., 1982), el modelo Fisioacústico del Llanto Infantil (Golub et al., 1985), la comu-
nicación y el significado del sonido del llanto (Ostwald, 1985), y el modelo Biosocial
del Llanto Infantil (Lester, 1984).
Otros trabajos estuvieron enfocados a la detección y diagnóstico de patologías,
tales como: la predicción del resultado evolutivo a través del análisis acústico del
llanto en niños a término y pretérmino (Lester, 1989), evaluación en la variabilidad
del llanto en niños de alto riesgo (Rapisardi et al., 1989), llantos en niños con Hiper-
bilirrubinemia (Koivisto, 1987), significación y determinación del tono en llantos de
recién nacidos y el espectro de la melodía como una medida de la variabilidad de la
frecuencia fundamental (Wermke et al., 1987), variabilidad de la melodía del llanto y
su espectro como indicador en ciertas patologías del Sistema Nervioso Central (Mende
et al., 1990b), bifurcación y caos en el llanto de recién nacidos (Mende et al., 1990a),
hacia una terminología estandarizada y metodología para la medición de la duración
del llanto característico de dolor(Raes et al., 1990), el jittler-index de la frecuencia
fundamental del llanto infantil como posible herramienta de diagnóstico en la predic-
ción de problemas futuros (Grauel et al., 1990), valor del análisis acústico del llanto
infantil con patología y respiración con ruido en la práctica diaria (Hirschberg, 1990).
Identificación Automática de Características Cualitativas del Llanto Infantil
10 2. Marco teórico
Después de los años 90 los principales esfuerzos de los investigadores del análisis
acústico del llanto infantil estuvieron vinculados con: la discriminación acústica de
llanto (Fuller, 1991), características acústicas del llanto de niños de madres expuestas
a drogas (Corwin et al., 1992); examen de comparación de señales de llanto y habla
usando el método de alta resolución del tono (Rothgänger et al., 1993); alteración de
parámetros acústicos en el llanto de neonatos (Rothenberg et al., 1995); característi-
cas acústicas del llanto de recién nacidos que son afectados por el Síndrome Infantil
de Muerte Súbita, (Corwin et al., 1995), clasificación de llanto infantil usando re-
des neuronales artificiales (Petroni et al., 1995), el análisis espectral del llanto infantil
(Cano et al., 1995); características de las prevocalizaciones en gemelos (Wermke et al.,
1996); análisis espectrográfico en recién nacidos (Michelsson et al., 1996); evaluación
automática del nivel de distress de la señal de llanto (Xie et al., 1996), efectos del
consumo de alcohol y uso de cigarros durante el embarazo en el análisis acústico del
llanto (Nugent et al., 1996), redes neuronales y mapas autoorganizados: nuevas téc-
nicas usando computadora en la evaluación acústica del llanto infantil (Schönweiler
et al., 1996), características acústicas en llantos de niños con cólico (Zeskind et al.,
2006); diferencias perceptivas en llantos de niños reveladas por modificaciones de ras-
gos acústicos(Protopapas et al., 1997); análisis acústico de llanto infantil de recién
nacidos (Fort et al., 1998); uso de los mapas auto-organizados de Kohonen en la clasi-
ficación del llanto infantil (Cano et al., 1999), análisis de llanto infantil para detección
temprana de daño auditivo (Möller et al., 1999); disfonía en niños (Hirschberg, 1999);
fonación en recién nacidos (Michelsson et al., 1999).
Es precisamente a mediados de los 90 donde aparecen dos hechos significativos.
El uso de los modelos conexionistas (redes neuronales artificiales RNA) como nuevo
enfoque en la clasificación de llanto infantil, así como el primer trabajo del análisis del
llanto en el área iberoamericana presentado en el EUROSPEECH’95 por especialistas
del Grupo de Procesamiento de Voz de la Universidad de Oriente de Cuba, vinculado
al diagnóstico de patologías del Sistema Nervioso Central con trasfondo de hipoxia
en neonatos cubanos.
Con el arribo del nuevo siglo, nuevas contribuciones al análisis del llanto infantil
aparecieron en escenario, destacando el surgimiento del Grupo Mexicano del análisis
del llanto, con importantes contribuciones a la clasificación de llanto infantil con fi-
nes diagnósticos, principalmente en hipoacusia y en el uso de nuevas aproximaciones
como las genético-evolutivas: el análisis espectrográfico del llanto de recién nacidos
Coordinación de Ciencias Computacionales Instituto Nacional de Astrofísica, Óptica y Electrónica
2.2 Antecedentes del análisis del llanto infantil 11
después de un estímulo doloroso (Runefors et al., 2000); análisis de llanto y prevoca-
lizaciones en niños con Epilepsia (Ruiz et al., 2000); estudio de rasgos acústicos de
llantos de recién nacidos y su correlación con el contexto (Baeck et al., 2001); análi-
sis espectral de prevocalizaciones en llanto espontáneo de niños con labios hendidos
(Wermke et al., 2002a), evolución de la frecuencia fundamental en llanto espontáneo
(Lind et al., 2002), uso de los modelos ocultos de Markov en la clasificación del llanto
infantil (Lederman et al., 2002); aspectos evolutivos de la melodía y formantes en el
llanto infantil (Wermke et al., 2002b), efectos de la exposición a drogas de madres en
gestación en el neurodesarrollo predicativo del niño de un mes de nacido Lester et al.
(2002); análisis acústico de cambios evolutivos y expresión emocional en prevocali-
zaciones de niños Sheiner et al. (2002), características del llanto de 172 niños sanos
de uno a siete días de nacidos (Michelsson et al., 2002), extracción de coeficientes
cepstrales de frecuencia mel (MFCC) del llanto infantil para clasificación de llanto
usando redes feedforward (Orozco et al., 2003a), análisis de características acústicas
para el reconocimiento de llanto en niños normales e hipoacúsicos basado en redes
neuronales (Orozco et al., 2003b), análisis de sonidos del niño en el primer año de
vida y vinculación con el lenguaje (Rothgänger, 2003), análisis de llanto de niños
hipoacúsicos y niños normales (Arch et al., 2004), función de base radial orientada
a la clasificación del llanto infantil (Cano et al., 2004), evaluación del llanto infantil:
análisis acústico del llanto y percepción por los padres LaGasse et al. (2005).
En esta sección se mencionaron las principales contribuciones de los investigadores
del llanto infantil. Como pudimos observar, los antecedentes del análisis del llanto
infantil datan desde hace ya 186 años. En todo este tiempo han surgido infinidad de
estudios, contribuciones y nuevos enfoques para el análisis del llanto, con el objetivo de
desarrollar metodologías de identificación y diagnóstico. Además, todos éstos avances
se han potencializado con el uso y desarrollo de equipos de cómputo.
Aunque el llanto infantil ya ha sido motivo de numerosas investigaciones en todo
el mundo. Y aunque ha mostrado ser una herramienta no invasiva, y de gran utilidad
y potencialidad para el diagnóstico. El análisis del llanto aún no se realiza a todo
infante como estudio de rutina, como el tamiz o la exploración neurofisiológica.
En el tema de análisis cualitativo aún hay mucho por hacer. Ya se han logrado
establecer reglas, que permiten diferenciar entre llantos normales y patológicos, pero
el análisis cualitativo se sigue realizando de forma manual. En la actualidad, apenas
se está iniciando con el desarrollo de metodologías que permitan la automatización
Identificación Automática de Características Cualitativas del Llanto Infantil
12 2. Marco teórico
de este proceso. Esperando que en un futuro no muy lejano, el análisis del llanto sea
un estudio clínico común para todo infante en sus primeros días de vida.
2.3. Fundamentos del análisis del llanto infantil
2.3.1. Propiedades fisiológicas del llanto
El llanto es el reflejo de una variedad de funciones neurofisiológicas complejas que
ocurre durante la fase espiratoria de la respiración. Durante esta fase se realiza la
exhalación y esta fase puede ser activa o pasiva e involucra la producción de sonidos
desde las cuerdas vocales y los siguientes movimientos supraglóticos: 1) Se contraen
los músculos constrictores de la faringe y el elevador del velo del paladar; el istmo
palatofaríngeo permanece cerrado durante las espiraciones sonoras más enérgicas. 2)
La boca se abre por descenso de la mandíbula. El cuerpo de la lengua se eleva en
relación con la mandíbula y aparece un surco en la línea media lingual. La punta
de la lengua se eleva y sobresale de la cavidad bucal abierta. 3) Hay contracción
generalizada de la musculatura facial, que comprende el orbicular de los labios y el
radial de la expresión facial, el orbicular de los párpados y el frontal y 4) La cabeza
se extiende a nivel del cuello (Martínez et al., 2004).
Estos comportamientos generales están sincronizados con las coordinaciones recí-
procas de la espiración e inspiración forzadas. Durante las inspiraciones parte de la
lengua se aplana y se eleva hacia el paladar; cumpliéndose las inspiraciones por la
nariz (Paparrella, 1994).
Las características acústicas del llanto dependen de la intensidad del aire expul-
sado, la tensión, longitud, grosor y forma de las cuerdas vocales, así como la forma,
longitud y tensión de la caja de resonancia (la cavidad por arriba y por debajo de la
laringe actúa como caja de resonancia). La relajación de la musculatura en la cámara
de resonancia apaga las altas frecuencias, mientras que la tensión de los músculos ac-
túa en la forma opuesta. Estos músculos se encuentran bajo control neural (Koivisto,
1987). En la Figura 2.1 se muestra el conjunto del aparato fonador y respiratorio.
Coordinación de Ciencias Computacionales Instituto Nacional de Astrofísica, Óptica y Electrónica
2.3 Fundamentos del análisis del llanto infantil 13
Figura 2.1: Aparato fonador y respiratorio.
2.3.2. Mecanismo de producción del llanto
El mecanismo de producción del llanto en los infantes es parecido al proceso de
producción de habla en los adultos. La primera fase del mecanismo de producción
del llanto se inicia en el cerebro del infante, debido a un estímulo interno o externo
(hambre, dolor, etc.). En la segunda fase el comando del cerebro es traducido en series
de comandos por medio del sistema nervioso al habla y a los miembros respiratorios.
Los cuales son responsables para la creación de sonidos acústicos en el nivel psicoló-
gico. Este proceso continúa con la expulsión del aire de los pulmones al tracto vocal
(Lederman, 2002). El tracto vocal inicia en las cuerdas vocales y termina en los labios.
Los tractos están construidos desde la faringe la cual interconecta la boca y el esófago,
la cavidad bucal y la nasal, las cuales inician en el velo del paladar y terminan en la
boca.
Mientras sucede la ulterancia del sonido, el estatus del tracto vocal cambia, cam-
biando el estatus y la posición de los órganos internos, de esta manera se forman las
diferentes características acústicas.
La laringe consiste de las cuerdas vocales, las cuales vibran como resultado de la
presión del aire, movimientos musculares y las características físicas de las cuerdas. La
frecuencia en la cual la cuerda vibra es llamada frecuencia fundamental, que cuando
es medida por una evaluación auditiva subjetiva es llamada pitch.
Hay dos mecanismos que pueden generar la energía acústica de la señal del llanto.
La primera es conocida como excitación sonora y ocurre en la laringe, este es el
Identificación Automática de Características Cualitativas del Llanto Infantil
14 2. Marco teórico
mecanismo que produce los sonidos sonoros. El segundo mecanismo es una turbulencia
producida por un cierto grado de oclusión en el tracto vocal externo (velo del paladar,
lengua, dientes, labios), los sonido generados de esta forma son llamados sordos.
El tracto vocal actúa como una cavidad de resonancia, la cual amplifica ciertos
componentes de frecuencia mientras atenúa otros. Las frecuencias de resonancia son
determinadas por la forma instantánea del tracto vocal.
2.3.3. Modelo de Golub
El modelo de Golub fue diseñado para seleccionar las características acústicas
que permitieran identificar a los infantes en riesgo médico (Golub, 1979). El modelo
asume la teoría de fuente-filtro, es decir, la onda acústica que irradia desde la boca
del infante es vista como función fuente, y el aire de los pulmones siendo empujado a
través de las cuerdas vocales de la laringe, como filtro el resto de la pista vocal.
El aspecto más interesante del modelo de Golub, es el desarrollo de las bases
fisiológicas de la producción del llanto. El modelo asume tres niveles de procesamiento
central de los músculos que contribuyen a la fuente y a los filtros del llanto. Éstos tres
niveles se identifican como procesamiento alto, medio y bajo.
El procesamiento alto lo determina el estado del infante (dolor, irritabilidad, etc.).
El procesamiento medio tiene que ver con los estados vegetativos del infante (deglu-
ción, tos, digestión, etc.). El procesamiento bajo implica el control de los grupos
musculares, incluyendo los músculos faciales, subglóticos, supraglóticos y la glotis.
Todos estos músculos están coordinados cuando el infante llora.
En el modelo se asume que los músculos subglotal (respiratorio), supraglotal (fil-
tro), glotal (laringe) son controlados independientemente, lo cual, lleva a la hipótesis
central del modelo, que afirma, que si los grupos musculares son controlados de forma
independiente, entonces las diferencias del llanto, causadas por cada uno de ellos,
puede conducir a la identificación y diagnóstico de alguna anomalía específica a una
patología en esa zona.
Golub, propuso varias pruebas de llanto, por ejemplo, hay una prueba de inesta-
bilidad glotal, una prueba de constricción del tracto vocal y una prueba de esfuerzo
respiratorio anormal. Éstas pruebas debían reflejar anomalías en diferentes lugares del
Sistema Nervioso Central (Golub, 1979), como la independencia entre los músculos
asociados con la glotis y las vías nasofaríngeas. Golub sugirió, que el nervio craneal
Coordinación de Ciencias Computacionales Instituto Nacional de Astrofísica, Óptica y Electrónica
2.3 Fundamentos del análisis del llanto infantil 15
Figura 2.2: Modelo de Golub.
X (nervio vago), es crucial en los procesos del músculo glotal, y por lo tanto, en las
formas de fonación del llanto y en su frecuencia fundamental.
Ha habido modificaciones al modelo de Golub. La más importante por (Lester,
1987), quién añadió los nervios craneales IX, XI y XII al nervio X, como indispen-
sables para la acústica del llanto. Éstos nervios craneales, tienen influencia sobre los
músculos de la laringe, la faringe, el pecho y el cuello. Lester también afirma que
éstos nervios y los núcleos de origen de éstas vías, afectan la acústica del llanto. El
modelo sigue haciendo énfasis en la frecuencia fundamental (tanto en su media, como
en su variabilidad) y en las frecuencias de los formantes asociados con el llanto, como
medidas que reflejan el funcionamiento del Sistema Nervioso Central.
Como se observa en la Figura 2.2 el modelo se divide en cuatro partes. La pri-
mera parte es el sistema subglotal (respiratorio) que es el responsable de desarrollar
la presión (Ps(t)) por debajo de la glotis necesaria para manejar o influir en la fuente
de pliegues vocales. La segunda parte es la fuente de sonido localizada en la laringe.
La fuente de sonido puede ser descrita matemáticamente, en el dominio frecuencial,
como una fuente periódica (S(f)) o como una fuente ruidosa o turbulencia (N(f)).
Esas fuentes pueden operar de forma aislada, o como ocurre frecuentemente, en for-
ma simultánea. Ambas fuentes acústicas se originan en los pliegues vocales. La fuente
periódica resulta de la vibración de los pliegues. El ruido de turbulencia está asociado
a la turbulencia creada por el paso forzado del aire proveniente de los pulmones a
Identificación Automática de Características Cualitativas del Llanto Infantil
16 2. Marco teórico
través de una pequeña abertura debida a un cierre incompleto de los pliegues voca-
les. Rothember (1974) demostró que los adultos exhiben el mismo tipo de ruido de
aspiración, a un grado más bajo, durante la producción (o generación) de sonidos
vocálicos.
La tercera fuente la constituyen los tractos vocal y nasal localizados sobre la
laringe. Esta parte del sistema de producción del llanto es un filtro acústico que tiene
una función de transferencia (T(f)) cuyas características cambian con la forma y
longitud de los tractos vocal y nasal. La cuarta parte del sistema es la característica
de radiación (R(f)) que describe el filtrado del sonido entre la boca del niño y el
micrófono localizado a una distancia dada.
El espectro de frecuencia del sonido en la salida puede ahora ser construido mul-
tiplicando los espectros de cada una de esas tres partes, teniendo en cuenta que la
amplitud del sonido está directamente relacionada a la presión subglotal (Ps(t)). La
formulación matemática de la teoría acústica inicialmente desarrollada para la produc-
ción de voz adulta (Fant, 1960), (Flanagan, 1972), puede ser aplicada a la producción
del llanto infantil (Golub, 1979). Esta formulación simbólicamente representada por:
Salida = Fuente * Filtro. Se usa como una guía para la interpretación de los aspectos
dinámicos del sistema lineal fuente - filtro, relativa al llanto infantil (Golub et al.,
1982), (Wasz-Höckert et al., 1968).
El modelo de producción del llanto tiene dos componentes básicas: (Reyes et al.,
2009)
La componente acústica: describe cómo el sonido se genera en la laringe y en
las vías aéreas por encima de la laringe.
La componente fisiológica: describe cómo son controladas la configuración y
movimiento de las estructuras respiratorias laríngea y supralaringea.
2.3.4. Técnicas del análisis del llanto infantil
Las técnicas clásicas del análisis del llanto infantil han sido:
Análisis auditorio o perceptual: En esta técnica, el análisis del llanto es a tra-
vés del oído, descrito en la antigüedad por Hipócrates, y retomado en 1855 por
Darwin en sus tratados sobre el llanto infantil (Michelsson et al., 2007). Más
recientemente (Wasz-Höckert et al., 1964), encontraron que en sus grabaciones
Coordinación de Ciencias Computacionales Instituto Nacional de Astrofísica, Óptica y Electrónica
2.3 Fundamentos del análisis del llanto infantil 17
los llantos de hambre, dolor, placer y nacimiento podían ser identificados au-
ditoriamente. Más tarde estos mismos investigadores junto con Lind (Valanne
et al., 1967), encontraron que las madres son capaces de reconocer a sus hijos
por medio de su llanto. Se comprobó además que después de un periodo de
tiempo relativamente corto, aproximadamente 2 horas, 82 pediatras pudieron
diagnosticar llantos patológicos entre llantos normales con alta precisión, ade-
más de hacer un diagnóstico diferencial de una patología específica con un grado
menor de precisión.
Análisis en el dominio del tiempo: La información en el dominio del tiempo
se obtiene a partir de equipos que grafican en papel la magnitud de sonido
contra tiempo. Lind et al. (1965), utilizaron un oscilógrafo para estudiar el
curso de tiempo de las duraciones y periodos de latencias de diferentes tipos de
llanto, descubrieron que las fonaciones iniciales en un llanto grabado, son más
irregulares que aquellas que aparecen una vez que el infante está completamente
exitado. Otros investigadores han utilizado ésta técnica para analizar llantos de
niños con daños cerebrales difusos, y para estudiar las duraciones entre llantos
de hambre, dolor y fastidio. Obteniendo resultados que muestran que puede
obtenerse información útil utilizando instrumentos en el dominio del tiempo
(Reyes et al., 2009).
Análisis en el dominio frecuencial: Permite el paso de la señal en un rango de
frecuencia dado. Mide la magnitud promedio en ese rango y da una represen-
tación visual de esa magnitud. Además, se pueden comparar las magnitudes de
una serie de rangos de frecuencias. (Ostwald et al., 1962) utilizaron un analiza-
dor de media octava para examinar el llanto de 32 gemelos y concluyeron que la
variabilidad de las mediciones del tono (pitch) y las características temporales
de los gemelos, pudieran ser explicadas por las diferencias en el peso, tamaño,
desarrollo físico, y vigor de los infantes grabados. Además concluyeron que éstos
factores determinaron el tipo de llanto y que los factores hereditarios no jugaban
un rol importante. Posteriormente, determinaron que la frecuencia fundamental
para un infante normal está entre 425Hz y 600 Hz.
Estos dispositivos solo brindan información sobre la magnitud de la señal en
varios rangos de frecuencia, pero no brindan información temporal, es por ello
que la información ofrecida por este tipo de técnica es limitada.
Identificación Automática de Características Cualitativas del Llanto Infantil
18 2. Marco teórico
Análisis espectrográfico: El espectrógrafo de sonido genera una información vi-
sual permanente. Mostrando la distribución de energía tanto en frecuencia como
en tiempo. Su origen se sitúa en los laboratorios Bell en la década de los 30’s. Ha
sido un dispositivo de gran ayuda en muchas áreas del procesamiento de señales,
voz adulta, sonidos de animales, música y llanto infantil. En años posteriores
la mayoría de los estudios del llanto infantil (décadas de los 60’s y 70’s) han
utilizado los servicios del espectrógrafo de sonido. En la actualidad su versión
digitalizada es herramienta obligada en el análisis del llanto, prevocalizaciones
y voz adulta.
El uso del espectrograma presupone la presencia de atributos o parámetros los
cuales pueden agruparse en dos categorías generales:
• Aspectos de duración
◦ Periodo de latencia: Periodo entre el estímulo de dolor aplicado al niño
y el inicio (onset) del sonido de llanto. El onset del llanto está definido
como la duración de la primera fonación que dura mas de 0.5 segundos
en el tiempo.
◦ Duración: Es una medida desde el inicio del llanto hasta el final de la
señal y consiste en las vocalizaciones totales que ocurren durante una
expiración o inspiración simple.
◦ Segunda pausa: El intervalo de tiempo entre el final de la señal y la
siguiente inspiración.
• Aspectos de frecuencia:
◦ Frecuencia fundamental (f0).
◦ Formantes.
◦ Pico máximo.
◦ Pico de cambio.
◦ Fluctuación glótica.
◦ Vibrato.
◦ Tipo o forma melódica.
◦ Doble ruptura armónica.
◦ Bifonación.
Coordinación de Ciencias Computacionales Instituto Nacional de Astrofísica, Óptica y Electrónica
2.4 El espectrograma 19
◦ Deslizamiento.
◦ Concentración de ruido.
◦ Bifurcación
Análisis asistido por computadoras: Todos los análisis descritos anteriormente
dan una información acústica muy útil. Sin embargo tienen significativas limita-
ciones. La más importante de ellas, es que la extracción acústica es un proceso
difícil y tedioso. En años más recientes se han desarrollado prototipos de siste-
mas autónomos asistidos por computadoras que pueden extraer la información
acústica relevante de forma inmediata.
El procesamiento de información de estos sistemas comprende más o menos los
siguientes pasos:
• Grabación del llanto.
• Obtención de los parámetros: frecuencia fundamental, formantes y ampli-
tud vs tiempo.
• Generación de espectrogramas digitales.
• Muestreo de los contornos de la frecuencia fundamental.
• Desarrollo de un nuevo número de aspectos a partir de los parámetros y
muestras iniciales por procedimientos que incluyen: premediación de los
modos de llanto, cálculo de la probabilidad de estar en algún modo espe-
cífico en un punto dado del llanto.
• Agrupamiento de aspectos relevantes en un conjunto de pruebas de diag-
nóstico.
• Implementación de novedosos procedimientos en el área del soft-computing
(RNA, sistemas genético–evolutivos, minería de datos, etc).
2.4. El espectrograma
Un espectrograma es la representación gráfica de un sonido (o una secuencia de
sonidos), en la que se visualizan los tres parámetros acústicos de frecuencia, intensidad
y tiempo.
Identificación Automática de Características Cualitativas del Llanto Infantil
20 2. Marco teórico
Figura 2.3: Espectrograma.
La duración (en segundos) de la emisión se representa en el eje de las abscisas, eje
sobre el cual se puede delimitar cada segmento constitutivo de la emisión. En el eje
de las ordenadas se representan las frecuencias (en Hz).
La intensidad (o energía) viene dada, de manera relativa y cualitativa, por el grado
de negrura. Para conocer con mayor precisión la intensidad se recurre a la curva de
la energía.
Además de estos tres parámetros, el espectrograma proporciona otras caracterís-
ticas del sonido, entre las cuales se destaca una de mayor importancia: la estructura
formántica de los componentes. Los formantes son las regiones de frecuencia de ma-
yor intensidad, es decir, el conjunto de armónicos u ondas simples cuyas frecuencias
han sido reforzadas por los resonadores bucales. Los formantes, que poseen la mayor
energía de todo el espectro, están representados por unas bandas negras horizontales
de cierta anchura.
En la Figura 2.2, se puede observar un espectrograma obtenido con el software
CoolEdit 2002.
2.5. Detección del llanto
La detección del llanto está definida como un procedimiento en donde los sonidos
de llanto son seleccionados de la grabación. Como hay diferentes tipos de llanto, y
Coordinación de Ciencias Computacionales Instituto Nacional de Astrofísica, Óptica y Electrónica
2.6 Variables cuantitativas 21
podría haber sonidos erróneos (ruido de fondo, sonidos inspiratorios, etc.), la detección
del llanto ha sido realizada manualmente por varios equipos de investigación como
(Makói et al., 1975), (Wermke et al., 2002b). Por ejemplo (Hirschberg et al., 1982)
y (Michelsson et al., 1999) por medio del análisis espectrográfico del llanto infantil,
seleccionaron los sonidos de llanto manualmente después de visualizar los llantos sobre
un espectrograma .
(Várallyay et al., 2009a) desarrollaron el sistema AICD (Automatic Infant Cry
Detection) el cual afirman es un sistema que permite la detección de llanto en cualquier
tipo de grabación.
2.6. Variables cuantitativas
Son variables que se expresan mediante cantidades numéricas. Las variables cuan-
titativas además pueden ser (Wikipedia, b):
1.- Variable discreta: Es la variable que presenta separaciones o interrupciones en la
escala de valores que puede tomar. Estas separaciones o interrupciones indican
la ausencia de valores entre los distintos valores específicos que la variable pueda
asumir.
2.- Variable continua: Es la variable que puede adquirir cualquier valor dentro de
un intervalo especificado de valores. Por ejemplo, el peso (2,3 kg, 2,4 kg, 2,5 kg,
...) o la altura (1,64 m, 1,65 m, 1,66 m, ...), que solamente está limitado por la
precisión del aparato medidor, en teoría permiten que siempre exista un valor
entre dos cualesquiera.
2.7. Variables cualitativas
Son las variables que expresan distintas cualidades, características o modalidad.
Cada modalidad que se presenta se denomina atributo o categoría y la medición
consiste en una clasificación de dichos atributos. Las variables cualitativas pueden
ser ordinales y nominales. Las variables cualitativas pueden ser dicotómicas cuando
sólo pueden tomar dos valores posibles como sí y no, hombre y mujer. Son politómi-
cas cuando pueden adquirir tres o más valores. Dentro de ellas podemos distinguir
(Wikipedia, b):
Identificación Automática de Características Cualitativas del Llanto Infantil
22 2. Marco teórico
1.- Variable cualitativa ordinal: La variable puede tomar distintos valores ordenados
siguiendo una escala establecida, aunque no es necesario que el intervalo entre
mediciones sea uniforme, por ejemplo, leve, moderado, grave.
2.- Variable cualitativa nominal: En esta variable los valores no pueden ser someti-
dos a un criterio de orden como por ejemplo los colores o el lugar de residencia.
2.8. Características cuantitativas del llanto infantil
Duración de la fonación: Es el tamaño o duración del llanto espiratorio audible
después del estímulo hasta la siguiente inspiración. Esta inspiración es llamada
fonación y puede ser interrumpida o continua. Si se interrumpe, éstos segmentos
o partes son referidos como señales o unidades de llanto. Así la fonación puede
contener una o más señales. La señal más larga es la señal principal.
La duración de la fonación varia ampliamente de 1.0 hasta 6.0 segundos. (Koivis-
to, 1987) analizaron la duración de la fonación en llanto inducido y demostraron
que la primera fonación después de un estímulo doloroso es más larga que las si-
guientes fonaciones. El promedio de la primer señal varía de 4.1 a 5.2 segundos,
mientras que la segunda es de 1.6 a 2.0 segundos.
(Lind et al., 2002) realizaron un estudio en infantes sanos e hicieron un se-
guimiento de sus llantos durante tres meses. Seleccionaron solamente los llantos
que tenían armónicos ya que mencionan que los llantos con sub-armónicos o con
exceso de ruido producen errores en las mediciones de la frecuencia fundamental
(f0).
Para el análisis de la f0, dividieron los llantos en dos categorías:
• Llanto tipo I: Llantos largos mayores a los 0.8 segundos.
• Llanto tipo II: Llantos cortos menores a los 0.8 segundos.
Seleccionaron el umbral de 0.8 segundos porque muchos sonidos del llanto du-
rante los primeros meses de vida son cortos, menores a los 0.8 segundos de
duración. (Lind et al., 2002)
Sin embargo un estudio realizado por (Corwin et al., 1995). Analizando llantos
de entre el día 2 y 7 de vida, y utilizando el criterio para una unidad de llan-
Coordinación de Ciencias Computacionales Instituto Nacional de Astrofísica, Óptica y Electrónica
2.9 Características cualitativas del llanto infantil 23
to, como un sonido con una duración mínima de 0.5 segundos, clasificaron la
duración del llanto como:
• No. de llantos largos: número de sonidos con duración mínima de 0.5 se-
gundos.
• No. de llantos cortos: número de sonidos de llanto con duración menor a
0.5 segundos.
Frecuencia Fundamental: Es la frecuencia más baja del espectro de frecuencias
tal que las frecuencias dominantes pueden expresarse como múltiplos de esta
frecuencia fundamental (Wikipedia, a). Se mide en ciclos/segundo o Hertz y se
refiere al número de veces que una forma de onda compleja se repite a si misma
en un segundo.
En el análisis del llanto, la terminología fonética se desvía un tanto del signifi-
cado original de la frecuencia fundamental. Por ejemplo, en fonética el término
Pitch generalmente se refiere a la sensación de las diferencias percibidas en la
frecuencia fundamental de los pliegues vocales. Sin embargo, en estudios del
llanto, el pitch ha sido usado para indicar la medida más alta de la frecuencia
fundamental presente en un espectrograma (Michelsson et al., 2007).
Las características de la frecuencia fundamental más comúnmente usadas son:
la media fundamental y los puntos más alto y más bajo en el espectrograma.
2.9. Características cualitativas del llanto infantil
Tipo de Melodía o Forma Melódica: El tipo de melodía se clasifica en: ascen-
dente, descendente, ascendente-descendente, descendente-ascendente, plana y
sin forma melódica.(Michelsson et al., 2007)(Reyes et al., 2009)
La melodía puede ser descrita con base en los siguientes atributos: duración,
rango de frecuencia y forma. (Várallyay et al., 2009a)
Para Wermke (2002), la complejidad de la forma melódica es un buen indicador
de la maduración neuromuscular. La variación de las frecuencias de resonancia
o formantes permite una estimación de la actividad articulatoria de las vocali-
zaciones pre-habla.
Identificación Automática de Características Cualitativas del Llanto Infantil
24 2. Marco teórico
(a) Melodía ascendente (b) Melodía descendente
(c) Melodía ascendente-descendente (d) Melodía descendente-ascendente
(e) Melodía plana (f) Sin forma melódica
Figura 2.4: Tipos de melodías.
La forma melódica que prevalece durante las primeras semanas de vida en in-
fantes sanos es ascendente-descendente (Figura 2.4c), mientras que en sanos
bajo condiciones de dolor se reporta como descendente (Figura 2.4b).
Las formas melódicas ascendente (Figura 2.4a), descendente-ascendente (Figu-
ra 2.4d), plana (Figura 2.4e), y sin forma melódica (Figura 2.4f) han sido
reportadas por presentarse en cerca del 10 al 20 % de los llantos en infantes
sanos (Arch et al., 2006).
Deslizamiento o glide: Es un cambio súbito de la frecuencia fundamental (f0).
Figura 2.5. En el glide, el cambio de la f0 ha sido definido como al menos 600
Coordinación de Ciencias Computacionales Instituto Nacional de Astrofísica, Óptica y Electrónica
2.9 Características cualitativas del llanto infantil 25
Figura 2.5: Deslizamiento o glide.
Figura 2.6: Vibrato.
Hz en 0.1 seg.(Michelsson et al., 2007), (Reyes et al., 2009).
Vibrato: Se define como una serie de ondas con al menos cuatro movimientos
de ascenso y descenso en la frecuencia fundamental (Michelsson et al., 2007),
Figura 2.6.
Concentración de Ruido: Llanto con un audible alto pico energético, usualmen-
te en 2000-2500Hz durante cada expresión fonatoria (Michelsson et al., 2007),
Figura 2.7.
Existe una evidencia sustancial de que la vibración de las cuerdas vocales es un
proceso no lineal y los efectos combinados de eventos biomecánicos no lineales y
eventos aerodinámicos pueden producir comportamiento de vibración irregular
como la bifurcación y caos. Los patrones caóticos y subarmónicos se han encon-
trado en llantos de infantes sanos así como en infantes con varias complicaciones
perinatales (Reyes et al., 2009).
Identificación Automática de Características Cualitativas del Llanto Infantil
26 2. Marco teórico
Figura 2.7: Concentración de ruido.
Se ha descrito que un incremento de dolor induce una transición caótica en la
oscilación de las cuerdas vocales de recién nacidos, por lo que el llanto aso-
ciado con el dolor está estrictamente relacionado a patrones de ruido en los
espectrogramas (Michelsson et al., 2007), (Reyes et al., 2009).
Glotal roll o vocal fry
Se define como una fonación de intensidad débil y baja frecuencia fundamental
por debajo del valor de normalidad del pitch, ocurre en el inicio o al final de la
fonación. El glotal roll debe ser considerado si su duración continúa por más de
0.1 segundo (Reyes et al., 2009).
Algunos llantos terminan con una baja intensidad y decremento en el pitch.
En el glotal roll la frecuencia fundamental y sus armónicos son visibles pero a
causa del bajo rango de frecuencia son difíciles de medir en los espectrogramas.
El punto más bajo de la frecuencia fundamental es usualmente medido de un
punto donde la frecuencia fundamental es visible. El glotal roll algunas veces es
precedido por un vibrato (Michelsson et al., 2007).
Doble ruptura armónica: Se define como una presentación de otras series si-
multáneas de armónicos que tienen la misma forma melódica como la f0 o los
armónicos pero de baja intensidad. Estas son perceptibles si excede 0.1 segundos
de duración (Michelsson et al., 2007).
Shift o desplazamiento brusco del pitch: Es un repentino cambio o movimiento
de ascenso o descenso de la f0. Se considera shift cuando este cambio de pitch
es de 100Hz o más y menor a los 600Hz.
Coordinación de Ciencias Computacionales Instituto Nacional de Astrofísica, Óptica y Electrónica
2.10 Enfermedades en las que se presentan algunas de las características cualitativas 27
Los cambios repentinos de la frecuencia fundamental pueden presentarse al
inicio, en medio o al final de la señal del llanto, es una de las característi-
cas cualitativas con mayor índice de presentación en el llanto del infante, sin
que esto indique necesariamente una patología (Michelsson et al., 2007).
Bifonación: Es el resultado de dos fuentes de sonido vibrando, es decir, series
dobles de frecuencias fundamentales con diferente tipo de melodía y pitch una
va disminuyendo y la otra aumenta, con duración mayor a 0.1 seg. (Michelsson
et al., 2007).
La bifonación es un evento mecánico resultante de la vibración incoordinada de
las cuerdas vocales, las cuales vibran a diferente frecuencia, dando un cuadro
espectrográfico en el que se identifican dos frecuencias que generalmente se
encuentran dispuestas una en forma ascendente y otra de forma descendente
(Reyes et al., 2009).
En los infantes prematuros el llanto es de corta duración, alta f0 y bifonación.
Jitter: Es un término para la variación de onda a onda en la frecuencia funda-
mental.
Glottal Plosive: Una rápida apertura y cierre de los pliegues vocales que resulta
en una breve producción de turbulencia de aire.
Furcation: Este término denota una división en la frecuencia fundamental, donde
una señal de llanto relativamente fuerte y abrupta, se rompe en series débiles,
cada una de éstas con su contorno fundamental.
2.10. Enfermedades en las que se presentan algunas
de las características cualitativas
Hiperbilirrubinemia: En la hiperbilirrubinemia se presentan llantos débiles, de
baja amplitud en los espectros, frecuencia fundamental aumentada, llanto arrít-
mico, latencia prolongada con largos intervalos entre llantos. En estudios espec-
trográficos se observan: bifonación, bifurcación, concentración de ruido, doble
ruptura de armónicos, explosiones glóticas, vibrato, anormalidad de la melodía,
estabilidad monótona de la frecuencia fundamental y estridor inspiratorio.
Identificación Automática de Características Cualitativas del Llanto Infantil
28 2. Marco teórico
Asfixia: La frecuencia fundamental excede los 1000Hz en el 35 % de los casos.
Llantos de corta duración, arrítmicos, con bifonación.
Enfermedades que afectan al sistema nervioso: Los llantos pueden ser extrema-
damente altos en tono, con una frecuencia fundamental de hasta 3000-4000Hz,
además de notarse cambios en la duración de las fonaciones y el tipo de melodía.
Daño cerebral: Llantos con tono alto y tipo de melodía cambiante. La frecuencia
fundamental es inestable.
Neonatos prematuros: Ocurrencia de bifonación y desplazamientos.
Angustia respiratoria periférica: Incrementos en la duración del llanto y en la
frecuencia fundamental, así como ocurrencia de bifonación.
Angustia respiratoria central: Ocurrencia de bifonación e incidencia de los tipos
de melodía ascendentes, descendentes-ascendentes y plano.
Coordinación de Ciencias Computacionales Instituto Nacional de Astrofísica, Óptica y Electrónica
Capítulo 3
Estado del arte
3.1. Análisis de características cualitativas
En la actualidad el análisis de características cualitativas se realiza de forma ma-
nual, como en (Michelsson et al., 2002), donde se realizó un análisis de tipo cuanti-
tativo y cualitativo. Se analizaron 1,836 señales de llanto de 172 infantes sanos. Las
características que se tomaron en cuenta fueron los valores de la frecuencia fundamen-
tal (f0) y el tipo de melodía. En (Arch et al., 2006) se realizó un estudio para explorar
las diferencias cuantitativas y cualitativas del llanto de los infantes hipoacústicos e
infantes normales, encontrando en los llantos de infantes hipoacústicos; vibratos, ines-
tabilidad y deficiencias melódicas, pérdida de la f0, llantos explosivos, deslizamientos,
bifonaciones y pérdida de la intensidad del llanto. En (Michelsson et al., 1977) se reali-
zó un análisis espectrográfico para estudiar las diferencias entre infantes con asfixia e
infantes sanos. Se analizó la duración de las fonaciones, los valores de la frecuencia fun-
damental, así como también las características cualitativas. En los llantos de asfixia,
se encontraron vibratos y bifonaciones de manera muy frecuente, dobles rompimien-
tos armónicos y glottal roll de manera poco frecuente. También se analizó el tipo de
melodía, observando la presencia de melodías ascendentes, descendentes-ascendentes
y planas.
La forma en que se realiza actualmente el análisis cualitativo del llanto infantil es
la siguiente:
1.- Se utiliza algún software que permita visualizar el espectrograma de la señal de
llanto (algunos ejemplos son: CoolEdit, Praat, lingWAVES, etc).
2.- Se maximiza una parte del espectrograma, y se toma nota de las característi-
cas cualitativas encontradas en dicha parte, y de algunas otras características
[29]
30 3. Estado del arte
cuantitativas, como los valores de la frecuencia fundamental y la duración. Este
paso se repite hasta haber analizado toda la señal.
3.- Finalmente se realiza un conteo de las características cualitativas y cuantitativas
encontradas, para analizar los resultados obtenidos.
Si se dificulta la detección de una unidad de llanto en la señal, se realiza un análisis
auditivo para despejar cualquier duda.
Cabe mencionar que para emitir un diagnóstico sobre alguna posible patología,
se requiere hacer un seguimiento más profundo del llanto del infante, es decir, tomar
muestras del llanto del infante y analizarlas por un periodo de tiempo considerable.
Además de realizar al infante otro tipo de estudios clínicos.
3.2. Detección del llanto infantil
De forma semejante a la detección de habla, la detección de llanto consiste en
encontrar el inicio y el fin de los segmentos de llanto. Un atributo común a las palabras
es que estos segmentos tienen una energía relativamente alta, lo que permite que con
el uso de un umbral sea detectable. Pero en el caso del llanto, no solo el llanto tiene
energía alta, sino también se encuentran sonidos inspiratorios y ruido de fondo.
La detección del llanto infantil está definida como un procedimiento donde los
sonidos del llanto son separados del resto de la grabación.
La parte más difícil de esta detección es reconocer los sonidos inspiratorios y
separarlos de los sonidos de llanto. Además las grabaciones pueden ser procedentes
de diferentes lugares y grabadas con diferentes dispositivos, lo que dificulta aún más
este procedimiento.
En (Várallyay et al., 2009a) se desarrolló el sistema AICD (Automatic Infant Cry
Detection), el cual afirman sus autores, es un sistema que permite la detección de
llanto en cualquier tipo de grabación.
En (Várallyay et al., 2009a) se propone inspeccionar el contenido espectral y el
contenido de energía, ya que los segmentos de llanto típicamente son señales armóni-
cas, es decir, en el espectro se encuentra la f0 y sus subarmónicos, y generalmente las
señales de ruido (sonidos inspiratorios) tienen una estructura espectral menos regular.
En (Várallyay et al., 2009a) se aplica la Short-Time Energy Function para ob-
tener el contenido de energía de las grabaciones y se analiza el contenido espectral
Coordinación de Ciencias Computacionales Instituto Nacional de Astrofísica, Óptica y Electrónica
3.2 Detección del llanto infantil 31
Figura 3.1: Principales pasos del AICD
utilizando una extensión del método HPS (Harmonic Product Spectrum) propuesto
por (Várallyay et al., 2009a).
Se define como la energía media de la señal, en cada trama de análisis (N muestras).
La función de la energía a corto tiempo de una señal de audio está definida como:
En=
1
N
∑
m
[x(m) ∗ w(n−m)]2 (3.2.1)
donde x(m) es la señal de audio en tiempo discreto, n es el índice de tiempo de
la energía a corto tiempo, y w(m) es una ventana rectangular, es decir:
w(n) =
{
1 , 0 ≤ n ≤ −1
0 , otherwise(3.2.2)
Así la función de energía a corto tiempo es usada para determinar los segmentos
sonoros y los segmentos sordos de una señal, ya que la energía de los segmentos
sonoros de una señal es mucho más grande que la energía en los segmentos sordos.
De forma similar al habla, para detectar el comienzo de una unidad de llanto, se
exige que el valor de la energía supere ciertos umbrales durante un periodo de tiem-
po y para la detección del final de la unidad de llanto que los niveles de energía se
encuentren por debajo de estos umbrales. Los umbrales se obtienen de forma experi-
mental analizando el contenido de energía que poseen las muestras así como el ruido
de fondo.
La figura 3.1 (tomada de (Várallyay et al., 2009a)) muestra los principales pasos
Identificación Automática de Características Cualitativas del Llanto Infantil
32 3. Estado del arte
Figura 3.2: Clasificación de la melodía
del AICD, en la Figura 3.1-A se muestra una grabación corta, la cual contiene 3
unidades de llanto, en ésta figura hay dos sonidos inspiratorios (antes de la 2a y 3a
unidades de llanto) y 2 sonidos de ruido.
Se normaliza la señal (Figura 3.1-F) y se determina el umbral de energía, para
extraer las partes de interés de la grabación, se eliminan las partes menores a 200ms,
tal y como se muestra en la Figura 3.1-G, a continuación, se revisa el inicio y fin
de la señal restante (Figura 3.1-J) y se aplica el umbral Fwidth para encontrar y
cancelar los sonidos inspiratorios (Figura 3.1-M), finalmente, el contenido espectral
de las partes restantes son revisadas con el umbral Hmax para encontrar los sonidos
de llanto de la grabación (Figura 3.1-P).
3.3. Análisis de la melodía
La representación acústica de la melodía viene dada por la evolución temporal
de la frecuencia del fundamental. Ésta representación se denomina curva melódica
(pitch contour) y puede obtenerse a partir de herramientas de análisis acústico que
detectan, mediante diversas técnicas, las variaciones de frecuencia fundamental (f0)
a lo largo del tiempo.
En (Schönweiler et al., 1996) se clasificaron las formas melódicas en 6 categorías
que son: ascendente, descendente, ascendente-descendente, descendente-ascendente,
plana y sin forma melódica (Figura 3.2).
Coordinación de Ciencias Computacionales Instituto Nacional de Astrofísica, Óptica y Electrónica
3.3 Análisis de la melodía 33
Figura 3.3: Ejemplos de la obtención de melodías de llantos representadas por FLM
En (Várallyay et al., 2009b) se presenta un método novedoso para visualizar las
melodías del llanto infantil llamado FLM y un sistema de clasificación de melodías
del llanto infantil. Como resultado del trabajo presentan un top 20 (Figura 3.3) de
categorías que cubren el 93 % de 580 melodías analizadas. A continuación se describe
éste método.
3.3.1. Método FLM (Five Line Method)
El FLM es un método objetivo para visualizar las melodías del llanto infantil,
propuesto en (Várallyay et al., 2009b), es similar al pentagrama musical, pero este
método aplica una escala logarítmica a los valores de frecuencia y estos valores se
fijan en cada una de las cinco líneas. La Figura 3.3 muestra algunos ejemplos de la
obtención de melodías, visualizadas por FLM.
En (Várallyay et al., 2009b) se afirma que utilizando FLM las melodías se pueden
leer fácilmente de las figuras, es fácil determinar, si se trata de una melodía de baja
o alta frecuencia, corta o larga duración, si es una melodía simple o compleja.
Después de observar la forma de 580 melodías los autores comprobaron que las
seis categorías establecidas por (Schönweiler et al., 1996), cubrieron únicamente el
70 % de las melodías analizadas ya que algunas tenían formas más complejas.
El funcionamiento del FLM está basado en la detección de la melodía en las
formas elementales: ascendente (+1), plana (0), descendente (-1). Y las categorías
son definidas por el orden de éstas unidades. De acuerdo a éste sistema, todas las
Identificación Automática de Características Cualitativas del Llanto Infantil
34 3. Estado del arte
Figura 3.4: Ilustrando las melodías más comunes de los 580 llantos analizados.
melodías pueden ser descritas como una combinación de las formas elementales. Así,
los nombres de las nuevas categorías de las melodías analizadas, son creadas siguiendo
el orden de las formas elementales.
Por ejemplo, en la Figura 3.3 en la grabación CR0265-09.wav se puede observar
una melodía de tipo ascendente-descendente. El FLM funciona de la siguiente manera:
la f0 de la señal inicia con un valor entre 330 Hz y 400 Hz, en los primeros 0.5s el valor
de la f0 pasa al renglón superior fijado con 480Hz, por lo que se codifica un (1), en
los siguientes 0.5s el valor de la f0 baja, y se posiciona nuevamente entre los 330Hz y
400Hz, por lo que se codifica un (-1) y finaliza la señal. De esta manera, la categoría
asignada a esta melodía es: (1,-1).
Con este sistema de clasificación, se encontraron un total de 39 categorías para
las 580 melodías analizadas, de las cuales 20 incluyen el 93 % del total de melodías
analizadas. La distribución de este top 20 de categorías y los esquemas de sus formas
se muestran en la Figura 3.4.
La categoría más típica fue (1 -1) con 933 casos (31 % de las melodías). Hay otras
tres categorías más: (-1), (1), y (0 -1), con el 20 %, 11 %, y 9 % de ocurrencia.
Coordinación de Ciencias Computacionales Instituto Nacional de Astrofísica, Óptica y Electrónica
3.4 Conclusiones del Estado del Arte 35
3.4. Conclusiones del Estado del Arte
En la actualidad el análisis cualitativo del llanto continúa realizándose de forma
manual. Es hasta finales del 2009 que empiezan a surgir los primeros intentos por
automatizar éste proceso, con el trabajo de (Várallyay et al., 2009b), el cual brinda
una caracterización de las formas melódicas.
Como se ha mencionado antes, un paso previo a la identificación de características
cualitativas es la detección de unidades de llanto. La cual se sigue realizando de forma
manual. En el trabajo de (Várallyay et al., 2009a), se propone un sistema que permite
automatizar esta tarea con buenos resultados. Sin embargo, aún no está disponible
para uso público.
Para el proceso de identificación de características cualitativas, tenemos el traba-
jo de (Várallyay et al., 2009b), donde se propone el método FLM que brinda una
caracterización para la forma melódica. Sin embargo, en el FLM los valores de la
frecuencia fundamental de las unidades de llanto, están sujetos a una escala de 330Hz
a 700Hz. Algunos llantos de infantes con algún tipo de patología, están por encima
o por debajo de ésta escala. Además, en la frecuencia fundamental de las señales, se
pueden dar cambios abruptos de más de 600Hz, y con el FLM, las unidades de llanto
no lograrían ser caracterizadas de forma correcta. Otro punto que cabe señalar, es que
se utiliza una nueva forma para caracterizar a la melodía, lo cual no deja de ser váli-
do, pero se tiene que estudiar si algunos de éstos nuevos patrones caracterizan alguna
patología. Los resultados mostrados por el método FLM son categorías formadas por
los caracteres -1, 0 y 1 y la longitud de la codificación depende de la duración de la
unidad de llanto. Los resultados mostrados por el método propuesto son: melodía de
tipo ascendente, descendente, ascendente-descendente, descendente-ascendente, plana
y sin forma melódica. Ésta última es una descripción lingüística, que consideramos
facilita a los médicos expertos conocer la tendencia general de las unidades de llanto.
Además, con la descripción dada en el método propuesto, los médicos expertos son
capaces de identificar los llantos normales y los llantos con tendencia a patológicos.
Identificación Automática de Características Cualitativas del Llanto Infantil
36 3. Estado del arte
Coordinación de Ciencias Computacionales Instituto Nacional de Astrofísica, Óptica y Electrónica
Capítulo 4
Propuesta de solución
En este capítulo se describe la propuesta de solución al problema de detección
automática de unidades de llanto, al problema de identificación automática de carac-
terísticas cualitativas y al problema de diagnóstico.
A continuación se describe paso a paso la metodología llevada a cabo:
4.1. Selección de características cualitativas
Para la selección de las características cualitativas más relevantes que permiten
diferenciar llantos normales y patológicos, nos basamos en el estudio realizado en el
estado del arte, así como en la opinión de los médicos expertos. Se llegó a la conclusión
de que las características cualitativas más relevantes que permiten identificar alguna
anormalidad en los llantos son las siguientes:
Forma melódica: Clasificada como: ascendente, descendente, ascendente-
descendente, descendente-ascendente, plana y sin forma melódica.
Desplazamiento o Shift.
Deslizamiento o Glide.
Concentración de ruido.
4.2. Definición de llanto normal y patológico
Para poder presentar un diagnóstico, era necesario establecer las características
que presentaban tanto los llantos normales como los patológicos, así que de acuerdo
con el estado del arte se tienen las siguientes definiciones:
[37]
38 4. Propuesta de solución
El llanto de un infante sano o normal está definido como:
Llanto con valores promedio de la F0 de 450Hz, con rango de 400-600Hz (Mi-
chelsson et al., 2007) (Reyes et al., 2009) (Várallyay et al., 2009a) (Makói et al.,
1975).
La forma melódica que prevalece es ascendente-descendente (Michelsson et al.,
2007)(Hirschberg et al., 1982).
Llantos mayormente sonoros.
Por otra parte el llanto patológico está definido como:
Llanto con valores extremos de la f0.
Las formas melódicas que prevalecen son descendente, descendente-ascendente,
plana y sin forma melódica.
Existe mayor ocurrencia de deslizamientos y desplazamientos.
4.3. Medidas de las características cualitativas
Para poder identificar automáticamente las características cualitativas, es nece-
sario cuantificarlas. De manera que las medidas asignadas a las características cua-
litativas fueron tomadas basándonos en algunos trabajos previos, y algunas de ellas
fueron asignadas experimentalmente y con la ayuda de los médicos expertos.
La cuantificación de las características cualitativas quedó definida de la siguiente
forma:
Forma melódica: Para poder describir la forma melódica se tomaron en cuenta
cambios en la F0, de al menos 40Hz en 50ms.
Shift: Está definido como un incremento o decremento de la frecuencia fun-
damental de al menos 100Hz y menor a 600Hz, con duración mínima de
0.1seg.(Lind et al., 2002)
Glide: Está definido como incremento o decremento de la frecuencia fundamental
de al menos 600Hz, con duración mínima de 0.1seg. (Lind et al., 2002)
Coordinación de Ciencias Computacionales Instituto Nacional de Astrofísica, Óptica y Electrónica
4.4 Esquema general 39
Figura 4.1: Esquema general del método propuesto.
Concentracion de ruido: Está definida por altos picos energéticos usualmente de
2000-2500Hz, además esta característica no posee frecuencia fundamental.(Lind
et al., 2002)
4.4. Esquema general
La figura 4.1 muestra de manera general la metodología llevada a cabo. De la
base de datos Chillanto, compuesta por llantos de asfixia, hiperbilirrubinemia, sordos,
normales y de alto riesgo, se tomaron muestras con una mayor a 15 segundos y menor
igual a 30 segundos, ya que según la opinión de los médicos expertos, es el tiempo
necesario y suficiente para realizar un análisis cualitativo. Una vez seleccionadas las
muestras se efectuó una normalización a 8000Hz, 16 bits, formato monoaural.
El paso siguiente fue efectuar la detección de unidades de llanto. Se determinó un
umbral, el cual fue aplicado a la energía de la señal, así como un umbral para eliminar
los sonidos inspiratorios, los cuales no son útiles para el análisis de características
cualitativas. Se obtuvo la duración en segundos, el tiempo de inicio y fin de cada
unidad de llanto.
Identificación Automática de Características Cualitativas del Llanto Infantil
40 4. Propuesta de solución
Para cada unidad de llanto detectada se realizó lo siguiente:
Se obtuvo su frecuencia fundamental.
Con los valores de la frecuencia fundamental, se verificó la presencia de una
concentración de ruido.
De no haber concentración de ruido. La unidad de llanto se posiciona en el
dodecagrama.
Se obtuvo un código de cadena.
Se interpretaron los dígitos del código de cadena, para obtener el tipo de melo-
día.
Se verificó la presencia de shifts y glides.
Finalmente, basados todas las características cualitativas identificadas en la gra-
bación de llanto se emitió el diagnóstico: llanto normal o llanto con tendencia a
patológico, mediante la aplicación de una regla.
A continuación se detallan cada uno de los pasos anteriores.
4.5. Detección de unidades de llanto
En el análisis del llanto infantil, las unidades de llanto son las partes más im-
portantes de una grabación, ya que contienen la información que es de utilidad para
analizar el llanto del infante.
En la actualidad, en el análisis del llanto infantil la detección de unidades de
llanto se lleva a cabo de forma manual. Los médicos expertos en el área basados en
su percepción visual y auditiva realizan la detección de unidades de llanto. Primero,
se obtiene el espectrograma de la señal, y después se selecciona la parte donde se
visualiza la unidad de llanto, y se verifica que realmente se trata de un sonido de
llanto escuchando dicho segmento. Éste segundo paso, de selección y verificación se
repite hasta el final de la grabación.
La detección de unidades de llanto, se lleva a cabo con la finalidad de realizar un
análisis posterior, tal es el caso de (Michelsson et al., 2002), en el cual se analiza la
Coordinación de Ciencias Computacionales Instituto Nacional de Astrofísica, Óptica y Electrónica
4.5 Detección de unidades de llanto 41
duración media de las señales de llanto, la media de la frecuencia fundamental de los
llantos así como su forma melódica.
En las grabaciones se encuentran sonidos que no son de utilidad para el análisis del
llanto infantil. Tal es el caso de los sonidos producidos por el ambiente o los sonidos
inspiratorios. Éstos últimos, son generados cuando el infante toma aire para llenar
sus pulmones y en la mayoría de los casos, no son útiles para el análisis del llanto.
Otros puntos importantes y que se debe tomar en cuenta son: La variedad de
ambientes y dispositivos en los que se adquieren las grabaciones. Los diferentes tipos
de llanto, ya que en las grabaciones pueden presentarse llantos con pitch alto, con pitch
bajo, llantos graves, llantos agudos, etc. Y finalmente, la variación de la intensidad,
ya que el infante puede reducir o aumentar la intensidad de su llanto en la misma
grabación.
Entonces, la detección de llanto está definida como un procedimiento mediante el
cual los sonidos de llanto son seleccionados y separados de la grabación. La detección
de llanto se ha llevado a cabo manualmente en varios trabajos como (Michelsson et al.,
1999)(Wermke et al., 2002b). También, con el fin de facilitar este arduo procedimiento,
se ha intentado usar software orientado a la detección de habla. Pero no se ha logrado
obtener los resultados esperados debido a que las señales de llanto y las señales de
habla son diferentes.
De forma semejante a la detección del habla en la que se eligen los puntos inicial y
final de cada palabra. En la detección de llanto el objetivo es elegir el punto de inicio
y el punto final de un segmento de llanto. Al igual que las palabras los segmentos
de llanto contienen una energía relativamente más grande que los segmentos sordos,
aproximadamente éstos segmentos tienen una energía 4 veces mayor que los segmentos
sordos(Saratxaga et al., 2006), debido a esta afirmación se recurrió a realizar un
análisis del contenido de energía de la señal aplicando la función de energía a corto
tiempo.
4.5.1. Método desarrollado para la detección automática de
unidades de llanto
Un método para la detección automática del llanto infantil debe tomar en cuenta
las siguientes consideraciones para lograr un buen funcionamiento (Várallyay et al.,
2009a):
Identificación Automática de Características Cualitativas del Llanto Infantil
42 4. Propuesta de solución
La distancia entre los sonidos inspiratorios y los segmentos de grabación por lo
regular es menor a los 100ms, por lo cual se recomienda hacer un ventaneo con
un máximo de 50ms.
En general la energía de los segmentos sonoros e inspiratorios es claramente más
grande que en los segmentos sordos.
Las grabaciones de llanto son grabadas en diferentes ambientes y con diferentes
dispositivos, por lo que se debe de determinar un umbral de energía para cada
grabación.
Tomando en cuenta éstos aspectos, en este trabajo se desarrolló un método que
permite la detección automática de unidades de llanto en diversos tipos de grabación,
el cual fue implementado en MATLAB.
Se aplica un umbral a la energía de la señal. Éste umbral se define automáticamente
para cada grabación analizada. Y se define otro umbral aplicado a la duración de
las unidades de llanto detectadas. Éste último umbral, permite eliminar los sonidos
inspiratorios o sonidos que no son útiles para un análisis posterior.
Basados en pruebas experimentales se determinó que las unidades de llanto me-
nores a 200ms son sonidos de muy corta duración, y que no aportan información útil
para un análisis posterior, ya que en estas unidades de llanto es muy difícil determinar
características de interés para los médicos, como lo es la forma melódica.
Con la eliminación de estos segmentos se logra también la eliminación de los
sonidos inspiratorios, sonidos que no superan los 200ms. Así, que el umbral aplicado
a la duración de la señal queda definido en 200ms. Por lo cual nos queda definir el
umbral aplicado a la energía de la señal, el cual, basados en (Saratxaga et al., 2006)
y en nuestros experimentos quedó definido de la siguiente manera:
Threshold =E
n
4(4.5.1)
Donde En
es la energía media de la señal.
En la figura 4.2 se muestra paso a paso el funcionamiento del método propuesto.
En la figura 4.2(a) se muestra la señal de la grabación, como se puede observar hay
5 unidades de llanto y 5 sonidos menores a 200ms, en la figura 4.2(b) se muestra
el espectrograma de la señal, en la figura 4.2(c) se muestran las unidades de llanto
Coordinación de Ciencias Computacionales Instituto Nacional de Astrofísica, Óptica y Electrónica
4.5 Detección de unidades de llanto 43
(a) Señal (b) Espectrograma
(c) Unidades de llanto detectadas (d) Unidades de llanto finales
Figura 4.2: Pasos para la detección de unidades de llanto.
detectadas utilizando el umbral de energía, finalmente, en la figura 4.2(d) se muestran
las unidades de llanto detectadas eliminando los segmentos menores a 200ms.
Teniendo detectadas las unidades de llanto, éstas son separadas de la grabación y
se obtienen los siguientes atributos: tiempo de inicio de la unidad de llanto, tiempo
de fin de la unidad de llanto, duración en segundos, número de unidades de llanto en
una grabación, duración total de las unidades de llanto detectadas en una grabación,
los cuales son útiles a los médicos expertos para realizar análisis posteriores.
Las grabaciones fueron obtenidas con distintos dispositivos y en diferentes am-
bientes. En las figuras 4.3 y 4.4 se muestran las señales y los espectrogramas de
las grabaciones 88.wav y 103.wav respectivamente. En la primera se puede observar
que la grabación contiene muy poco ruido. Ya que en el espectrograma se pueden
distinguir a simple vista las unidades de llanto y sus armónicos. Mientras que en la
segunda figura la cantidad de ruido aumenta considerablemente. En el espectrograma
son menos visibles tanto las unidades de llanto como los armónicos de la señal. Sin
embargo, se obtuvieron buenos resultados con la detección automática de unidades
de llanto en ambos casos.
Identificación Automática de Características Cualitativas del Llanto Infantil
44 4. Propuesta de solución
(a) Señal (b) Espectrograma
Figura 4.3: Señal y espectrograma de la muestra 88.wav.
(a) Señal (b) Espectrograma
Figura 4.4: Señal y espectrograma de la muestra 103.wav.
Coordinación de Ciencias Computacionales Instituto Nacional de Astrofísica, Óptica y Electrónica
4.6 Identificación automática de características cualitativas 45
4.6. Identificación automática de características cua-
litativas
4.6.1. Concentración de ruido
Para la identificación de la concentración de ruido se utilizó un método sencillo.
Se ha descrito que un incremento en dolor induce una transición caótica en la osci-
lación de las cuerdas vocales de recién nacidos. Cuando una concentración de ruido
se presenta en una unidad de llanto la frecuencia fundamental (f0) se disipa (Reyes
et al., 2009). Entonces, al extraer la f0 de una concentración de ruido, el valor de la f0
es 0 en cada ventana. La duración mínima definida para una concentración de ruido
fue de 200ms. De esta forma, si en 4 ventanas consecutivas (cada ventana de 50ms)
el valor de la f0 era 0, se consideraba una concentración de ruido.
4.6.2. Tipo de melodía
Para la identificación del tipo de melodía, se implementó un método basado en
(Várallyay et al., 2009b) al cual llamamos Método del Dodecagrama, ya que consiste
de doce líneas horizontales, sobre las cuales, se sobrepone la frecuencia fundamental
de la señal.
Una vez detectadas las unidades de llanto y verificando que no son concentraciones
de ruido, se inicia la identificación del tipo de melodía. La figura 4.5 muestra el
funcionamiento del método propuesto.
La f0 de cada unidad de llanto se posiciona al centro de las líneas f y g, el valor de
las líneas está determinado por el valor de la frecuencia fundamental de la primera
ventana, el siguiente paso es codificar la f0 de la unidad de llanto, mediante las
siguientes reglas:
1 si el valor de la frecuencia fundamental pasa a un renglón superior.
0 si el valor de la frecuencia fundamental se mantiene en el mismo renglón.
-1 si el valor de la frecuencia fundamental pasa a un renglón inferior.
La figura 4.5 muestra en la parte superior el código correspondiente a la f0 de la
unidad de llanto mostrada, como se puede observar la f0 de la unidad de llanto en la
Identificación Automática de Características Cualitativas del Llanto Infantil
46 4. Propuesta de solución
Figura 4.5: Método del dodecagrama.
primera ventana (50ms) pasa a g, en la siguiente (100ms) pasa a h, en la siguiente
(150ms) se mantiene en h, en la siguiente (200ms) pasa a g, en la siguiente (250ms)
pasa a f, y finalmente (300ms) pasa a e. Quedando el código: [1, 1, 0, -1, -1, -1].
El número 1 corresponde a un incremento de la frecuencia fundamental de la
señal (incremento >40Hz), el 0 sin cambios relevantes en la frecuencia fundamental
(cambios <40 Hz) , y el -1 a un decremento de la frecuencia fundamental (decremento
>40Hz).
Una vez obtenido el código de cada unidad de llanto de la grabación, resta por
determinar el tipo de melodía que les corresponde. Así que, para cada código de cada
unidad de llanto se siguieron los siguientes pasos:
Si todos los dígitos del código son 0’s se determina que el tipo de melodía es
plana.
Si el tipo de melodía no es plana. Se eliminan los 0’s del código, para quedarnos
sólo con los 1’s y -1’s. Esto es debido a que el 0 describe que no hay cambio
en la f0, y lo que se desea es determinar si la melodía asciende o desciende en
algún punto.
Como siguiente paso, se reducen los vectores tal y como se muestra en la figura
4.6. Los dígitos iguales y consecutivos se reducen en un sólo dígito. Lo cual nos
facilita la descripción lingüística del tipo de melodía. Por ejemplo: Se tienen
Coordinación de Ciencias Computacionales Instituto Nacional de Astrofísica, Óptica y Electrónica
4.6 Identificación automática de características cualitativas 47
Figura 4.6: Reducción del código.
los siguientes códigos a) -1,-1,-1,1,1,1 y b)-1,-1,1,1. Al hacer la reducción de
código, obtendríamos -1,1 para los dos códigos. Lo que un médico describiría
como melodía descendente-ascendente, no importando el tamaño del código.
Finalmente, se busca el tipo de melodía correspondiente al código reducido, de
la siguiente manera:
• (1): Melodía ascendente.
• (-1): Melodía descendente.
• (1,-1): Melodía ascendente-descendente.
• (-1,1): Melodía descendente-ascendente.
• Los códigos reducidos con más de 2 dígitos se consideran: Sin forma meló-
dica.
La unidad de llanto que se muestra en la Figura 4.5 corresponde a una forma
melódica de tipo: ascendente-descendente.
4.6.3. Shifts y Glides
Shifts: Para detectar los shifts se miden las diferencias de las frecuencias funda-
mentales a lo largo de la señal, si la diferencia sobrepasa los 100Hz y es menor
a los 600Hz, se considera shift (puede haber más de uno en la misma unidad de
llanto).
Glides: Para detectar los glides se miden las diferencias de las frecuencias funda-
mentales a lo largo de la señal, si la diferencia sobrepasa los 600Hz se considera
glide (puede haber más de uno en la misma unidad de llanto).
Identificación Automática de Características Cualitativas del Llanto Infantil
48 4. Propuesta de solución
4.7. Diagnóstico
La literatura especializada hace referencia a que el llanto en el niño cambia ante
condiciones patológicas. A menudo familiares del infante notan estos cambios cuando
el niño se enferma. Entre las patologías y condiciones patológicas en las que se ha
estudiado el llanto infantil se encuentran las relacionadas con anormalidades cromo-
sómicas (llanto del maullido de gato o cri du chat, síndrome de Down), desórdenes
endócrinos (hipotiroidismo congénito), desórdenes metabólicos (hiperbilirrubinemia
e hipoglicemia), daño cerebral (encefalitis, meningitis), síndrome de muerte súbita
infantil, bajo peso al nacer, prematuridad, asfixia, malnutrición, síndrome de malfor-
maciones y enfermedades del tracto orolaringeo (labio endido). Otros estudios han
incluido el llanto en niños con madres que se suministran drogas, etc. Un propósito
importante ante condiciones patológicas, además de considerar los cambios que ocu-
rren del patrón normal hacia el anormal, es conocer cuáles características o atributos
y sus rangos de valores en el llanto pueden ser alterados por dichas condiciones.
En general el llanto patológico está asociado a las siguientes características:
Valores extremos e inestables en el pitch.
Una pobre calidad vocal del llanto, debido a la dispersión de los componentes
armónicos y su incapacidad de sostener un tono armónico, se sostiene la hipótesis
de que la pérdida de estabilidad armónica puede ser causada por una pérdida
del control de la simetría entre los pliegues vocales derecho e izquierdo en el
infante patológico.
El tipo de melodía cambia de ascendente o ascendente-descendente a descen-
dente, descendente-ascendente o plana, según el caso.
A veces no es posible detectar el tipo de melodía, ocurriendo shifts, bifonaciones
y glides.
De acuerdo a estas características, a la definición de llanto patológico dada con
anterioridad, y a la opinión de los médicos expertos se determinó que:
Si un llanto tiene tipo de melodía descendente, descendente-ascendente, o sin forma
melódica, ademas de tener shifts, y glides en más del 30 % del llanto, el llanto es
considerado como: llanto con tendencia a patológico.
En el capítulo 5 se muestran los resultados obtenidos al aplicar esta regla.
Coordinación de Ciencias Computacionales Instituto Nacional de Astrofísica, Óptica y Electrónica
Capítulo 5
Resultados experimentales
A continuación se presentan los resultados obtenidos por los métodos propuestos.
En la primera sección se presentan los resultados obtenidos por el método de detección
automática de unidades de llanto. En la segunda sección se presentan los resultados
obtenidos para la identificación de unidades de llanto y como forma de comparación
también se presentan los resultados obtenidos con el método FLM propuesto en Vá-
rallyay et al. (2009b) para la caracterización del tipo de melodía. Finalmente, en la
sección diagnóstico se hace un análisis de las características cualitativas identificadas
con el fin de emitir un diagnóstico y se presenta una forma de reforzar el diagnóstico
llevando a cabo un análisis cuantitativo.
5.1. Detección automática de unidades de llanto
El método propuesto para la detección automática de unidades de llanto se probó
con dos conjuntos de muestras. El primer conjunto consta de 20 muestras, y fue
obtenido de la base de datos Chillanto, con llantos de infantes mexicanos. El segundo
conjunto consta de 13 muestras, y fue de una base de datos de llantos de infantes
cubanos. Los dos conjuntos de muestras son de infantes clasificados como sanos. Todas
las muestras de llantos cubanos tienen una duración de 12 segundos, debido a esto,
sólo se tomaron los primeros 12 segundos de las muestras de infantes mexicanos.
Con el método propuesto se detectaron automáticamente 182 unidades de llanto
del conjunto de infantes mexicanos y 65 unidades de llanto del conjunto de infantes
cubanos.
Los resultados obtenidos se compararon con la detección manual llevada a cabo
por los médicos expertos en el análisis del llanto infantil pertenecientes al Instituto
[49]
50 5. Resultados experimentales
Nacional de Rehabilitación (INR).
En la tabla 5.1 y 5.2 se muestran los resultados de la detección manual y auto-
mática para el conjunto de llantos de infantes mexicanos e infantes cubanos, respec-
tivamente. En la columna Muestra, están los nombres de las grabaciones de llanto.
La columna Detección manual, muestra el número de unidades de llanto obtenidas
por los médicos expertos mediante la detección manual. La columna Detección auto-
mática, muestra el número de unidades de llanto obtenidas con el método propuesto.
La columna Porcentaje de acierto, muestra el porcentaje de acierto que se obtuvo
con el método propuesto respecto a la detección manual. Finalmente, las últimas dos
columnas muestran el número de falsos positivos y falsos negativos obtenidos con el
método propuesto.
Como se puede observar el método propuesto arroja buenos resultados teniendo
un porcentaje de acierto respecto a la detección manual del 96.55 %. Cabe mencionar
que no se tomó en cuenta la exactitud con la que se detectó el inicio y el final de cada
unidad de llanto, solo se verificó que las unidades de llanto detectadas efectivamente
coincidieran con las unidades de llanto detectadas manualmente.
Como se puede observar en las tablas, el método de detección automática de uni-
dades de llanto, logra un buen desempeño. Aún cuando las muestras de los llantos
mostrados en las tablas, provienen de distintos dispositivos y fueron grabadas en di-
ferentes ambientes. Un ejemplo se puede observar en las Figuras 4.3 y 4.4 donde
se muestran las señales y los espectrogramas de las muestras 88.wav y 103.wav res-
pectivamente. En la primera muestra se puede observar que la señal contiene poca
cantidad de ruido, mientras que en la segunda muestra, la cantidad de ruido aumenta
considerablemente. Sin embargo, en ambas muestras se obtuvieron buenos resultados
con el método de detección automática de unidades de llanto, logrando detectar de
forma correcta todas las unidades de llanto contenidas en las muestras.
5.2. Identificación automática de características cua-
litativas
El método propuesto para la identificación automática de características cualita-
tivas se probó con un conjunto etiquetado de unidades de llanto. Éste conjunto fue
etiquetado manualmente por los médicos expertos del INR. Las unidades de llanto
Coordinación de Ciencias Computacionales Instituto Nacional de Astrofísica, Óptica y Electrónica
5.2 Identificación automática de características cualitativas 51
Muestra Detección Detección Porcentaje Falsos Falsosmanual automática de acierto negativos positivos
026.wav 10 10 100 % 0 0028.wav 8 8 100 % 0 0067.wav 12 12 100 % 0 0079.wav 10 10 100 % 0 0083.wav 9 9 100 % 0 0084.wav 5 5 100 % 0 0087.wav 10 9 80 % 1 0088.wav 10 10 100 % 0 0090.wav 6 6 100 % 0 0091.wav 14 14 100 % 0 0094.wav 5 5 100 % 0 0096.wav 12 12 100 % 0 0097.wav 13 13 100 % 0 0098.wav 5 5 100 % 0 0099.wav 13 13 100 % 0 0100.wav 13 13 100 % 0 0101.wav 7 7 100 % 0 0103.wav 8 8 100 % 0 0105.wav 10 9 80 % 1 0113.wav 7 9 71 % 0 2Total 187 187 96.55 % 2 2
Tabla 5.1: Detección manual y automática para el conjunto de llantos de infantes mexicanos.
Identificación Automática de Características Cualitativas del Llanto Infantil
52 5. Resultados experimentales
Muestra Detección Detección Porcentaje Falsos Falsosmanual automática de acierto negativos positivos
C020812.wav 6 6 100 % 0 0C060812.wav 5 5 100 % 0 0C070812.wav 4 4 100 % 0 0C150812.wav 3 3 100 % 0 0C170812.wav 5 5 100 % 0 0C200812.wav 4 4 100 % 0 0C210812.wav 3 3 100 % 0 0C240812.wav 7 9 71 % 0 2C250812.wav 7 9 71 % 0 2C280812.wav 6 6 100 % 0 0C290812.wav 3 3 100 % 0 0C300812.wav 6 6 100 % 0 0C310812.wav 2 2 100 % 0 0Total 61 65 95.53 % 0 4
Tabla 5.2: Detección manual y automática para el conjunto de llantos de infantes cubanos.
que conforman el conjunto etiquetado fueron tomadas de manera aleatoria de entre
todas las clases de la base de datos Chillanto.
Con el método propuesto se identificaron automáticamente 238 características
cualitativas, y los resultados se compararon con la identificación manual realizada
por los médicos expertos.
En la tabla 5.3 se muestran los resultados obtenidos. La columna Característica
cualitativa, muestra las características cualitativas que son posibles de identificar au-
tomáticamente. Donde M. = melodía, As = ascendente, Des = descendente, Sfm=
sin forma melódica y C = concentración. La columna Identificación manual, muestra
el número de características cualitativas identificadas manualmente por los médicos
expertos. La columna Identificación automática, muestra el número de características
cualitativas identificadas automáticamente mediante el método propuesto. La colum-
na Porcentaje de acierto, muestra el porcentaje de acierto obtenido con el método
propuesto respecto a la identificación manual. Finalmente la columna Observaciones,
muestra las características cualitativas identificadas automáticamente y que difieren
de la identificación manual. Cabe menciona que se graficó la f0 de las características
cualitativas identificadas automáticamente que aparecen en la columna Observaciones
Coordinación de Ciencias Computacionales Instituto Nacional de Astrofísica, Óptica y Electrónica
5.2 Identificación automática de características cualitativas 53
Característica Identificación Identificación Porcentaje Observacionescualitativa manual automática de aciertoM. Ascendente 36 35 97.22 1 as-desM. Descendente 36 32 88.89 2 des-as, 1 as-des, 1 planaM. As-Des 58 50 86.21 1 as, 1 des, 6 sfm.M. Des-As 18 16 88.89 2 sfmM. Plana 34 29 85.29 1 des, 4 sfmSfm 33 29 87.88 1 plana, 2 des, 1 des-ascShift 6 6 100.00Glide 2 2 100.00C. de Ruido 15 12 80.00 3 sfm
Total 90.49
Tabla 5.3: Identificación manual y automática de las características cualitativas etiquetadas por losmédicos expertos del INR, utilizando el método propuesto.
y se verificó que la identificación automática fue correcta.
Como se puede observar el método arroja buenos resultados teniendo un porcen-
taje de acierto respecto a la identificación manual del 90.49 %.
Como otra forma de comparación, el conjunto de unidades de llanto etiqueta-
do que se utilizó anteriormente para la identificación automática de características
cualitativas fue utilizado para evaluar el desempeño del método FLM propuesto en
(Várallyay et al., 2009b).
Los resultados obtenidos se muestran en la tabla 5.4. La columna Característica
cualitativa muestra las características cualitativas que son posibles de identificar au-
tomáticamente, mediante el método FLM. Donde M. = melodía, As = ascendente y
Des = descendente. La columna Identificación manual, muestra el número de caracte-
rísticas cualitativas identificadas manualmente por los médicos expertos. La columna
Detección automática, muestra el número de características cualitativas identificadas
automáticamente mediante el método FLM. La columna Porcentaje de acierto, mues-
tra el porcentaje de acierto obtenido con el método FLM respecto a la identificación
manual. Y finalmente la columna Observaciones muestra el número de unidades de
llanto que no pudieron ser identificadas con el método FLM.
Como se puede observar el método FLM logra un porcentaje de acierto del 50.27 %,
la causa principal de su bajo rendimiento son los valores propuestos para el rango de
la F0 (330Hz-700HZ). La f0 de algunas unidades de llanto del conjunto etiquetado,
Identificación Automática de Características Cualitativas del Llanto Infantil
54 5. Resultados experimentales
Característica Identificación Identificación Porcentaje Observacionescualitativa manual automática de aciertoM. Ascendente 36 21 58.33 6 fuera de rango.M. Descendente 36 18 50.00 13 fuera de rango.M. As-Des 58 34 58.62 10 fuera de rango.M. Des-As 18 6 33.33 4 fuera de rango.M. Plana 34 19 55.88Sin forma melódica 33 15 45.45 5 fuera de rango.
50.27
Tabla 5.4: Identificación manual y automática para las características cualitativas etiquetadas por losmédicos del INR, utilizando el método FLM propuesto en (Várallyay et al., 2009b).
estuvo por debajo o por encima de los valores propuestos en la escala del método del
FLM, debido a esto no fue posible caracterizar su forma melódica.
5.3. Diagnóstico
El diagnóstico de un llanto en el presente trabajo, consiste en determinar si un
llanto tiene tendencia patológica o si se trata de un llanto de un infantil sano. El
experimento consistió en identificar las características cualitativas de cada clase de la
base de datos Chillanto. Las clases que se evaluaron en este experimento son: Asfixia,
Alto riesgo, Hiperbilirrubinemia, Sordera, Sanos. Cada muestra con una duración
mínima de 15 segundos y máxima de 30 segundos, que es considerada la duración
necesaria y suficiente para un análisis cualitativo.
La nomenclatura usada en las tablas es la siguiente:
as: melodía ascendente
des: melodía descendente
a-s: melodía ascendente-descendente
d-a: melodía descendente-ascendente
plana: melodía plana
sfm: sin forma melódica
Coordinación de Ciencias Computacionales Instituto Nacional de Astrofísica, Óptica y Electrónica
5.3 Diagnóstico 55
s: desplazamiento o shift
g: deslizamiento o glide
cr: concentración de ruido
El primer paso fue detectar las unidades de llanto de cada muestra de cada clase.
Las unidades de llanto detectadas para cada clase se pueden observar en la columna
Unidades de las tablas 5.5 a la 5.9. Un total 13 unidades de llanto no se detectaron
correctamente, debido a que las muestras contenían gran cantidad de ruido. Éstas
muestras no se tomaron en cuenta para el análisis cualitativo y se describen a con-
tinuación: De las muestras de Asfixia, no se tomó en cuenta la muestra 005. De las
muestras de Alto riesgo no se tomaron en cuenta las muestras 005, 007, 008, 010, 017,
018, 021, 023 y 028. De las muestras de Hiperbilirrubinemia no se tomaron en cuenta
las muestras 007 y 008. Finalmente de las muestras de Sordera no se tomó en cuenta
la muestra 027.
Una vez que se llevó a cabo la detección automática de unidades de llanto, el paso
siguiente fue la identificación automática de características cualitativas utilizando
el método propuesto. Los resultados se muestran en las tablas 5.5 a la 5.9. Donde
tenemos que: La primera columna muestra el nombre de las muestras contenidas
en la clase. La columna unidades de llanto, muestra las unidades de llanto obtenidas
automáticamente con el método propuesto para cada muestra. La columna as, muestra
cuántas unidades de llanto son de melodía tipo ascendente. La columna des, muestra
cuántas unidades de llanto son de melodía tipo descendente. La columna a-d, muestra
cuántas unidades de llanto son de melodía tipo ascendente-descendente. La columna
d-a, muestra cuántas unidades de llanto son de melodía tipo descendente-ascendente.
La columna plana, muestra cuántas unidades de llanto son de melodía plana. La
columna sfm, muestra cuántas unidades de llanto son sin forma melódica. La columna
s, muestra cuántas unidades de llanto contienen shifts. La columna g, muestra cuántas
unidades de llanto contienen glides. La columna cr, muestra cuántas unidades de llanto
contienen concentraciones de ruido. Finalmente, la fila Promedio, muestra el promedio
de todas las columnas de la tabla.
Para el caso de la Tabla 5.5, de muestras de llantos de Asfixia, tenemos que la ca-
racterística cualitativa que más se presenta es shift con un promedio del 13.6, seguida
con un 7.8 de la característica de sin forma melódica y como tercer lugar tenemos
Identificación Automática de Características Cualitativas del Llanto Infantil
56 5. Resultados experimentales
Muestra Unidades as des a-d d-a plana sfm s g cr001 19 5 3 1 1 5 3 17 3 5002 22 3 2 5 2 1 8 16 6 2003 14 2 2 5 0 0 5 4 0 0004 20 2 0 4 1 0 13 15 9 2006 22 2 5 1 1 2 10 16 6 4
Promedio 19.4 2.8 2.4 3.2 1 1.6 7.8 13.6 4.8 2.6
Tabla 5.5: Identificación automática de características cualitativas para las muestras de Llantos clasi-ficados como Asfixia, utilizando el método propuesto.
Muestra Unidades as des a-d d-a plana sfm s g cr002 26 0 4 3 3 3 13 26 2 3003 9 0 0 0 0 0 9 9 6 7004 8 0 0 1 0 0 7 8 4 8009 10 0 0 1 0 0 9 10 9 2011 25 4 5 7 1 0 7 24 6 2012 21 0 1 3 0 1 16 20 12 2013 9 0 0 1 0 0 8 9 1 6016 8 0 0 0 0 0 8 8 4 1019 7 1 0 0 0 0 6 7 5 5022 8 0 2 0 0 0 6 8 2 5
Promedio 13.1 0.5 1.2 1.6 0.4 0.4 8.9 12.9 5.1 4.1
Tabla 5.6: Identificación automática de características cualitativas para las muestras de Llantos clasi-ficados como Alto riesgo, utilizando el método propuesto
al glide con un 4.8. Como se mencionó en los capítulos anteriores. Los resultados
muestran que efectivamente hay inestabilidad para mantener una melodía.
Para el caso de la Tabla 5.6 de llantos de niños nacidos bajo condiciones de Alto
Riesgo. La característica que más se presenta es el shift, seguida por segmentos sin
forma melódica y finalmente el glide. Esta clase aún se encuentra en estudio, pero
lo que podemos observar es que la melodía ascendente-descendente es característica
de los llantos de infantes sanos y la melodía descendente no. Sin embargo, el pro-
medio de ambas se encuentra muy cercano. También podemos observar que existen
cambios abruptos en la señal e inestabilidad para mantener una melodía. Además de
presentarse también de forma significativa las concentraciones de ruido.
Coordinación de Ciencias Computacionales Instituto Nacional de Astrofísica, Óptica y Electrónica
5.3 Diagnóstico 57
Muestra Unidades as des a-d d-a plana sfm s g cr001 16 1 2 1 4 1 5 13 6 3003 14 1 3 4 1 3 2 9 2 0004 23 2 6 2 3 1 9 22 2 1005 11 0 1 0 0 1 9 11 4 6006 22 1 2 2 2 1 13 20 1 3
Promedio 17.2 1 2.8 1.8 2 1.4 7.6 15 3 2.6
Tabla 5.7: Identificación automática de características cualitativas para las muestras de Llantos clasi-ficados como Hiperbilirrubinemia, utilizando el método propuesto.
Muestra Unidades as des a-d d-a plana sfm s g cr004 13 0 4 1 2 1 5 12 4 2029 17 0 0 3 2 0 12 12 2 1031 21 1 3 5 5 0 6 19 1 1033 18 0 4 2 2 0 10 17 2 0047 15 2 3 2 1 1 6 14 5 0
Promedio 16.8 0.6 2.8 2.6 2.4 0.4 7.8 14.8 2.8 0.8
Tabla 5.8: Identificación automática de características cualitativas para las muestras de Llantos clasi-ficados como Sordera, utilizando el método propuesto.
La Tabla 5.7 muestra los resultados de los llantos clasificados como Hiperbilirrubi-
nemia. Donde la característica que más se presenta es el shift, seguida por segmentos
sin forma melódica y finalmente el glide. Esto significa que existen muchos cambios
abruptos en la señal, y existe inestabilidad para mantener una melodía. Además las
melodías descendente y descendente-ascendente y las concentraciones de ruido, están
por encima de las melodías ascendente y ascendente-descendente, que son las melodías
que caracterizan el llanto de un infante sano.
La tabla 5.8 muestra los resultados de los llantos clasificados como Sordera. La
característica cualitativa que más se presenta es el shift, seguida por segmentos sin
forma melódica y finalmente el glide y la melodía descendente. En estas muestras se
puede observar una clara inestabilidad de la melodía.
La Tabla 5.9 muestra los resultados obtenidos para llantos de infantes clasificados
como Sanos. Donde la característica que más se presenta es el shitf, seguida de seg-
mentos sin forma melódica y finalmente la melodía tipo ascendente-descendete. Ésta
última, es el tipo de melodía que caracteriza a los llantos de infantes sanos.
Identificación Automática de Características Cualitativas del Llanto Infantil
58 5. Resultados experimentales
Muestra Unidades as des a-d d-a plana sfm s g cr027 26 2 7 2 2 2 9 25 8 5028 24 0 1 6 0 9 8 11 3 0083 30 6 2 8 5 0 9 27 0 0084 30 5 0 6 2 0 17 27 5 0087 26 2 2 3 6 1 12 22 5 2094 14 1 3 0 0 0 10 12 3 1100 28 1 5 6 1 4 11 18 1 0101 6 1 0 0 1 0 4 5 4 1103 8 1 0 1 1 0 5 8 3 1113 25 1 3 7 0 8 6 10 2 0
Promedio 21.7 2 2.3 3.9 1.8 2.4 9.1 16.5 3.4 1
Tabla 5.9: Identificación automática de características cualitativas para las muestras de Llantos clasi-ficados como Sanos, utilizando el método propuesto.
Para diagnosticar un llanto, los médicos hacen un conteo de las características
cualitativas encontradas en la muestra y de las características cualitativas que carac-
terizan un llanto con alguna patología, si estas últimas sobrepasan un 30 % de las
características cualitativas totales de la muestra, el llanto es considerado con tenden-
cia a patológico.
Las tablas 5.10-5.14 muestran los resultados obtenidos del conteo de caracterís-
ticas cualitativas. En la columna Muestra están los nombres de las grabaciones. En
la columna Características Cualitativas, se puede observar el número total de carac-
terísticas cualitativas encontradas en cada muestra. En la columna Características
Patológicas, se pueden observar las características cualitativas que dan indicios de
la tendencia patológica de un llanto. Éstas características son: melodía descendente,
melodía descendente-ascendente, melodía plana, shift, glide y concentración de ruido.
La última columna muestra el porcentaje de características cualitativas patológicas
encontradas, respecto a las características cualitativas totales.
Como resultados del diagnóstico tomando en cuenta sólo las características cua-
litativas, tenemos que: Las muestras de infantes clasificados como Asfixia tuvieron
un porcentaje de características cualitativas patológicas del 61.57 %, Alto riesgo del
68.60 %, Hiperbilirrubinemia del 72.35 %, Sordera del 68.53 % y Sanos del 64.67 %.
Como se puede observar, todas las clases superan el umbral establecido del 30 %. Sin
embargo, Los llantos de Asfixia y Sanos son los que contienen menor cantidad de
Coordinación de Ciencias Computacionales Instituto Nacional de Astrofísica, Óptica y Electrónica
5.3 Diagnóstico 59
Muestras Características Características C. Porcentaje deCualitativas Patológicas C.C. Patológicas
001 43 34 79.06002 45 29 64.44003 18 6 33.33004 46 27 58.69006 47 34 72.34
Promedio 39.8 26 61.57
Tabla 5.10: Resultados del conteo de características cualitativas en las muestras clasificadas comoAsfixia.
Muestras Características Características Porcentaje deCualitativas Patológicas C. Patológicas
002 57 41 71.92003 31 22 70.96004 28 20 71.42009 31 21 67.74011 56 38 67.85012 55 36 65.45013 25 16 64016 21 13 61.90019 24 17 70.83022 23 17 73.91
Promedio 35.1 24.1 68.60
Tabla 5.11: Resultados del conteo de características cualitativas en las muestras clasificadas como Altoriesgo.
Muestras Características Características Porcentaje deCualitativas Patológicas C. Patológicas
001 36 29 80.55003 25 18 72004 48 35 72.91005 32 23 71.87006 45 29 64.44
Promedio 37.2 26.8 72.35
Tabla 5.12: Resultados del conteo de características cualitativas en las muestras clasificadas comoHiperbilirrubinemia.
Identificación Automática de Características Cualitativas del Llanto Infantil
60 5. Resultados experimentales
Muestras Características Características Porcentaje deCualitativas Patológicas C. Patológicas
004 31 25 80.64029 32 17 53.12031 41 29 70.73033 37 25 67.56047 34 24 70.58
Promedio 35 24 68.53
Tabla 5.13: Resultados del conteo de características cualitativas en las muestras clasificadas comoSordera.
Muestras Características Características Porcentaje deCualitativas Patológicas C. Patológicas
027 62 49 79.03028 38 24 63.15083 57 34 59.64084 62 34 54.83087 55 38 69.09094 30 19 63.33100 47 29 61.70101 16 11 68.75103 20 13 65113 37 23 62.16
Promedio 42.4 27.4 64.67
Tabla 5.14: Resultados del conteo de características cualitativas en las muestras clasificadas comoSanos.
Coordinación de Ciencias Computacionales Instituto Nacional de Astrofísica, Óptica y Electrónica
5.3 Diagnóstico 61
Muestra Duracion Valor promedio Desviacion estandarseg. de la f0 de la f0
001 30 365.23 199.29002 30 522.02 209.54003 30 431.71 114.56004 30 363.5 294.03006 30 497.16 154.67
Promedio 30 435.924 194.418
Tabla 5.15: Resultados de las características cuantitativas para las muestras de Llantos de infantesclasificados como Asfixia.
características cualitativas que caracterizan un llanto con tendencia a patológico.
Debido a los resultados obtenidos, se realizó un experimento final. Se hizo un aná-
lisis cuantitativo tomando en cuenta el promedio de la frecuencia fundamental de las
unidades de llanto. El objetivo fue verificar si tomando en cuenta a las características
cuantitativas se podría reforzar o mejorar el diagnóstico. Los resultados obtenidos
se pueden observar en las tablas 5.15-1.19. En la columna Muestra se visualizan los
nombres de las muestras, La columna Duracion, muestra la duración de las muestras
en segundos. La columna Promedio, muestra promedio de la f0. La última columna,
muestra la desviación estandar de la f0.
Como se puede observar, en el capítulo de Solución propuesta, se definió un llanto
normal y un llanto patológico tomando en cuenta características cuantitativas. De ahí
se tiene que el valor promedio de la f0 en un infante sano está en un rango de 400Hz
a 600Hz.
De los resultados aquí obtenidos, podemos ver en las Tablas 5.16 y 5.17 que los
valores promedio de la f0, están por debajo del rango establecido para un llanto de
un infante sano. Éstas dos mismas clases, tuvieron más porcentaje de características
cualitativas que definen un llanto con tendencia a patológico. Con lo que podemos
concluir que el análisis cualitativo del llanto infantil permite diferenciar entre llan-
tos patológicos y normales. Pero apoyarse en el análisis cuantitativo,también es de
gran ayuda para reforzar un diagnóstico. Y entre más información y características
podamos extraer del llanto se obtendrá un diagnóstico más preciso.
Identificación Automática de Características Cualitativas del Llanto Infantil
62 5. Resultados experimentales
Muestra Duracion Valor promedio Desviacion estandarseg. de la f0 de la f0
002 30 195.39 98.95003 30 297.56 297.54004 30 185.75 189.71009 30 302.45 247.29011 30 392.81 198.49012 30 405.5 229.32013 30 145.35 65.82016 30 219.63 133.61019 30 317.6 295.76022 30 161.11 114.86
Promedio 30 262.315 187.135
Tabla 5.16: Resultados de las características cuantitativas para las muestras de Llantos de infantesclasificados como Alto riesgo.
Muestra Duracion Valor promedio Desviacion estandarseg. de la f0 de la f0
001 30 473.14 159.88003 30 385.83 170.55004 30 272.44 161.35005 24 166.07 106.66006 30 323.58 188.91
Promedio 28.8 324.212 157.47
Tabla 5.17: Resultados de las características cuantitativas para las muestras de Llantos de infantesclasificados como Hiperbilirrubinemia.
Muestra Duracion Valor promedio Desviacion estandarseg. de la f0 de la f0
004 30 333.15 217.53029 30 416.33 89.87031 30 466.01 133.43033 30 369.8 156.43047 30 491.24 165.94
Promedio 30 415.306 152.64
Tabla 5.18: Resultados de las características cuantitativas para las muestras de Llantos de infantesclasificados como Sordera.
Coordinación de Ciencias Computacionales Instituto Nacional de Astrofísica, Óptica y Electrónica
5.3 Diagnóstico 63
Muestra Duracion Valor promedio Desviacion estandarseg. de la f0 de la f0
027 30 455.01 168.02028 30 440.42 152.21083 30 469.5 104.43084 30 484.34 119.17087 30 481.7 203.72094 30 452.91 167100 30 390.83 132.5101 12 466.74 192.47103 12 531.57 203.13113 30 455.82 157.42
Promedio 26.4 462.884 160.007
Tabla 5.19: Resultados de las características cuantitativas para las muestras de Llantos de infantesclasificados como Sanos.
Identificación Automática de Características Cualitativas del Llanto Infantil
64 5. Resultados experimentales
Coordinación de Ciencias Computacionales Instituto Nacional de Astrofísica, Óptica y Electrónica
Capítulo 6
Conclusiones y trabajo futuro
6.1. Conclusiones
La tarea de detección de unidades de llanto es una tarea de vital importancia en el
análisis del llanto infantil ya que de la calidad de los resultados obtenidos en esta parte,
dependen los resultados obtenidos en análisis posteriores. El método presentado es
capaz de detectar las unidades de llanto aún cuando las grabaciones presentan ruido.
Los umbrales establecidos para considerar unidades de llanto válidas para un análisis
posterior, permiten eliminar los silencios, ruidos y a su vez permiten eliminar los
sonidos inspiratorios de las grabaciones los cuales no aportan información de calidad.
Por otra parte, el análisis de características cualitativas permite diferenciar entre
llantos normales y llantos patológicos, el método del dodecagrama que se desarrolló
es un método novedoso que permite la identificación de características cualitativas en
el llanto infantil.
Estos dos métodos propuestos minimizan el trabajo de los médicos expertos, ya
que en la actualidad tanto la detección de unidades de llanto como la identificación
de características cualitativas se realiza de forma manual. Además como se mostró en
el capítulo anterior, es posible mejorar la precisión, ya que con el método propuesto
para la identificación de características cualitativas es posible identificar cambios en
la señal que a simple vista no son fáciles de identificar.
6.2. Trabajo futuro
Como trabajo futuro se propone:
La identificación automática de más características cualitativas. En el presente
[65]
66 6. Conclusiones y trabajo futuro
trabajo se toman en cuenta las características cualitativas consideradas las más
relevantes para analizar y determinar si un llanto tiene tendencia patológica. Sin
embargo, existen más características cualitativas que se presentan en algunas
patologías y que no fueron consideradas en este trabajo , como la bifonación,
bifurcación, vibrato, etc. Con la identificación automática de más características
cualitativas, se tendría más información para reforzar un diagnóstico y se tendría
una descripción más detallada del llanto infantil.
Tomar en cuenta al menos un armónico de la señal. Ya que con un armónico
es suficiente y necesario para la identificación de otras características cualitati-
vas como el Glotal Roll. Además, los armónicos también contienen información
útil que podría ser combinada con la información que nos brinda la frecuencia
fundamental.
Establecer más reglas que permitan diferenciar entre llantos normales y patoló-
gicos.
Combinar la información de características cualitativas y cuantitativas del llanto
infantil, para proporcionar un diagnóstico más preciso.
El mejoramiento de la interfaz, haciéndola más amigable al usuario.
Coordinación de Ciencias Computacionales Instituto Nacional de Astrofísica, Óptica y Electrónica
Apéndices
[67]
Apéndice
Interfaz
Se implementó en MATLAB una sencilla interfaz mostrada en la Figura A.1 que
permite mostrar los resultados tanto de la identificación automática de unidades de
llanto como de la identificación automática de características cualitativas.
A continuación se describen los elementos de la interfaz:
1.- El botón Examinar permite buscar y mostrar la ruta de los archivos .wav.
2.- El botón Obtener Unidades hace un llamado a la función que detecta automá-
ticamente las unidades de llanto del archivo .wav seleccionado.
3.- Panel de texto que muestra las unidades de llanto detectadas automáticamente
así como el tiempo de inicio y tiempo final de cada una de ellas, además se
muestra la duración total de la grabación y el número de unidades de llanto
detectadas.
4.- El botón Analizar hace un llamado a la función que identifica automáticamente
las características cualitativas de las unidades de llanto detectadas.
5.- Panel de texto en el que se muestran las unidades de llanto con su/sus respec-
tivas características cualitativas.
6.- El botón señal permite desplegar en el componente exes la señal del archivo
.wav completo, o por unidades de llanto.
7.- El botón f0 permite desplegar en el componente exes la frecuencia fundamental
de las unidades de llanto identificadas.
8.- El botón Espectrograma permite desplegar en el componente exes el espectro-
grama del archivo .wav completo, o por unidades de llanto.
[69]
70 A. Interfaz
Figura A.1: Interfaz.
9.- Componente exes que permite desplegar la señal, la f0 y el espectrograma.
10.- Finalmente, el botón salir, cierra la interfaz.
En la Figura A.2 se muestra el espectrograma de la grabación 26.wav (Figura
A.2a), donde se pueden observar las 10 unidades de llanto contenidas en la graba-
ción, también se muestra la señal de la primera unidad de llanto (Figura A.2b), su
frecuencia fundamental (Figura A.2c) y su espectrograma (Figura A.2d).
Coordinación de Ciencias Computacionales Instituto Nacional de Astrofísica, Óptica y Electrónica
71
(a) Espectrograma de la grabación 26.wav (b) Señal de la primera unidad de llanto
(c) Frecuencia fundamental de la primeraunidad de llanto
(d) Espectrograma de la primera unidad dellanto
Figura A.2: Campo AXES de la interfaz.
Identificación Automática de Características Cualitativas del Llanto Infantil
72 A. Interfaz
Coordinación de Ciencias Computacionales Instituto Nacional de Astrofísica, Óptica y Electrónica
Referencias
Arch, E., Mandujano, M., García, L., Martínez, C., Reyes, C., Taboada, V.. Aná-
lisis del llanto del niño hipoacúsico y del niño normo-oyente análisis del llanto del
niño hipoacúsico y del niño normo-oyente análisis del llanto del niño hipoacústico
y del niño normo-oyente. Cirugía y Cirujanos 2004;72(4):271–276.
Arch, E., Verduzco, A., Mandujano, M., Reyes, C., Alfaro, A., Sánchez, M.,
Martínez, C.. Análisis del llanto en niños hipoascústicos y normoyentes de 0 a 2
años de edad. Salud Mental 2006;29(006):31–38.
Baeck, H., Souza, M.. Study of acoustic features of newborn cries that correlate with
the context. In: Engineering in Medicine and Biology Society. Univ. Fed. do Rio
de Janeiro: Proceedings of the 23rd Annual International Conference of the IEEE;
2001. .
Brazelton, T.. El Método Brazelton. El Llanto, 2003.
Cano, S., Escobedo, D., Coello, F.. El uso de los mapas auto-organizados de kohonen
en la clasificación de unidades de llanto infantil. In: I. Taller AIRENE sobre Re-
conocimiento de Patrones con Redes Neuronales. Antofagasta, Chile: Universidad
Católica del Norte; 1999. p. 24–29.
Cano, S., Escobedo, D., Ekkel, T.. A radial basis function network oriented for
infant cry classification. Progress in Pattern Recognition, Spech and Image Analysis
2004;3287:15–36.
Cano, S., Escobedo, D., Socarras, M.. The spectral analysis of infant cry: An initial
approximation. In: Proceedings of EUROSPEECH’95. ESCA IEEE; 1995. .
[73]
74 REFERENCIAS
Corwin, M., Kayne, H., Lester, B., Sepkoski, C., McLaughlin, S., Golub, H.. Effects
of in utero cocaine exposure on newborn acoustical cry characteristics. Pediatrics
1992;89(6):1199–1203.
Corwin, M., Lester, B., Sepkoski, C., M., P., Kayne, H., Golub, H.. Newborn
acoustic cry characteristics of infants subsequently dying of sudden infant death
syndrome. Pediatrics 1995;96(1):73–77.
Fant, G.. Structural classification of swedish phonemes. STL-QPSR 1960;1(2):010–
015.
Flanagan, J.. Voices of men and machines. J Acoust Soc Am 1972;51(5A):1375–1387.
Fort, A., Manfredi, C.. Acoustic analysis of newborn infant cry signals. Med Eng
Phys 1998;20(6):432–442.
Fuller, B.. Acoustic discrimination of three types of infant cries. Nursing Research
1991;40(3).
Gardosik, T., Ross, P.. Infant Communication: Cry and Early Speech; Murry, T.
and Murry, J.
Gilbert, H., Robb, M.. Vocal fundamental frecuency characteristics if infant hunger
cries: Birth to 12 months. Int J Pediatr Otorhinolaryngol 1996;.
Golub, H.. A physioacoustic model of the infant cry and its use for medical diagnosis
and prognosis. Acoustical Society of America 1979;65(S1):S25–S26.
Golub, H., Corwin, M.. Infant cry: A clue to diagnosis. Pediatrics 1982;69(2):197–
201.
Golub, H., Corwin, M.. Infant Crying: Theoretical and Research Perspectives; Lester,
B.M. and Boukydis, C. p. 59–82.
Grauel, E., Hock, S., Rothg, H., Rothgänger, . Jitter-index of the fundamental
frequency of infant cry as a possible diagnostic tool to predict future development
problems. Early Child Development and Care 1990;65(1):23–29.
Coordinación de Ciencias Computacionales Instituto Nacional de Astrofísica, Óptica y Electrónica
REFERENCIAS 75
Hirschberg, J.. The value of the acoustic analysis of pathological infant cry and breat-
hing noise in eneryday practice. Early Child Development and Care 1990;65(1):57–
69.
Hirschberg, J.. Dysphonia in infants. Int J Pediatr Otorhinolaryngol 1999;49(1):S293–
S296.
Hirschberg, J., Szende, T.. Pathological Cry, Stridor and Cough in Infants. Akadé-
miai Kiadó, 1982.
Keating, P.. Infant Communication: Cry and Early; Murry, T. and Murry, J.
Koivisto, M.. Cry analysis in infant with rh haemolytic disease. Acta Paediatr Scand
1987;335:1–73.
LaGasse, L., Neal, R.. Assessment of infant cry: Acoustic cry analysis and parental
perception. Mental Retardation and Developmental Disabilities Research Reviews
2005;11(1):83–93.
Lederman, D.. Automatic Classification of Infant’s Cry. Master’s thesis; Ben-Gurion
University of Negev, Faculty of Engineering Science, Electrical and Computer En-
gineering Department; 2002.
Lederman, D., Cohen, A., Zmora, E., Wermke, K., Hauschildt, S., Stellzig-
Eisenhauer, A.. On the use of hidden markov models in infants’cry classification.
In: Electrical and Electronics Engineers in Israel. volume 1; 2002. p. 350–352.
Lester, B.. Advances in Infancy Reseach; Lipsitt, L.P. p. 167–212.
Lester, B.. Developmental outcome prediction from acoustic cry analysis in term and
preterm infants. Pediatrics 1987;80(4):529–534.
Lester, B.. Pediatric Research; volume 264A.
Lester, B., Tronick, E., LaGasse, L., Seifer, R., Bauner, C., Shankaran, S., Bada,
H., Wright, L., Smeriglio, V., Lu, J., Finnegan, L., Maza, P.. The maternal
lifestyle study: Effects of substance exposure during pregnancy on neurodevelop-
mental outcome in 1-month-old infants. Pediatrics 2002;110(6):1182–1192.
Identificación Automática de Características Cualitativas del Llanto Infantil
76 REFERENCIAS
Lind, J., Wasz-Höckert, O., Vuorenkoski, V., Valanne, E.. The vocalization of a
newborn, brain-damaged child. Ann Paediatr Fenn 1965;11.
Lind, K., Wermke, K.. Development of the vocal fundamental frecuency of
spontaneos cries during the first 3 months. Int J Pediatr Otorhinolaryngology
2002;64(2):97–104.
Makói, Z., Szöke, Z., Sasvári, L., Gegesi-Kiss, P., Popper, P.. 1st cry of newborn
after vaginal and cesarean delivery. Acta Paediatr Hung 1975;16(2):155–161.
Martínez, C., Jara, N.. Análisis Espectrofonográfico del Llanto de Recién Nacidos
de Término con Riesgo Neurológico. Master’s thesis; Instituto de Perinatología;
2004.
Mende, W., Herzel, H., Wermke, K.. Bifurcations and chaos in newborn infant
cries. Physics Letters A 1990a;145(8-9):418–424.
Mende, W., Wermke, K., Schindler, S., Wilzopolski, K., Höck, S.. Variability of
the cry melody and the melody spectrum as indicators for certain cns disorders.
Early Child Development and Care 1990b;65(95-107).
Michelsson, K.. Cry analyses of symptomless low birth weight neonates and of
asphyxiated newborn infants. Acta Paediatrica 1971;60(S216):9–45.
Michelsson, K.. Infant Communication: Cry and Early Speech; Murry, T. and Murry,
J.
Michelsson, K., Todd de Barra, H., Michelsson, O.. Focus Nonverbal Communication
Research. Number 2.
Michelsson, K., Christensson, K., Rothgänger, H., Winberg, J.. Crying in separa-
ted and non-separated newborns: sound spectrographic analysis. Acta Paediatrica
1996;85(4):471–475.
Michelsson, K., Eklund, K., Leepänen, P., Lyytinen, H.. Cry characteristics of
172 healthy 1- to 7-day-old infants. International Journal of Phoniatrics Speech
Therapy and Communication Pathology 2002;54(4):190–200.
Michelsson, K., Michelsson, O.. Phonation in the newborn infant cry. Int J Pediatr
Otorhinolaryngol 1999;49(1):S297–S301.
Coordinación de Ciencias Computacionales Instituto Nacional de Astrofísica, Óptica y Electrónica
REFERENCIAS 77
Michelsson, K., Sirviö, P., Wasz-Höckert, O.. Pain cry in full-term asphyxiated
newborn infants correlated with late findings. Acta Paediatrica 1977;66(5):611–
616.
Möller, S., Schönweiler, R.. Analysis of infant cries for the early detection of hearing
impairment. Speech Communication 1999;28(3):175–193.
Murry, T.. Infant Communication: Cry and Early; Murry, T. and Murry, J.
Nugent, J., Lester, B., Greene, S., Wieczorek-Deering, D., O’Mahony, P.. The
effects of maternal alcohol consumption and cigarette smoking during pregnancy
on acoustic cry analysis. Child Development 1996;67(4):1806–1815.
Obediente, E.. Fonética y Fonología. p. 45–68.
Orozco, J., Reyes, C.. Mel-frequency cepstrum coefficients extraction from infant cry
for classification of normal and pathological cry with feed-forward neural networks.
In: Proceedings of the International Joint Conference on On Neural Networks.
volume 4; 2003a. p. 3140–3145.
Orozco, J., Reyes, C.. A study on the recognition of patterns of infant cry for the
identification of deafness in just born babies with neural networks. Progress in
Pattern Recognition, Spech and Image Analysis 2003b;2905:342–249.
Ostwald, P.. Infant Crying: Theoretical and Research Perspectives; Lester, B.M. and
Boukydis, C.
Ostwald, P., Freedman, D., Kurtz, J.. Vocalization of infant twins. a preliminary
report. Folia Phoniatr 1962;14:37–50.
Paparrella, M.. Otorrinolaringología. Ciencias Básicas y Disciplinas Afines, 1994.
Petroni, M., Malowany, A., Johnston, C.. Identification of pain from infant cry
vocalizations using artificial neural networks (anns). SPIE, Applications in Speech
1995;2492(729).
Prescott, R.. Infant Communication: Cry and Early; Murry, T. and Murry, J.
Protopapas, A., Eimas, P.. Perceptual differences in infant cries revealed by modi-
fications of acoustic features. Acoustical Society of America 1997;102(6):3723–34.
Identificación Automática de Características Cualitativas del Llanto Infantil
78 REFERENCIAS
Raes, J., Dehaen, F., Despontin, M.. Towards a standardized terminology and
methodology for the measurement of durational pain cry characteristics. Early
Child Development and Care 1990;65(1):127–138.
Raes, J., Michelsson, K., Dehaen, F., Despontin, M.. Cry analysis in infants with
infectious and congenital disorders of the larynx. International Journal of Pediatric
Otorhinolaryngology 1982;4(2):157–169.
Raes, J., Michelsson, K., Despontin, M.. Spectrographic analysis of the crying of
infants with laryngeal disorders. Acta Otorhinolaryngol Belg 1980;34(3):224–237.
Rapisardi, G., Vohr, B., Cashore, W., M., P.. Assessment of infant cry varia-
bility in high-risk infants. International Journal of Pediatric Otorhinolaryngology
1989;17(1):19–29.
Reyes, C., Cano, S., editors. Fundamentos Teóricos y Prácticos del Análisis del
Llanto Infantil. Tonantzintla, Pue., México, 2009.
Rothenberg, S., Cansino, S., Sepkoski, C., Mercado, L., Medina, S., Schnaas, L.,
Poblano, A., Karchmer, S.. Prenatal and perinatal lead exposures alter acoustic
cry parameters of neonate. Neurotoxicology and Teratology 1995;17(2):151–160.
Rothgänger, H.. Analysis of the sounds of the child in the first year of age and a
comparison to the language. Early Human Development 2003;75(1):55–69.
Rothgänger, H., Michelsson, K., Lüdge, W., Grauel, E.. Comparing examination of
cry and speech signals with the method of high-resolution fundamental frequency
analysis. In: Helsinki Publications of the Deparment of Phonetics, U.o.H., edi-
tor. Proceedings of the Third Congress of the International Clinical Phonetics and
Linguistics Association. volume 39; 1993. p. 159–166.
Ruiz, F., Siegmund, R., Wermke, K., Dorado, J., Escobedo, D.. Síndrome de west:
una aproximación cronobiológica. Revista de Neurología 2000;30(10):925–928.
Runefors, P., Arnbjörnsson, E., Elander, G., Michelsson, K.. Newborn infants’cry
after heel-prick: analysis with sound spectrogram. Acta Paediatrica 2000;89(1):68–
72.
Coordinación de Ciencias Computacionales Instituto Nacional de Astrofísica, Óptica y Electrónica
REFERENCIAS 79
Saratxaga, I., Luengo, I., Navas, E., Hernández, I., Sánchez, J., Sainz, I.. De-
tección de pitch en condiciones adversas. In: IV Jornada en Tecnología del Habla.
Universidad del País Vasco – Euskal Herriko Unibertsitatea; 2006. p. 13–18.
Schönweiler, R., Kaese, S., Möller, S., Rinscheid, A., Ptok, M.. Neuronal networks
and self-organizing maps: New computer techniques in the acoustic evaluation of
the infant cry. Int J Pediatr Otorhinolaryngol 1996;38(1):1–11.
Sheiner, E., Hammerschmidt, K., Jürgens, U., Zwirner, P.. Acoustic analyses of
developmental changes and emotional expression in the preverbal vocalizations of
infants. Journal of Voice 2002;16(4):509–529.
Thoden, C., Koivisto, M.. Infant Communication: Cry and Early; Murry, T. and
Murry, J.
Valanne, H., Vuorenkoski, V., Partanen, J., Lind, J., Wasz-Höckert, O.. The ability
of human mothers to identify the hunger cry signals of their own new-born infants
during the lying-in period. Cellular and Molecular Life Sciences 1967;23(9):768–769.
Várallyay, G.J., Illényi, A., Benyó, Z.. Automatic cry detection 2009a;:11–14.
Várallyay, G.J., Illényi, A., Benyó, Z.. Melody analysis if the newborn infant cries
2009b;:11–14.
Wasz-Höckert, O., Lind, J., Vuorenkoski, V., Partanen, T.. The infant cry: A
spectrographic and auditory analysis. Clinics in Developmental Medicine 1968;29:1–
42.
Wasz-Höckert, O., Partanen, T., Vuorenkoski, V., Michelsson, K., Valanne, E..
The identification of some specific meanings in infant vocalization. Cellular and
Molecular Life Sciences 1964;20(3).
Wermke, K., Hauser, C., Komposch, G., Stelizig, A.. Spectral analysis of prespeech
sounds (spontaneous cries) in infants with unilateral cleft lip and palate (uclp): A
pilot study. The Cleft Palate-Craniofacial 2002a;39(3):285–294.
Wermke, K., Mende, W., Borschberg, H., Ruppert, R.. Voice characteristics of
prespeech vocalization of twins during the first year of life. Pathologies of Speech
and Language: Contributions of Clinical Phonetics and Linguistics 1996;:1–7.
Identificación Automática de Características Cualitativas del Llanto Infantil
80 REFERENCIAS
Wermke, K., Mende, W., Grauel, K., Wilsopolski, U., Schmucker, U., Schöder,
G.. Cry Reports - Special Issue; Kirkland, J. p. 57–62.
Wermke, K., Mende, W., Manfredi, C., Bruscaglioni, P.. Developmental aspects
of infant’s cry melody and formants. Med Eng Phys 2002b;24(7-8):501–514.
Wikipedia, . Frecuencia fundamental. a.
Wikipedia, . Variable estadística. b.
Xie, Q., Ward, R., Laszlo, C.. Automatic assessment of infant’s levels-of-
distress from the cry signals. IEEE Transactions on Speech and Audio Processing
1996;4(4):253.
Zeskind, P., Barr, R.. Acoustic characteristics of naturally occurring cries of infants
with colic. Child Development 2006;68(3):394–403.
Coordinación de Ciencias Computacionales Instituto Nacional de Astrofísica, Óptica y Electrónica