Capítulo 2: TECNOLOGÍAS PARA INVIDENTES Y SISTEMA
LINTER-VOX
2.1 Tecnología para invidentes
Hoy en día existen muchas herramientas que buscan facilitar tareas comunes para
personas invidentes como por ejemplo la lectura de un libro por medio del sis tema
braille, el transitar y cruzar una calle con la ayuda de perros guías, realizar compras con
billetes identificables al tacto, el desarrollo de software para el uso de computadoras,
sólo por mencionar algunas.
En materia de tecnología existen avances importantes que permiten a personas
invidentes realizar actividades que parecían ligeramente imposibles para ellas como por
ejemplo jugar un video juego, chatear, leer un libro de texto o electrónico, navegar por
Internet, entre otros.
Con respecto al acceso a la información y conocimiento para personas invidentes el
sistema braille hoy en día juega un papel muy importante. Este sistema es uno de los
más utilizados y data del siglo XIX; basado en un símbolo formado por seis puntos que
representan letras y signos, permite a las personas invidentes la lectura de documentos y
escritos que en este sistema se encuentren disponibles.
En relación a la tecnología y el acceso a la información, libros hablados o
sintetizadores de voz permiten el acceso a la información electrónica por parte de
personas invidentes, y a partir del auge computacional y la llegada de Internet el
desarrollo de sistemas y tecnologías por parte de diferentes grupos y compañías, ha
resultado en diversos software con características especiales que los difieren unos de
otros tanto en capacidades y funcionalidad como en costos.
En la actualidad existe en el mercado un importante número de software para
invidentes que, en combinación con la tecnología de los sintetizadores de voz (TTS), el
aumento del tamaño y color de las letras, entre otras técnicas, les permiten interactuar de
manera más natural con el mundo de las computadoras.
Un ejemplo notable dentro de los motores Text-to-Speech es el de la compañía
pionera en tecnologías de voz AT&T. Natural Voices es una de sus nuevas tecnologías
que soporta un número considerable de idiomas incluyendo el español [AT&T, 2006], y
que como su nombre lo indica, ésta es una tecnología que busca hacer de la voz de un
sintetizador una voz cada vez más real y natural, similar a la de un humano. Su precio al
público para diciembre de 2008 es de aproximadamente 149 dls, 1937 pesos la
plataforma base del producto; y 49 dls, 637 pesos por cada idioma contratado. Algunos
de los idiomas que soporta son: alemán, francés, inglés americano, inglés británico e
inglés indio.
Algunos de los software comerciales más utilizados por los invidentes son por
ejemplo Window-Eyes [GW Micro, 2007], cuya última versión es la 6.1; Window-Eyes
es un lector de pantalla compatible con varias versiones de Windows que permite tener
control sobre lo que se quiere escuchar, la manera en que se quiere escuchar, y además
los formatos que es capaz de leer van desde texto hasta HTML. Su precio al público
para enero de 2008 es de $895 dls y su lenguaje base es el ingles. Una de sus
desventajas es que no es compatible con Windows 95 ni Windows 98 que por lo regular
son sistemas operativos montados en máquina donadas a centros e instituciones de
invidentes de escasos recursos.
Otro software famoso utilizado por los invidentes es Jaws [Freedom scientific,
2007], en su versión para Dos y para Windows, el cual es también un lector de pantalla
que hace uso de un sintetizador de voz o un dispositivo braille como dispositivos de
salida para dar lectura a la información que se presenta en pantalla. Además provee de
algunos comandos que facilitan la utilización de programas, la edición de documentos y
la lectura de páginas Web. Este sistema es considerado uno de los productos más
potentes del mercado y de mayor distribuido a nivel mundial, probablemente es por esto
que es uno de los sistemas más caros, teniendo un precio al público para enero de 2008
de $1,095 dls. la versión profesional y $895 dls. la versión estándar.
Home Page Reader de IBM es uno de varios navegadores que permiten por medio
de un sintetizador TTS hacer lectura de páginas Web, consulta de correo electrónico,
magnificación de texto para débiles visuales, entre otras opciones. La interfaz de Home
Page Reader es realmente una interfaz de manipulación y navegación Web fácil de
usar. A la fecha IBM ha dejado de desarrollar Home Page Reader por el mismo hecho
de que ya existen en el mercado muchas herramientas de este tipo; sin embargo, IBM
sigue investigando y desarrollando en el ámbito de la accesibilidad para invidentes.
Para la lectura de documentos impresos, OpenBook [Freedom scientific, 2007] es un
software que por medio de la tecnología OCR (reconocimiento óptico de caracteres) y
TTS, escanea el texto de un libro impreso, una carta, etc. para transformar la
información y leerla a la persona invidente por medio del sintetizador TTS. Otra de sus
funciones recientes es la capacidad de escanear documentos y guardarlos en formato
mp3 para poderlo reproducir en dispositivos como el iPod. Además provee de varias
herramientas para débiles visuales que mejoran la presentación del documento que se
tenga en pantalla y permite también que los documentos generados a partir del escaneo
de OpenBook sean exportados a otras aplicaciones como por ejemplo Microsoft Word.
Su precio al público para enero de 2008 es de $995 dls.
2.2 Requerimientos para el uso de Linter-Vox
En relación a la tecnología para débiles visuales e invidentes, se desarrolló Linter-
Vox, el cual tiene como tareas principales mejorar la experiencia de búsqueda de
información por medio del motor de búsqueda de Google, y la lectura simple del
contenido de una página Web por medio del sintetizador de voz TTS de Windows.
Linter-Vox se compone de 22 clases escritas en lenguaje de programación Java y
fue diseñado para funcionar con máquinas de especificaciones típicas y un mínimo de
espacio en disco duro, por lo que es posible instalarse y ejecutarse en una computadora
relativamente nueva.
A continuación se presentan los requerimientos de software y hardware para el
correcto funcionamiento de Linter-Vox, así como consideraciones que deben de ser
tomadas en cuenta antes de la instalación de los ejecutables para la interacción con los
agentes animados de Microsoft.
2.2.1 Requerimientos de Software y Hardware
Microsoft Windows 95, Windows 98, Windows Me, Windows NT 4.0 (x86),
Windows 2000, Windows XP
Internet Explorer versión 3.02 mínimo
Procesador de 100 MHz PC mínimo
16 MB de memoria RAM mínimo
1 MB de espacio libre en disco para la instalación de componentes
2 a 4 MB de espacio libre en disco duro adicional para cada agente animado de
Microsoft que se quiera usar
32 KB de espacio libre en disco para las librerías (dll) del lenguaje que se quiera
usar.
2.3 Instalación de componentes del sistema Linter-Vox
Microsoft Agents es una tecnología desarrollada por Microsoft que permite
interactuar con aplicaciones y sitios Web por medio de personajes animados capaces de
recibir instrucciones y realizar acciones o tareas de acuerdo a lo que hayan sido
programados permitiendo así una manera diferente, para los usuarios, de interacción con
sus sistemas computacionales. Estos personajes animados es una tecnología gratuita que
puede ser descargada desde el sitio de la compañía Microsoft1 y en donde también se
puede consultar mayor información del producto así como soporte para la instalación y
uso en el desarrollo de aplicaciones. Cabe mencionar que Microsoft Agents no es una
aplicación integral de software que automáticamente realice una tarea sino que necesita
ser implementado e invocado explícitamente para su funcionamiento. El software
Linter-Vox utiliza esta tecnología para la lectura de las instrucciones de uso del sistema,
la lectura de los sitios disponibles en la Web que responden a lo que el invidente quiere
explorar, las ligas a otras páginas Web contenidas en los sitios en exploración y el
contenido de la página Web que el usuario desea escuchar. La importancia de la
implementación de Microsoft Agents en Linter-Vox y sus versiones futuras, radica en
que es una tecnología gratuita que a pesar de cumplir con varias funciones en Linter-
Vox no genera costo.
La tabla 2.1 que se muestra a continuación describe los componentes que son
necesarios para la instalación de la tecnología Microsoft Agents. Estos componentes son
la base de la ejecución y correcto funcionamiento de Linter-Vox así como de todas las
versiones que a futuro se desarrollen para la mejora de este software. Dichos
componentes se encuentran disponibles en el sitio de Microsoft2 sin embargo, existen
disponibles diferentes componentes que algunas personas necesitarán pero otras no y es
por eso que en la tabla 2.1 se resumen los componentes básicos necesarios.
Tabla 2.1: Descripción de componentes para la instalación y ejecución del
software Linter-Vox
1Recurso disponible: http://www.microsoft.com/msagent/default.asp
La instalación correcta de los componentes anteriores debe seguir el orden en el que
aparecen en la tabla anterior, es decir:
1. Ejecución del MSagent.exe. En caso de usar alguno de los sistemas operativos
Microsoft Windows XP, Windows 2000 o Windows ME no es necesaria la
ejecución de este componente.
2Recurso disponible: http://www.microsoft.com/msagent/downloads/user.asp
2. Ejecución del agtx0c0a.exe
3. Ejecución del peddy.exe. Este es el agente de Microsoft que se desee usar; otras
opciones son Genie, Merlin, Robby, entre otros.
4. Ejecución del lhttsspe.exe. El ejecutable para la voz en español.
5. Ejecución del SAPI 4.0.exe. Necesario también para la ejecución de Linter-Vox
en el sistema Windows XP
Una vez instalados estos componentes, se podrá hacer uso de los agentes de
Microsoft para interactuar con el software Linter-Vox de manera amigable, tanto para la
versión ya desarrollada como la versión final de la presente tesis y las que a futuro se
desarrollen.
2.4 Flujo del software Linter-Vox
A continuación se describe de manera detallada el funcionamiento y la forma de
interacción por parte del usuario invidente con la versión del software Linter-Vox
desarrollada por Gustavo Elizalde. Mostrando así, la funcionalidad actual del software y
las tareas a atacar en la presente tesis que el software aún no realiza.
El software cuenta con un sistema de auto ejecución que ejecuta la clase Control, la
cual es la clase principal y contiene al método main() que crea la interfaz gráfica en
forma de barra con sus cinco botones de interacción y el campo para introducir texto
(ver figura 2.1), y manda ejecutar el archivo intro.html por medio del cual se invoca por
primera vez al agente de Microsoft, en el caso base el mago Merlín, que realiza su
primera tarea que consiste en dar la bienvenida y la opción de escuchar las instrucciones
del sistema o comenzar con la búsqueda de información en la Web. (ver figura 2.2).
Figura 2.1: Interfaz gráfica en forma de barra
Figura 2.2: Primeras instrucciones del Mago Merlín
La interfaz gráfica en forma de barra, control interactivo, permite para esta versión
de Linter-Vox y la desarrollada en la presente tesis, continuar con el flujo del sistema
por medio de las acciones que cada botón realiza. La interacción con este control se da
de dos maneras, una es por medio de la tecla énter y la segunda es por medio de las
teclas F para llevar acabo alguna de las tareas que componen al flujo del sistema.
Tras la bienvenida al sistema, el usuario tiene la opción de escuchar las
instrucciones del funcionamiento del sistema por medio de la tecla F1 o el botón
“Instrucciones (F2)” que simplemente ejecuta el archivo “instrucciones.html” al cual da
lectura el Mago Merlín (ver figura 2.3).
Figura 2.3: Diagrama de secuencia para la solicitud de instrucciones
A continuación, o inclusive sin escuchar las instrucciones, el usuario debe introducir
el tema sobre el que quiere indagar y presionar énter, F2 o el botón “Búsqueda (F2)”
para que su consulta sea procesada por el software.
El software hace uso del motor de búsqueda de Google por medio del cual obtiene
los sitios disponibles en la Web que responden a la consulta del usuario. Mediante un
proceso de formateo y correspondencia, se pasan los números de liga con sus
respectivos sitios a la programación del mago Merlín para que éste, dé lectura al usuario
de dichos sitios con sus respectivos números (ver figura 2.3).
El mago Merlín dará lectura a los diez primeros sitios que respondan mejor a la
consulta del usuario, siendo el número 1 el que mejor responda a la consulta y el 10 el
que menos responda a la consulta tal y como se presenta en la página Web del servicio
Google (ver figura 2.4).
Figura 2.3: Diagrama de secuencia de una búsqueda
Figura 2.4: Lectura de los sitios disponibles que responden a la consulta del
usuario invidente, con sus respectivos números de acceso
F3 o el botón Ligas Siguientes (F3) le permite al usuario escuchar los siguientes diez
sitios, es decir del sitio 11 en adelante, que responden a la consulta del usuario.
Una vez que el usuario escuche el tema del sitio que quiere explorar, sólo debe
presionar el número correspondiente al tema del sitio en el cuadro de texto y presionar
énter, la tecla F4 o el botón Explorar Liga (F4) para que el sistema se dirija a la página
Web y procese el contenido de ésta dándole formato para que el agente de voz de
Microsoft dé lectura al contenido del sitio seleccionado. Durante el proceso de
exploración del sitio seleccionado, el sistema se encarga de guardar las ligas a otros
sitios que están contenidas en el sitio explorado para así contar con la funcionalidad de
una exploración a profundidad, (ver figura 2.5).
Figura 2.5: Diagrama de secuencia para la exploración de una página Web
Una vez que se exploró el sitio seleccionado por el usuario, por medio de la tecla F5
o el botón Ligas del Sitio (F5) se pueden escuchar los sitios a los que se puede acceder
desde el sitio Web que el usuario exploró; logrando así una mayor profundidad de
búsqueda y exploración de información relacionada con el tema sobre el que se quiere
conocer.
Este es el proceso entero de exploración de un sitio o página Web, y termina cuando
el usuario decide realizar una nueva búsqueda o presiona la tecla F9. Como
funcionalidades extra, durante todas las acciones que se relacionan con el campo para
introducir texto, se pueden escuchar, mediante la tecla F6, las palabras o el número que
haya introducido el usuario así como también, por medio de la tecla F7, se puede borrar
todo lo que haya escrito el usuario con la finalidad, ambas funciones, de que el usuario
verifique y/o corrija lo que escribe como consulta en el campo de texto.
La interacción con Linter-Vox para el proceso de exploración de un sitio Web es
sencilla, rápida y fácil, sin embargo existen algunos puntos durante dicho proceso que
pueden ser mejorados para resultar en una interpretación del texto de mayor calidad,
entre otros puntos
2.5 Estructura de las clases del software Linter-Vox
Con la finalidad de observar de manera detallada la forma de interacción y procesos
entre las diferentes clases de la versión actual de Linter-Vox, así como de describir el
proceso de reingeniería que resulta en el desarrollo de la versión de Linter-Vox de la
presente tesis, se muestran en las figuras 2.6 y 2.7 los diagramas de clase del software.
<<
cre
ate
>>
+G
en
era
do
r(a
:Str
ing[]):
Ge
ne
rad
or
+e
scritu
ra(b
usq
ue
da
:Str
ing
[],p
:in
t):v
oid
Ge
ne
rad
or
~ s
alid
a3w
<<
cre
ate
>>
+G
en
era
do
r1(a
(Str
ing):
Ge
ne
rad
or1
+e
scritu
ra(b
usq
ue
da
:Str
ing
)vo
id
Ge
ne
rad
or1
~ s
alid
a2w
<<
cre
ate
>>
+Im
prim
irT
ext(
a:S
trin
g):
Imp
rim
irT
ext
+im
prim
ir(t
exto
.Str
ing
):S
trin
g
Imp
rim
irT
ex
t
~ s
alid
aw
<<
cre
ate
>>
+F
iltro
s(e
:Str
ing
)Filt
ros
+filtra
r(b
:Str
ing
):S
trin
g
+b
:Str
ing
Filtr
os
~ filt
rosw
<<
cre
ate
>>
+S
trin
gC
atc
h2(e
:Str
ing
):S
trin
gC
atc
h2
+ca
ch
ar(
a:S
trin
g):
Str
ing
Str
ing
Ca
tch
2
~ q
uita
rScrp
tew
<<
cre
ate
>>
+S
trin
gT
ry2(e
:Str
ing):
Str
ing
Try
2
+fo
rma
t(b:S
trin
g):
Str
ing
Str
ing
Try
2~
qu
ita
rOtr
osw
<<
cre
ate
>>
+S
trin
gT
ry(e
:Str
ing):
Str
ing
Try
+fo
rma
t(b:S
trin
g):
Str
ing
+b:S
trin
g
Str
ing
Try
~ q
uita
rHT
ML
w
<<
cre
ate
>>
+lin
kse
arc
h(e
:Str
ing):
linkse
arc
h
+se
arc
h(a
:Str
ing,r
:Str
ing[],p
ag
ina:S
trin
g):
Str
ing[]
+se
arc
h2
(u.I
nt,a.S
trin
g).
int
Lin
kS
ea
rch
~ lin
ksw
Co
ntr
ol
Figura 2.6: Diagrama de clases del software Linter-Vox (parte 1)
+se
arch
Rep
lace
(dat
a:S
trin
g,fin
d:S
trin
g,R
epla
ce:S
trin
g):S
trin
g
Tes
tCla
ss
~ tc
+do
wnl
oadP
age(
page
Url:
UR
L):S
trin
g
+pr
oced
imie
nto(
page
:Str
ing)
:Str
ing
Inte
rnet
Lec
tor
~
mez
cla
<<
crea
te>
>+Im
prim
irTex
to(a:
Str
ing[
]):
Impr
imirT
exto
+im
prim
ir(te
xto.
Str
ing[
]):S
trin
g[]
Imp
rim
irT
ext
~ s
2
<<
crea
te>
>+F
iltro
s(e:
Str
ing)
Filt
ros
+fil
trar
(b:S
trin
g):S
trin
g
+b:S
trin
g
Filt
ros
~ fi
ltros
~ e
<<
crea
te>
>+S
earc
h(a:
Str
ing[
],ca
mpo
:Str
ing)
:Sea
rch
+co
nect
(bu
sque
da:S
trin
g[],
cam
poB
usqu
eda:S
trin
g,in
dex:
int):
Str
ing[
]
+bu
sque
da:S
trin
g[]
+ca
mpo
Bus
qued
a:Str
ing
Sea
rch
~ s
<<
crea
te>
>+S
earc
h2(a
:Str
ing[
],ca
mpo
:Str
ing)
:Sea
rch2
+co
nect
(bu
sque
da:S
trin
g[],
cam
poB
usqu
eda:S
trin
g,in
dex:
int):
Str
ing[
]
+bu
sque
da:S
trin
g[]
+ca
mpo
Bus
qued
a:Str
ing
Sea
rch
2
<<
crea
te>
>+G
ener
ador2
(a:S
trin
g[])
:Gen
erad
or2
+es
critu
ra(
busq
ueda
:Str
ing[
]):v
oid
Gen
erad
or
~ c
+do
wnl
oadP
age(
page
Url:
UR
L):S
trin
g
Inte
rnet
+es
crib
e(bu
sque
da:S
trin
g):v
oid
Pal
abra
s
+In
icia
r(bu
sque
da:S
trin
g,lig
a:in
t,lin
k:in
t):vo
id
~ir:
int
~in
dex:
int=
0
~lin
ker:i
nt=
0
~a:
Str
ing[
]=ne
wS
trin
g[10
]
~b:
Str
ing[
]=ne
wS
trin
g[10
]
~d:
Str
ing[
]=ne
wS
trin
g[10
]
~o:
Str
ing[
]=ne
wS
trin
g[10
]
~f.S
trin
g[]=
{“1”
,”2”
,”3”
,”4”
,”5”
,”6”
,”7”
,”8”
,”9”
,”10
”}
~le
ngua
je:S
trin
g
Pri
mer
o
Figura 2.7: Diagrama de clases del software Linter-Vox (parte 2)
2.6 Ventajas y desventajas de Linter-Vox
Entre las principales ventajas que la versión de Linter-Vox desarrollada por Gustavo
Elizalde posee se encuentran la interfaz gráfica o control interactivo en forma de barra,
la cual permite una interacción más amigable con el usuario, el manejo de errores y de
banderas por medio de los cuales se hace estable el flujo del software y la funcionalidad
que permite al usuario conocer el estado en el que se encuentra el sistema.
Sin embargo, el sistema aún presenta dos grandes desventajas en materia de la
calidad de los resultados y la manera en que éstos son expuestos al usuario en su
condición de débil visual o invidente; y que por consiguiente, son los puntos que la
presente tesis busca atacar y resolver para hacer a Linter-Vox todavía un software más
eficiente.
La primera de las desventajas es en relación a la lectura simple del contenido de los
sitios Web que los usuarios visitan, ya que ésta, se realiza de forma sencilla sin tomar en
cuenta las estructuras que colocan en ciertas posiciones la información en la página
Web visitada las cuales, inducen al lector visual a seguir un orden de lectura de acuerdo
al lugar en donde se encuentra la información o las relaciones que existen entre datos y
encabezados de una tabla.
Para resolver dicho problema la primera acción a tomar será un análisis de la forma
en que las personas videntes escriben y leen tablas de datos para posteriormente,
desarrollar el módulo que implementará la metodología que se utiliza para dicha lectura
de tablas; será necesario el estudio de las diferentes formas de escritura de una tabla que
el lenguaje de programación HTML permite y por último, es necesario observar en
Internet el uso de las etiquetas <table> para diferenciar entre una tabla de datos y una
estructura tan sólo usada para el diseño de una página Web.
La segunda de las desventajas es en relación al tipo de documento contenido en
Internet que el software Linter-Vox es capaz de procesar para la lectura por parte del
agente de Microsoft al usuario. Actualmente Linter-Vox es capaz de procesar solamente
documentos de tipo HTML, limitando así la cantidad y calidad de información en
Internet a la que el usuario del software puede acceder. Siendo este un punto importante
dado que hoy en día Internet presenta cantidad de información en formato PDF que el
servicio de búsqueda de Google pone a disposición de los usuarios de Internet.
Además se encontró que existen detalles en cuanto al formateo del texto contenido
en las páginas Web que podrán ser mejorados. Dichas mejoras son por ejemplo la
eliminación de código HTML que aún se presenta al momento de dar lectura a la página
Web, dejando así por completo un texto que sólo refiere a la información sobre el tema
que el usuario desea investigar. De igual forma se encuentran caracteres extraños en la
lectura del texto final que serán reemplazados por los caracteres correspondientes a la
palabra en lectura.
Top Related