Detector de Billetes Para Personas Con Discapacidad Visual

download Detector de Billetes Para Personas Con Discapacidad Visual

of 104

Transcript of Detector de Billetes Para Personas Con Discapacidad Visual

  • i

    UNIVERSIDAD TECNOLGICA DEL PER

    FACULTAD DE INGENIERA ELECTRNICA Y MECATRNICA

    ESCUELA DE INGENIERA ELECTRNICA

    DETECTOR DE BILLETES PARA

    PERSONAS CON DISCAPACIDAD

    VISUAL

    GUZMN BRCENA, SHEYLLA

    ASESOR: HUAMANI NAVARRETE, PEDRO

    Tesis para optar el Ttulo de Ingeniero Electrnico

    Lima Per

    2012

  • ii

  • iii

    (A mis Padres, mi abuela, y

    amigos, que me apoyaron

    mucho.)

  • iv

    AGRADECIMIENTOS

    Me gustara tener palabras que expresan mi gratitud hacia quienes han

    participado directa e indirectamente del desarrollo de este proyecto; sin

    embargo hare lo posible por mencionarlos a todos. Gratitud es lo que ms

    tengo a Dios, por permitirme vivir esta vida que me consiente seguir en el

    camino de crecimiento y evolucin, que es el camino que hacemos todos cada

    da, a cada instante que nos pone a prueba la fortaleza y conviccin que

    debemos tener; como tambin fe en nosotros mismos y aun ms, fe en Dios.

    Mi agradecimiento especial es para mis padres, Rolando y Graciela, como

    tambin alguien muy querida; mi abuela, Rosa quien ha influido de manera

    continua sin descanso desde los comienzos de mi existencia y que es en gran

    medida responsable de mis pasos hasta el da de hoy. Debo decir en honor a

    la verdad, que mi ta Jenny ha sido quien me motivo a enfocar mi tesis a una

    poblacin minoritaria, como lo es; la de los no videntes, dado que a diario me

    muestra que esa minora la componen personas, cada una es hermano,

    padre, madre, abuela, primo, prima de alguien y que solo por ese alguien y

    su ser querido, ha valido la pena realizar sta tesis.

    Porque la amistad es sincera y se demuestra a cada momento gracias Gilbert

    por ser el amigo inigualable que siempre una persona deseara tener,

    innumerables son las veces que has estado acompandome y ayudndome

    ponindote a disposicin en nombre de esa amistad de aos que se ha

    forjado compartiendo casi toda la vida en la universidad y que espero siempre

    mantenerla, porque personas como t, debo reconocer que son contados. Por

    su compaa, paciencia y constancia, est siempre presente en mi mente

    Jos, quien ha inspirado y motivado mis pequeos logros. Mi lealtad es

    especial para l por amarme tal y como soy.

    La educacin y la cultura son la base del progreso y de la felicidad de los

    pueblos; gracias profesor Noel por su constancia y comprensin de seguir

    paso a paso la realizacin del proyecto.

  • v

    RESUMEN

    En el proyecto, se presenta uno de los problemas ms delicados de la

    poblacin no tan considerado por la sociedad en el pas, las personas con

    discapacidad visual son parte de la sociedad que encuentra un desafo diario

    en el manejo de dinero, tema que en el entorno global actual es de inters

    general. Con respecto a este asunto, el reconocimiento del valor de las

    monedas por parte de personas no videntes es factible, al constituirse estas

    monedas de distintos tamaos; sin embargo este no es el caso para los

    billetes.

    Establecido y reconocido el problema de estas personas con discapacidad

    visual, se corrobora la necesidad de contar con algn tipo de dispositivo

    autnomo para el reconocimiento de la denominacin de los billetes. De este

    modo, haciendo un anlisis de la comodidad y preferencias de estas personas,

    el requerimiento importante hace referencia a los telfonos celulares, los

    cuales tienen gran penetrabilidad en el mercado actual.

    El trabajo toma como fundamento terico las tcnicas de Procesamiento Digital

    de imgenes en especial al reconocimiento de imgenes. Este sistema ser

    capaz de ofrecer la opcin del reconocimiento de los billetes de comn

    circulacin en el Per: diez, veinte, cincuenta, y doscientos Nuevos Soles;

    utilizando una aplicacin de software para telfono mvil desarrollado en

    NetBIOS 7.0.1 en cdigos del lenguaje java as como tambin el uso del

    sistema operativo Symbian SO. Las pruebas se realizaron de preferencia en

    un telfono celular Nokia 5800d-1 XpressMusic por su resolucin de cmara.

  • vi

    Netbeans

    Software

    Symbian SO

    Java

    Nokia 5800d-1

    Cmara

  • vii

    ABSTRACT

    In the project, presents one of the most delicate problems of the population

    as seen by society in the country, people with visual disabilities are part of

    society that is a daily challenge in managing money, subject to the current

    global environment is of general interest. On this issue, recognizing the value of

    the coins by blind people is feasible, to become the coins of different sizes, but

    this is not the case for the tickets.

    Established and recognized the problem of these people with visual

    impairments, it is confirmed the need for some kind of stand-alone device for

    the recognition of the denomination of the bills. Thus, analyzing the

    convenience and preferences of these people, the important requirement

    refers to cell phones, which have great penetration in the market today.

    The theoretical work builds upon the techniques of Digital Image Processing in

    particular the recognition of images. This system will be able to offer the option

    of recognizing the common traffic tickets in Peru: ten, twenty, fifty and two

    hundred Dollars, using a software application for mobile phone developed in

    Netbeans 7.0.1 in java language codes as well as using the Symbian OS

    version S60 operating system. The preference tests were performed on a cell

    phone Nokia5800d-1 XpressMusic camera for its resolution.

  • viii

    Netbeans

    Symbian SO

    Java

    Recognition of images

  • ix

    NDICE GENERAL

    ACTA DE SUSTENTACIN ............................................................................ ii

    DEDICATORIA ............................................................................................... iii

    AGRADECIMIENTOS .................................................................................... iv

    RESUMEN ......................................................................................................v

    ABSTRACT .................................................................................................. viii

    NDICE GENERAL ......................................................................................... ix

    NDICE DE FIGURAS .................................................................................... xi

    INTRODUCCIN ........................................................................................... 1

    Justificacin y motivacin ...................................................................... 1

    Contribuciones de la investigacin ........................................................ 1

    Estado del arte ....................................................................................... 1

    CAPTULO 1: PROCESAMIENTO DIGITAL DE IMAGENES ........................ 3

    1.1 Fundamento terico ....................................................................... 3

    1.1.1 Procesamiento de imgenes digitales ..................................... 3

    1.1.2 Proceso de bajo nivel ............................................................... 4

    Representacin de una imagen en cdigos RGB .................... 4

    Adquisicin de una imagen digital ........................................... 6

    Conversin de una imagen RGB a escala de grises ............... 6

    Escalamiento de imagen ......................................................... 7

    Normalizacin de una imagen ............................................... 12

    1.1.3 Proceso de nivel medio .......................................................... 18

    Segmentacin de la imagen .................................................. 18

    Extraccin de contornos ........................................................ 31

    1.1.4 Proceso de alto nivel .............................................................. 42

    Reconocimiento de patrones ................................................. 42

    Reconocimiento ptico de caracteres (OCR) ........................ 44

  • x

    CAPTULO 2: DISEO, SIMULACIN E IMPLEMENTACIN .................... 53

    2.1 Diagrama de flujo o mapa conceptual de la investigacin............ 43

    2.2 Diseo .......................................................................................... 54

    2.3 Simulaciones ................................................................................ 62

    2.4 Implementacin ............................................................................ 62

    CAPTULO 3: RESULTADOS ...................................................................... 63

    3.1 Resultados ................................................................................... 63

    Manual del usuario del sistema .................................................... 66

    Requerimientos ............................................................................ 67

    Especificaciones del equipo ......................................................... 68

    Contenido del sistema .................................................................. 69

    Gua de instalacin ...................................................................... 70

    CONCLUSIN ............................................................................................. 75

    Conclusiones ....................................................................................... 75

    Trabajos Futuros .................................................................................. 76

    REFERENCIAS ............................................................................................ 77

    A N E X O S ................................................................................................. 82

    Anexo A: MENU DEL FORMATO .............................................................. 833

    Anexo B: CAMARA .................................................................................... 834

    Anexo C: CONEXION ................................................................................ 837

    Anexo D: EVENTOS .................................................................................. 838

    Anexo E: GUARDARCOMO ....................................................................... 839

    Anexo F: COMPARACIN DE BILLETES ................................................... 90

  • xi

    NDICE DE FIGURAS

    Figura 1.1.Diagrama esquemtico del cubo RGB y el cubo a 24 bits .............. 5

    Figura 1.2. Ejemplo del proceso de adquisicin de una imagen digital ............ 6

    Figura 1.3. Malla original y malla final de la operacin ..................................... 8

    Figura 1.4. Proceso de interpolacin para la asignacin del nivel de gris ...... 10

    Figura 1.5. Efecto del proceso de normalizacin ........................................... 16

    Figura 1.6. Normalizacin de imgenes ......................................................... 18

    Figura 1.7. Mscara 3 3 .............................................................................. 21

    Figura 1.9. Mascaras de lnea ........................................................................ 21

    Figura 1.10.histogramas de nivel de gris que se pueden segmentar ............. 22

    Figura 1.11.Histogramas y umbral T para la imagen segmentada ................. 24

    Figura 1.12.Funcin de reflectancia ............................................................... 27

    Figura 1.13. Ejemplo de clustering para dos variables y tres clusters ............ 31

    Figura 1.14. Mscaras de convolucin para el filtro gaussiano ...................... 33

    Figura 1.15. Extraccin de objetos ................................................................. 42

    Figura 1.16. Aprendizaje ................................................................................ 50

    Figura 1.17. Reconocimiento del carcter ...................................................... 51

    Figura 1.18. Etapas del Sistema OCR desarrollado ....................................... 52

    Figura 2.1. Esquema de flujo de data............................................................. 53

    Figura 2.2. Tablero del panel central .............................................................. 54

    Figura 2.3. Menu de Capturar ........................................................................ 56

    Figura 2.4. Menu de dispositivos con los diferentes formatos ........................ 56

    Figura 2.5. Menu de Otros ............................................................................. 56

    Figura 2.6. Ventana inicial del localHost ........................................................ 57

    Figura 2.7 base de datos de los billetes ......................................................... 58

    Figura 2.8 Ventana de la claseInsertar ........................................................ 59

    Figura 2.9 Tabla en la base de datos de los billetes almacenados ................ 60

    Figura 3.1 Pantalla principal ........................................................................... 63

    Figura 3.2 Formatos de seal de la cmara ................................................... 63

    Figura 3.3 Imagen captada desde la webcam ................................................ 64

    Figura 3.4 Archivo de almacenamiento de la imagen6Error! Marcador no definido.

    Figura 3.5 Billete numero 1 para la prueba .................................................... 65

  • xii

    Figura 3.6 Billete numero 2 para la prueba .................................................... 65

    Figura 3.7 Simulacin de comparacin en el Netbeans ................................. 66

    Figura 3.8 modelo del celular nokia................................................................ 69

    Figura 3.9 instalacin de la carpeta proyecto en el celular .......................... 70

    Figura 3.10 seleccin de la carpeta Capturefoto ............................................ 71

    Figure 3.11 resultado de la operacin que no reconoci el celular ................ 71

    Figura 3.12 programa de instalacin del proyecto .......................................... 72

    Figura 3.13 instalando el programa ................................................................ 72

    Figura 3.14 activacin de la cmara............................................................... 73

    Figura 3.15 captura de un billete de 100 soles ............................................... 73

  • 1

    INTRODUCCIN

    Justificacin y motivacin

    Consciente del importante papel que adquieren da a da las nuevas tecnologas

    de informacin y de la gran cantidad de tareas cotidianas es necesario poner a

    servicio las tecnologas para esta clase de personas especiales.

    De esta forma, los mtodos usualmente utilizados por ellos para reconocimiento

    de la denominacin de un billete en su posesin los ubican en una situacin

    desfavorable, ya sea por la dificultad e incomodidad de los mismos. Es por esta

    razn que me impulso a realizar un anlisis en una manera de contribuir y

    proporcionar a las personas invidentes y deficientes visuales en el Per,

    herramientas que contribuyan a mejorar sus oportunidades de insercin laboral,

    a travs de recursos que proporcionen servicios dirigidos a mejorar sus niveles

    de acceso a la Sociedad y como consecuencia a un futuro.

    Contribuciones de la investigacin

    La investigacin puede ser aplicada en el mbito empresarial y domstico para

    su beneficio ya que ayudar al desarrollo de aplicaciones para sistemas

    microprocesador porttiles, como los telfonos celulares como es este caso y

    particularmente la contribucin de alguna forma al mejoramiento de la calidad

    de vida de las minoras, como la poblacin de personas con algn tipo de

    discapacidad. Este proyecto se justifica por su prctica organizacional porque

    es til en su aplicacin que beneficiar a la sociedad de personas con alguna

    discapacidad visual dando la seguridad para una mejor calidad de vida laboral.

    Estado del arte

    Este reporte de investigacin expone el estado de arte acerca del

    reconocimiento de patrones, trabaja con base en un conjunto previamente

    establecido de todos los posibles objetos (patrones) individuales a reconocer.

    Primeramente se presenta el origen, los objetivos, los conceptos bsicos y la

  • 2

    importancia del anlisis de textura en imgenes. Se recoge de la literatura, un

    grupo de software usado del Reconocimiento de imgenes Digitales. Se expone

    desde la aparicin de los algoritmos de Reconocimiento ptico de Caracteres

    que han sido muchos los servicios que han introducido estos procesos para

    aumentar su rendimiento y otros que se basan completamente en estas

    tecnologas.

    La tecnologa OCR que permite convertir diferentes tipos de documentos (tales

    como los documentos de papeles escaneados, los archivos PDF o las

    imgenes de cmaras de fotos digitales), en archivos de formato modificable. .

  • 3

    CAPTULO 1: PROCESAMIENTO DIGITAL DE IMGENES

    1.1 Fundamento terico

    En el proyecto se utilizara como base los procesos digitales de imgenes

    (PDI) trata de resolver, mediante sus procesos el mejoramiento de la calidad

    o facilitar la bsqueda de informacin.

    - Procesamiento de imgenes digitales

    - Conversin a escala de grises

    - Escalamiento de imagen

    - Segmentacin de la imagen

    - Extraccin de contornos

    - Reconocimiento de patrones

    - Reconocimiento ptico de caracteres(OCR)

    1.1.1 Procesamiento Digital de Imgenes

    El PDI es el conjunto de tcnicas que se aplican a las imgenes digitales con

    el objetivo de mejorar la calidad o facilitar la bsqueda de informacin (1). Un

    sistema como el que se requiere en el presente proyecto, adoptara esta

    teora mediante la implementacin de varios de sus procesos, diagramados

    de forma general en la que da por una Imagen original que pasa por una

    adquisicin de la imagen digital para luego entrar al procesamiento digital de

    la imagen central. Dentro de este procesamiento existen etapas que definen

    la informacin del proceso de visin como son:

    - Procesamiento de bajo nivel: conversin a escala de grises y

    escalamiento de imagen

    - Procesamiento de nivel medio: segmentacin de la imagen y extraccin

    de contornos

    - Procesamiento de alto nivel: reconocimiento de patrones

  • 4

    Todos estos procedimientos que engloban el procesamiento digital de la

    imagen recolecta esta informacin para tomar las acciones que requieren en

    el proyecto.

    El procesamiento de imagen puede considerarse como un tipo especial del

    procesamiento digital en dos dimensiones, el cual se usa para revelar

    informacin sobre imgenes y que involucra hardware, software y soporte

    terico. El trmino imagen se rever a una funcin bidimensional de

    intensidad de luz f(x; y), donde X y Y denotan las coordenadas espaciales y

    el valor de f en cualquier punto (x; y) es proporcional al brillo (o nivel de gris)

    de la imagen en ese punto.

    Una imagen digital es una imagen f(x; y) que ha sido discretizada en

    coordenadas espaciales y en brillo. Una imagen digital puede considerarse

    como una matriz cuyos ndices del rengln y columna identican un punto en

    la imagen y el correspondiente valor del elemento de la matriz que identica

    el nivel de intensidad de luz en ese punto. Los elementos de tal arreglo digital

    son llamados elementos de imagen, elementos de pintura, pixeles o pels1.

    1.1.2 Proceso de bajo nivel

    Representacin de una imagen en cdigos RGB

    El modelo RGB consta de tres componentes primarios de cada color en el

    espectro2, este modelo est basado en un sistema de coordenadas

    cartesianas que forman un cubo que en sus 3 esquinas estn los valores

    RBG. En las dems 3 esquinas del cubo se encuentran los valores de cian,

    magenta y amarillo; y en el origen est el color negro como tambin en el

    1 pixels o pels; abreviaturas del ingls picture elements

    2 RBG son las siglas de los que componentes primarios del espectro que consta de tres colores en este

    modelo (rojo, verde y azul).

  • 5

    vrtice ms alejado del color negro se halla el blanco como muestra la

    siguiente figura 1. (1)

    Figura 1.1.Diagrama esquemtico del cubo RGB y el cubo a 24 bits

    En el modelo RGB se representa 3 imgenes y cada imagen est

    compuesta de un color primario, en el espacio RGB el nmero de bits que se

    utiliza para representar cada pixel se llama profundidad de pixel.

    Una imagen consta de 8 bits y cada pixel de color RGB tiene una profundidad

    de 24 bits3. Una imagen a color puede ser adquirida utilizando 3 filtros,

    sensitivos al rojo, verde y azul, respectivamente. Cuando observamos una

    escena de color con una cmara moncroma equipada con uno de estos

    filtros, el resultado es una imagen moncroma cuya intensidad es

    proporcional a la respuesta del filtro. Si se repite el proceso con cada filtro se

    producen 3 imgenes moncromas que son los componentes RGB de la

    escena en color4.

    Una imagen digital se obtiene mediante un adecuado proceso de adquisicin

    de datos, que captura la informacin de la imagen original situada en nuestro

    espacio tridimensional y la entrega en una matriz de valores de dos

    dimensiones, que representara a la imagen digital (1). Este proceso es

    3 El nmero total de colores en una imagen RGB de 24 bits es de (2

    8)

    3 = 16,777,216

    4 En la prctica los sensores RGB integran el proceso en un solo dispositivo

  • 6

    llevado a cabo mediante sistemas de adquisicin de imgenes, muchas

    veces ya incorporados en los sistemas microprocesados; usualmente, son

    las cmaras.

    Adquisicin de una imagen digital

    Esta se representa dentro de un sistema especialmente como la matriz de m

    x n elementos; es (2) decir que m filas y n columnas y cada elemento de

    esta matriz constituye la imagen digitalizada al cual se conoce como pixel y

    tiene una luminosidad de acuerdo al valor numrico asignado del punto que

    correspondiente de la imagen original en una escena captada, generalmente

    est basada en un rango de 0 a 255, es decir 8 bits; donde el negro

    representa el 0 y el blanco absoluto es 255. El nivel gris se encuentra en una

    luminosidad conocida como intensidad en el punto como muestra la siguiente

    grafica, figura 2. (3)

    Figura 1.2. Ejemplo del proceso de adquisicin de una imagen digital

    Conversin de una imagen RGB a escala de grises

    Consiste en una imagen RGB que puede transformar la informacin de los

    tres canales de color rojo, verde y azul, a un solo canal de intensidad de gris

    mediante la conversin de escala a grises.

  • 7

    Se establece de una sola imagen digital con informacin equivalente de la

    imagen real a una matriz de valores de intensidad. Existen varias formulas de

    realizar dicha conversin, entre las ms comunes se tiene:

    - NTSC: esta frmula estndar de conversin es la ms utilizada para el

    clculo de la iluminacin efectiva de cada pixel. (4).

    (1.1)

    - Promedio de RGB: esta frmula consiste en el promedio de los tres

    colores de RGB y es la ms sencilla y practica de obtener el nivel gris.

    (1.2)

    - Cuando las imgenes son tomadas con cmaras digitales de telfonos

    mviles presenta a menudo un efecto que los tres canales de color

    difieren en su calidad, contraste y nitidez por lo que se formula esta

    ecuacin para la conversin a escala gris. (5)

    (1.3)

    Escalamiento de imagen

    Una nueva tcnica para modificar el tamao de las imgenes, de manera

    simple, tambin es llamado redimensionado que junto a la traslacin y

    rotacin se encuentran dentro de las transformaciones geomtricas (2) para

    operar modificando las coordenadas especiales de la imagen. La

    transformacin de escalamiento implica un cambio en la disposicin de los

    pixeles respecto a un sistema de coordenadas. Para el anlisis se establece

  • 8

    de una adecuada nomenclatura de la distribucin espacial de los pixeles en

    dos entornos, estos son llamados malla original y malla final.

    La malla original es la matriz de resolucin original m x n y la malla final es

    aquella de resolucin final mf x nf. Estas matrices representan a la imagen

    original de entrada de la operacin (para este caso es una imagen en escala

    de grises), y la resultante es la imagen de la operacin es decir la imagen

    escalada.

    Se presentan dos imgenes como en la figura 3 (2) mostrada; en ambas

    imgenes los pixeles que se asignan valores de intensidad de gris, estas

    asumen estructuras matriciales que son espacialmente identificados por cada

    una de sus coordenadas, referenciadas con ndices, que son representadas

    como (i, j) y en parte final como (q, r).

    Figura 1.3. Malla original y malla final de la operacin de escalamiento y

    reduccin

    Este proceso se realiza en general mediante los siguientes pasos:

    A partir de las coordenadas de cada uno de los pixeles (q, r) de la malla

    final, se determina un conjunto de coordenadas (i, j) que corresponden a

    los pixeles seleccionados de la malla original para asignarse a los de la

  • 9

    malla final de destino. Esto se realiza mediante una funcin de

    transformacin (i, j) =((q, r)) que es particular de cada distinta

    operacin geomtrica.

    Determinar los valores de las intensidades a ser asignadas a las

    coordenadas de cada uno de los pixeles en la malla final (q, r), a partir de

    los valores de intensidad conocidos, de la malla original, de los pixeles

    en las coordenadas (i, j) que estn determinadas. Esto es necesario

    pues, el conjunto de coordenadas (i, j) no siempre se corresponde con

    valores existentes coordenadas (i, j), de tal forma que se necesita un

    criterio para la seleccin de la intensidad de gris a ser asignada en cada

    coordenada (q, r) de la malla final, el ms conveniente para mantener la

    geometra de la operacin. Esta operacin se conoce como interpolacin.

    La operacin de escalamiento en cuestin es una variacin del tamao de la

    imagen original, que se puede realizarse a los largo de cualquiera de los ejes

    coordenados de filas y columnas como la figura anterior como la figura se

    encuentra en el plano del eje x y el eje y entonces el escalado es mediante

    su factor de la forma de escala SX (direccin x) y Sy (direccin y).cuando el

    factor tome los valores entre 0 y 1 se producir una reduccin de la imagen y

    cuando sean los valores mayores que 1, se produce un aumento en la

    imagen. Para esta operacin se determina mediante las siguientes

    ecuaciones.

    q = SXi (1.4)

    r = Syj (1.5)

    Para los factores que implican en las aplicaciones de las ecuaciones

    anteriores, se determinan mediante la relacin por cociente existente entre

    las dimensiones de la malla final, contenedoras de la imagen escalada, y la

    malla original de la imagen de entrada:

  • 10

    (1.6)

    (1.7)

    Una vez ya obtenidas los valores de la nueva imagen con las coordenadas

    asignadas se calcula las coordendas de cada pixel de la malla

    final, seguidamente se obtienen las coordenadas pseudo discretas ,

    mediante la aplicacin de las ecuaciones 1.4 y 1.5 de la siguiente manera.

    (2.8)

    De esta forma se tiene un conjunto de x coordenadas , una para

    cada de la malla final, que corresponda a valores de coordenadas en la

    malla original.

    Para determinar los valores enteros de coordenadas correspondiente a

    cada coordenada para la seleccin de pixeles adecuados se opera

    mediante la interpolacin5.

    En este caso la operacin, asignara en la malla final al pixel de posicin

    un valor de gris en funcin de los pixeles que rodean al punto de posicin

    en la malla original, como muestra la figura 4.

    5 Interpolacin; esta operacin se puede considerar como el clculo del valores de la intensidad de un

    pixel, en una posicin cualquiera, como una funcin de los pixeles que le rodean.

  • 11

    Figura 1.4. Proceso de interpolacin para la asignacin del nivel de gris6

    Este tipo de interpolacin supone que el pixel al ser interpolado toma el

    mismo valor de intensidad que el ms cercano de entre los cuatro que le

    rodean asignndole de esta forma, al pixel de la malla final, el nivel gris

    del vecino ms cercano al punto superpuesto en la malla original; en

    este caso del ejemplo el valor de intensidad asignado es a .

    La determinacin de este vecino ms cercano se la puede realizar en base a

    ciertos criterios, de los cuales, uno de los ms usados es la realizacin de un

    redondeo de los valores de las coordenadas , mediante la relacin de

    redondeo ms comn de la forma siguiente:

    ; Donde: (2.8)

    Cabe destacar que la implementacin de una operacin de interpolacin

    puede realizarse con mtodos ms formales7 como los mtodos ms

    heursticos, siempre y cuando se mantenga la filosofa de la asignacin de un

    nivel de gris de los pixeles.

    La aplicacin de estas operaciones sobre una imagen en escala de grises

    completa las posiciones de la malla final para producir el mismo resultado

    esperado que es la imagen escalada.

    Con los programas de retoque se puede manipular el tamao de las fotos, su

    orientacin, o hacer que ocupen menos espacio en el disco duro. Si bien se

    trata de recursos muy cmodos, se debe valorar hasta qu punto se hace

    6 Existen varios tipos de interpolaciones; el utilizado en el ejemplo de la figura 5. es la interpolacin por

    vecino ms prximo tambin llamado interpolacin de orden cero (10 pg. 326). 7 Los mtodos ms formales pueden ser como la aplicacin de ncleos matemticos de interpolacin.

  • 12

    uso de ellos, su empleo no es gratuito para la imagen, que puede perder

    buena parte de su calidad visual.

    Cuando un escner, una cmara o un programa aplican tcnicas de

    interpolacin, lo hace para cambiar la cantidad o la orientacin de los pxeles.

    Al hacer un remuestreo, a la cuadrcula inicial se superpone otra de distinto

    tamao o frecuencia, y a partir de los valores de color originales se calculan

    los pxeles nuevos. Con lo cual, la primera regla a tener en cuenta es que no

    se debe remuestrear ms veces de las necesarias, porque no es una

    operacin reversible. As en una foto de 300 ppp, se remuestrea en cada

    paso a la mitad de su resolucin: 150, 70 y 30 ppp. Al mantener el tamao

    superficial, los pxeles van duplicando su tamao en ancho y alto.

    En este punto, se vuelve a usar la misma tcnica para retroceder, al

    aumentar de nuevo la resolucin: de 30 a 70 ppp, luego a 150 ppp y,

    finalmente, a 300 ppp. Como los pxeles nuevos son calculados y no

    proceden de la toma original, no se recupera la misma informacin, el

    promediado resultante desdibuja las formas.

    Normalizacin de una imagen

    Normalizacin de imagen se refiere a la eliminacin de las variaciones de la

    imagen (como el ruido, la iluminacin, o la oclusin) que estn relacionados

    con las condiciones de adquisicin de imgenes y no son pertinentes a

    objeto de identidad. Normalizacin de la imagen se puede utilizar como una

    etapa del proceso previo para ayudar a ordenador o la percepcin de objetos

    humanos. En este trabajo, un mtodo de normalizacin de la imagen basada

    en la clase se propone.

    Los objetos de este mtodo estn representados en la base del PCA, y la

    informacin mutua se utiliza para identificar irrelevante componentes

    principales. Estos componentes son descartados para obtener una imagen

    normalizada que no se ve afectada por las condiciones especficas de

  • 13

    adquisicin de la imagen. El mtodo se demuestra a producir resultados

    visualmente agradables y mejorar significativamente la precisin de los

    algoritmos de reconocimiento conocido.

    El uso de informacin mutua es una ventaja significativa sobre el mtodo

    estndar de los descartes componentes de acuerdo con los valores propios,

    ya que corresponden a la variacin y no tienen relacin directa con la

    relevancia de los componentes de la representacin. Una ventaja adicional

    del algoritmo propuesto es que muchos tipos de variaciones de la imagen

    que se manejan en un marco unificado.

    Normalizacin de imagen se refiere a la eliminacin de las variaciones de la

    imagen (como el ruido, la iluminacin, o la oclusin) que estn relacionados

    con las condiciones de adquisicin de imgenes y no son pertinentes a

    objeto de identidad. El objetivo es obtener una imagen estndar, sin

    artefactos derivados de las condiciones especficas en que se tom una

    imagen en particular. Por ejemplo, la iluminacin debe ser neutral, y no el

    ruido debe estar presente. Hay dos tipos de variaciones.

    La necesidad de normalizacin de la imagen surge por varias razones. En

    primer lugar, las variaciones de la imagen descrita anteriormente perturban

    gravemente las tareas, tales como el reconocimiento de objetos,

    normalizacin de la imagen por lo tanto puede ser una etapa til del proceso

    previo para estas tareas. Adems, la normalizacin de la imagen puede

    utilizarse para facilitar la percepcin de objetos humanos, por ejemplo, para

    ayudar a su reconocimiento.

    o Los mtodos actuales de normalizacin

    Anlisis de componentes principales (PCA) se aplica con frecuencia a

    diversas tareas de procesamiento de imgenes. Sin embargo, su uso se

    ha basado en observaciones empricas relacionadas con la magnitud de los

  • 14

    valores propios. Esta magnitud corresponde a la varianza explicada por el

    componente correspondiente.

    Por ejemplo, una tcnica comnpara la eliminacin de ruido aleatorio

    pequeo para descartar componentes principales con los ms pequeos

    valores propios. La eliminacin de tres componentes con valores propios

    mayores se ha utilizado para manejar las variaciones de iluminacin. Sin

    embargo, en general, los valores propios no tienen por qu corresponder

    a la relevancia de los componentes correspondientes a la representacin.

    Por ejemplo, si la varianza del ruido es mayor que la variacin de algunos

    componentes significativo, estos componentes se retiran junto con el

    ruido (6).

    El muestreo de las direcciones de iluminacin es poco probable que sea

    uniforme, y en esta situacin tres primeros valores propios ya no

    corresponden a la iluminacin.

    Por el contrario, la informacin mutua prevista por cada componente es

    una medida basada en principios de su importancia para la representacin.

    Dos importantes fuentes de variabilidad de la imagen son el ruido aleatorio y

    la iluminacin. A continuacin, los algoritmos especializados para manejo de

    cualquiera de estas tareas son revisados.

    La normalizacin de una imagen es el proceso que elimina los efectos

    eventuales variaciones de iluminacin y ruido debidas a las condiciones

    inherentes a la adquisicin de la imagen.

    Transformar es normalizar matemticamente las estadsticas de una imagen

    de modo que su media sea cero y su varianza uno de acuerdo con la

    siguiente ecuacin.

    (2.9)

  • 15

    Donde:

    : Media de la imagen original

    : Desviacin estndar de la imagen original

    g: Matriz de la imagen original

    : Matriz de la imagen normalizada

    Al calcular la matriz de la imagen normalizada con la ecuacin 2.9, los

    valores de dicha matriz suelen ser nmeros decimales cercanos a uno e

    incluso negativos: se puede notar que estos valores, en el dominio de las

    imgenes digitales, no tiene mucho sentido de ser, teniendo en cuenta que

    una imagen por lo general solo toma valores enteros entre 0 y 255.

    Por este motivo, la matriz de la imagen normalizada debe ser considerada

    como cualquier seal en dos dimensiones ya que el concepto de imagen

    como representacin visual pierde su sentido.

    Adicionalmente, la naturaleza decimal de la matriz es un problema al

    momento de implementar el proceso de normalizacin en plataformas de

    hardware sin unidades de procedimiento con decimales.

    A fin de superar este inconveniente, se suele modificar de manera que la

    media y varianza tomen valores tpicos de una imagen (e,g. media 100,

    varianza 80); con esto se logra que el rango de sea lo suficiente amplio

    para poder redondear o truncar sus valores sin incurrir en un error como el

    que se cometera al truncar una imagen con media cero y varianza uno.

    La ecuacin que permite realizar este ajuste se representa de la siguiente

    manera:

    (2.10)

    Donde

    : Media de la imagen original

  • 16

    : Desviacin estndar de la imagen original

    g: Matriz de la imagen original

    N: Matriz deseada de la imagen

    N: Desviacin estndar deseada de la imagen

    gN: Matriz de la imagen normalizada

    En el desarrollo de este estudio, la frmula 2.10 se adopta la ecuacin para

    la implementacin de la normalizacin. Para la muestra del efecto de

    normalizacin de una imagen se realiza bajo dos condiciones de iluminacin

    diferentes como muestra la siguiente figura 5 (7).

    Figura 1.5. Efecto del proceso de normalizacin

    (a) Imagen con iluminacin

    (b) Normalizacin de la imagen con iluminacin alta

    (c) Imagen con iluminacin baja

    (d) Normalizacin de imagen con iluminacin baja

  • 17

    o Proceso de insercin

    Aunque la imagen normalizada ofrece un dominio invariante a todas las

    distorsiones geomtricas, la implementacin discreta del proceso de

    normalizacin y su proceso inverso produce una degradacin visual a la

    imagen, debido a los procesos de interpolacin. Por lo tanto, en el algoritmo

    propuesto en vez de insertar la marca de agua en la imagen normalizada, el

    patrn de marca de agua es normalizada antes de su insercin, la

    normalizacin de la imagen original es usada solamente para determinar la

    energa de insercin adecuada, por lo que la insercin de marca de agua se

    lleva a cabo en el dominio espacial de la imagen sin normalizar (8). En esta

    seccin se describe la creacin del patrn de marca de agua y el proceso de

    insercin del mismo como sigue:

    a) Aplicar el procedimiento de normalizacin de imgenes descrito en la

    seccin anterior a la imagen original para generar una imagen

    normalizada.

    b) Dividir la imagen normalizada en bloques de 8x8 pxeles y seleccionar los

    bloques con textura fuerte. Para estimar una complejidad de textura de

    cada bloque de la imagen normalizada. Primero, los coeficientes de DCT

    de cada bloque son cuantificados usando una matriz de cuantificacin

    que usa una codificacin de entropa de JPEG. Si el k-simo bloque Fk(u,

    v), 0 u,v 7 satisface la condicin, este bloque es clasificado como

    textura fuerte, en otro caso el bloque pertenece a una textura dbil.

    La figura 6 (8) muestra un ejemplo de normalizacin de imgenes, en la

    cual, (c) es la imagen normalizada de ambas imgenes (a) original y (b)

    distorsionada geomtricamente.

  • 18

    Figura 1.6. Normalizacin de imgenes

    (a) Imagen original

    (b) Versin distorsionada de la imagen

    (c) Imagen normalizada obtenida de ambas imgenes

    1.1.3 Proceso de nivel medio

    Segmentacin de la imagen

    La segmentacin de una imagen implica la deteccin, mediante

    procedimientos de etiquetado deterministas o estocsticos, de los contornos

    o regiones de la imagen, basndose en la informacin de intensidad o/y la

    informacin espacial.

    Para las imgenes a nivel de gris, una de las tcnicas ms clsica y simple

    de segmentacin supone la determinacin de los modos o agrupamientos del

  • 19

    histograma, lo cual permite une clasificacin o umbralizacion8 de los pixeles

    en regiones homogneas (9). Este mtodo se puede generalizar a las

    imgenes multiespectrales, teniendo en cuenta que la segmentacin de las

    imgenes en color implica inicialmente la eleccin de un espacio de

    representacin para el color.

    Los algoritmos de segmentacin de imagen generalmente se basan en dos

    propiedades bsicas de los niveles de gris de la imagen: discontinuidad y

    similitud. Dentro de la primera categora se intenta dividir la imagen

    basndonos en los cambios bruscos en el nivel de gris. Las reas de inters

    en esta categora son la deteccin de puntos, de lneas y de bordes en la

    imagen. Las reas dentro de la segunda categora estn basadas en las

    tcnicas de umbrales, crecimiento de regiones, y tcnicas de divisin y

    fusin. Segn el grado de asociacin entre las operaciones de segmentacin

    y las de reconocimiento, se distinguen tres tipos principales de mtodos de

    segmentacin:

    - Los Mtodos explcitos o segmentacin en unidades fsicas:

    Estos mtodos, intervienen avanzando el proceso de reconocimiento.

    Las partes segmentadas se dividen prcticamente en letras, tanto que la

    segmentacin se considera una parte del proceso de reconocimiento.

    - Los Mtodos de segmentacin implcita o segmentacin en

    unidades lgicas:

    Los mtodos implcitos, consisten generalmente en una segmentacin

    ms fina y as conseguir los puntos de corte correctos. Las partes

    segmentadas son llamadas grafemas. Estos se usarn ms adelante,

    durante el proceso de reconocimiento/ clasificacin. Los grafemas

    8 La umbralizacion o binarizacion suele ser uno de los primeros pasos de los algoritmos de anlisis de

    imgenes. El objetivo de binarizar una imagen es convertir dicha imagen a una representacin de dos niveles como puede ser una imagen en blanco y negro.

  • 20

    estarn compuestos por fragmentos de caracteres, caracteres o grupos

    de caracteres.

    - Los Mtodos de segmentacin implcitos y exhaustivos:

    En este caso, es el reconocimiento quien gua la segmentacin, as que

    el sistema de evaluacin que se aplica aqu implica un reconocimiento

    por clculo de las posiciones sucesivas de la imagen y escoger las

    posiciones de segmentacin que se correspondan con las responsables

    de las partes ms significativas.

    o Deteccin de Discontinuidades

    En esta seccin se presenta varias tcnicas para detectar varios tipos de

    discontinuidades: puntos, lneas y bordes. El mtodo ms comn de

    buscar discontinuidades es la correlacin de la imagen con una mscara.

    En la gura 7 se puede ver un caso general de mscara de 3 3 (10).

    En este procedimiento se realiza el producto de los elementos de la

    mscara por el valor de gris correspondiente a los pixeles de la imagen

    encerrados por la mscara. La respuesta a la mscara de cualquier pixel

    de la imagen viene dado por la ecuacin siguiente:

    (2.11)

    Donde zi es el nivel de gris asociado al pixel de la imagen con coeciente

    de la mscara wi. Como suele ser habitual, la respuesta de la mscara

    viene referida a su posicin central. Cuando la mscara est centrada en

    un pixel de borde de la imagen, la respuesta se determina empleando el

    vecindario parcial apropiado.

  • 21

    Figura 1.7. Mscara 3 3

    o Deteccin de Puntos

    La deteccin de puntos aislados es inmediata. Empleando la mscara de

    la figura 8 (10), vamos a decir que se ha detectado un punto en la

    posicin en la cual est centrada la mscara |R| > T.

    Donde T es un umbral. Bsicamente se mide la diferencia entre el pixel

    central y sus vecinos, puesto que un pixel ser un punto aislado siempre

    que sea suficientemente distinto de sus vecinos. Solamente se

    considerarn puntos aislados aquellos cuya diferencia con respecto a sus

    vecinos sea significativa.

    Figura 1.8. Mscara usada para la deteccin de punto aislados.

  • 22

    o Deteccin de Lneas

    En este caso se consideran las mscaras de la figura 10. Si pasamos la

    primera de las mscaras a lo largo de la imagen, tendr mayor respuesta

    para lneas de ancho un pixel orientadas horizontalmente.

    Siempre que el fondo sea uniforme, la respuesta ser mxima cuando la

    lnea pase a lo largo de la segunda fila de la mscara. La segunda

    mscara de la figura 9 (10 pg. 450) responder mejor a lneas

    orientadas a 45; la tercera mscara a lneas verticales; y la ultima a

    lneas orientadas a 45.

    Figura 1.9. Mascaras de lnea

    Estas direcciones se pueden establecer observando que para la

    direccin de inters las mscaras presentan valores mayores que para

    otras posibles direcciones. Si denotamos con R1, R2, R3 y R4 las

    respuestas de las cuatro mscaras de la figura 3 para un pixel en

    particular, entonces si se cumple que |Ri| > |Rj | con j 6= i, ser ms

    probable que dicho pixel est asociado a la direccin correspondiente a

    la mscara i.

    o Deteccin de Bordes

    La deteccin de bordes es el procedimiento empleado ms

    habitualmente para la deteccin de discontinuidades. Un borde se define

    como la frontera entre dos regiones con nivel de gris relativamente

  • 23

    diferente. Vamos a suponer a partir de ahora que las regiones de inters

    son suficientemente homogneas de modo que la transicin entre dichas

    regiones se puede determinar empleando exclusivamente las

    discontinuidades en el nivel de gris.

    La idea bsica detrs de cualquier detector de bordes es el clculo de un

    operador local de derivacin. En la parte derecha se puede ver una

    imagen de una banda clara sobre un fondo oscuro, el perfil a lo largo de

    una lnea horizontal y la primera y segunda derivada de dicho perfil. Se

    puede observar que el perfil del borde se ha modelado como una

    discontinuidad suave. Esto tiene en cuenta el hecho de que en las

    imgenes reales los bordes estn ligeramente desenfocados.

    Como se puede observar la primera derivada es positiva para cambio a

    nivel de gris ms claro, negativa en caso contrario y cero en aquellas

    zonas con nivel de gris uniforme. La segunda derivada presenta valor

    positivo en la zona oscura de cada borde, valor negativo en la zona clara

    de cada borde y valor cero en las zonas de valor de gris constante y justo

    en la posicin de los bordes. El valor de la magnitud de la primera

    derivada nos sirve para detectar la presencia de bordes, mientras que el

    signo de la segunda derivada nos indica si el pixel pertenece a la zona

    clara o a la zona oscura. Adems la segunda derivada presenta siempre

    un cruce por cero en el punto medio de la transicin. Esto puede ser muy

    til para localizar bordes en una imagen.

    Aunque lo que llevamos dicho se refiere a perfiles unidimensionales, la

    ex tensin a dos dimensiones es inmediata. Simplemente se define el

    perfil en la direccin perpendicular a la direccin del borde y la

    interpretacin anterior seguir siendo vlida. La primera derivada en

    cualquier punto de la imagen vendr dada por la magnitud del gradiente,

    mientras que la segunda derivada vendr dada por el operador

    Laplaciano.

  • 24

    o Tcnicas de Umbrales

    Supongamos que el histograma de los niveles de gris de una imagen I(x,

    y) es el que se muestra en la figura 10(a) (10). La imagen I(x, y) est

    compuesta de objetos claros sobre fondo oscuro de tal forma que los

    niveles de gris est agrupados en dos modos predominantes. Una forma

    de separar los objetos del fondo consiste en seleccionar un umbral T que

    separe esos modos9.

    Entonces, cualquier punto (x, y) para el que se cumpla que:

    I(x, y) > T (1.12)

    Se lo etiqueta como objeto; en otro caso, como fondo. La figura 10(b)

    muestra el histograma de otra imagen en un caso ms general.

    Figura 1.10.histogramas de nivel de gris que se pueden segmentar

    con (a) un nico umbral y (b) con mltiples umbrales

    En este caso el histograma de la imagen est caracterizado por tres

    modos dominantes. Esto ocurrir cuando tengamos dos tipos de objetos

    claros sobre fondo oscuro, por ejemplo. Se puede utilizar el mismo

    principio para clasificar cada punto (x, y). Si T1 < I(x, y) T2 entonces se

    9 Los mtodos de umbralizacion que se observaran en las siguientes paginas se puede encontrar en

    mayor detalle en la referencia (35) de otra parte, un desarrollo matemtico mas extenso sobre la integral de una imagen puede ser encontrado en (36 pgs. 137-154).

  • 25

    lo etiqueta como primer objeto, si I(x, y) > T2 como segundo objeto y si

    I(x, y) T1 como fondo. En general, este tipo de clasificacin con varios

    umbrales es menos viable, ya que es ms difcil determinar esos

    umbrales que aslen de forma efectiva las regiones de inters,

    especialmente cuando el nmero de modos del histograma aumenta. En

    este caso es mejor emplear umbrales variables.

    En general, un mtodo de umbral se puede ver como una operacin en la

    que se hace un test de cada pixel con respecto a una funcin T de la

    forma

    T = T (x, y, p(x, y), I(x, y)] (1.13)

    Donde I(x, y) es el nivel de gris del punto (x, y) y p(x, y) denota cualquier

    propiedad local de ese punto (como por ejemplo el nivel de gris medio en

    un vecindario centrado en (x, y)). El mtodo de umbral dar lugar a otra

    imagen B(x, y) definida por:

    (1.14)

    En este caso un pixel con etiqueta 1 de la imagen B corresponder a

    objetos, mientras que un pixel con etiqueta 0 corresponder al fondo.

    Cuando T dependa slo del nivel de gris I(x, y) se denomina umbral

    global (en la figura 11(a) se puede ver un ejemplo en este caso). Si T

    depende tanto del nivel de gris I(x, y) como de la propiedad local p(x, y),

    el umbral se denomina local. Si, adems, T depende de las coordenadas

    espaciales x e y, el umbral se denomina dinmico.

    En la figura 11(a) (10) se puede ver el histograma para el que se ha

    fijado un umbral T. En la figura 11(b) se muestra el resultado de

    segmentar dicha imagen con ese umbral T.

  • 26

    Figura 1.11. (a) Histogramas y umbral T para la imagen. (b)

    Imagen segmentada usando el umbral T

    Como se puede apreciar el histograma de esta imagen es bimodal. Sin

    embargo, el valle no est claramente marcado debido fundamentalmente

    a que la iluminacin de la imagen no es constante. Esto influye

    enormemente en el histograma como veremos a continuacin. Sin

    embargo, en este caso la segmentacin es bastante adecuada, excepto

    en la zona inferior donde la iluminacin de la imagen es peor.

    o Influencia de la Iluminacin

    La formacin de una imagen I(x, y) se puede ver como:

    I(x, y) = R(x, y) L(x, y) (1.15)

    Donde R(x, y) es la componente de reflectancia y L(x, y) la de

    iluminacin. Vamos a ver cul es el efecto de la componente de

    iluminacin L(x, y) de cara a poder segmentar la imagen I(x, y).

    Vamos a considerar la funcin de reflectancia R(x, y) generada con

    ordenador de la figura 12(a). El histograma de esta funcin, como se

    aprecia en la figura 12(b), es claramente bimodal y la imagen se puede

    segmentar fcilmente mediante un umbral situado en el valle del

  • 27

    histograma. Consideramos ahora la funcin de iluminacin L(x, y)

    generada con ordenador de la figura 12(c).

    Multiplicando las funciones de reflectancia e iluminacin obtenemos la

    imagen I(x, y) mostrada en la figura 12(d) (10). En el histograma de la

    imagen I(x, y), como se puede ver en la figura 12, el valle prcticamente

    ha desaparecido por completo, por lo que la segmentacin mediante un

    nico umbral es en este caso imposible.

    Aunque en general casi nunca se dispone de la funcin de reflectancia

    aislada, este ejemplo muestra que la naturaleza reflectiva de los objetos

    y del fondo son tales que son fcilmente separables. Sin embargo, la

    imagen resultante, debido a una mala iluminacin, es muy difcil de

    segmentar.

    La razn por la que el histograma de la reflectancia se ve modificado por

    la iluminacin se puede explicar de forma sencilla. Vamos a tomar

    logaritmos en la ecuacin () obteniendo otra imagen:

    Z(x, y) = ln I(x, y) = lnR(x, y) + lnL(x, y) = R(x, y) + L(x, y) (2.16)

    (a) (b)

  • 28

    (c) (d)

    (e)

    Figura 1.12. (a) Funcin de reflectancia R(x, y) generada con ordenador.

    (b) Histograma de la funcin de reflectancia. (c) Funcin de iluminacin

    L(x, y) generada con ordenador. (d) Imagen I(x, y) producto de las

    funciones de reflectancia e iluminacin. (e) Histograma de la imagen.

    Si R(x, y) y L(x, y) son variables independientes, el histograma de Z(x, y)

    viene dado por la convolucin de los histogramas de R(x, y) y L(x, y). Si

    la iluminacin L(x, y) es constante, L(x, y) tambin lo es, y su histograma

    ser un impulso. La convolucin de este impulso con el histograma de la

    reflectancia R(x, y) no lo modifica y por lo tanto la imagen I(x, y) tiene el

    mismo histograma que la reflectancia R(x, y). Si por el contrario la

    iluminacin L(x, y) tiene un histograma ms ancho, el proceso de la

    convolucin con el histograma de la reflectancia R(x, y), dar lugar a que

    el histograma de la imagen I(x, y) sea sustancialmente diferente al

    histograma de la componente de reflectancia R(x, y). El grado de

    distorsin depender de cmo de ancho sea el histograma de la

    componente de iluminacin L(x, y), es decir, de cmo de no uniforme sea

    la iluminacin.

  • 29

    Cuando se tenga acceso a la fuente de iluminacin, una solucin que se

    emplea habitualmente para compensar la no uniformidad de esta,

    consiste en proyectar la iluminacin sobre una superficie clara y plana.

    Esta proyeccin dar lugar a una imagen G(x, y) = kL(x, y), donde k es

    una constante que depende de la reflectividad de la superficie. Ahora

    para cualquier otra imagen I(x, y) formada a partir de la ecuacin (2.15)

    para una funcin de reflectividad dada R(x, y) y para la misma funcin de

    iluminacin L(x, y), podemos compensar la iluminacin haciendo

    (1.17)

    Entonces si R(x, y) se puede segmentar empleando un umbral T,

    entonces la imagen H(x, y) tambin, empleando un umbral T/k. Este

    mtodo se puede emplear siempre que la iluminacin no cambie de

    imagen a imagen.

    o Umbrales basados en Varias Variables

    Hasta ahora se ha considerado la determinacin de umbrales para una

    nica variable: el nivel de gris de la imagen. En algunos casos, se

    dispone de varias variables que caracterizan cada pixel de la imagen. Un

    ejemplo muy claro son las imgenes en color, donde se dispone de las

    componentes RGB para formar la imagen compuesta en color. En este

    caso, cada pixel se caracteriza por tres variables, y se puede construir un

    histograma en tres dimensiones.

    El concepto de segmentacin mediante umbral en este caso da lugar el

    empleo de tcnicas de clasificacin o clustering10.

    10

    El Anlisis Cluster, tambin conocido como Anlisis de Conglomerados, Taxonoma Numrica o Reconocimiento de Patrones, es una tcnica estadstica multivariante cuya finalidad es dividir un conjunto de objetos en grupos.

  • 30

    Si se han encontrado K clusters significativos en el espacio de las

    variables, la imagen se puede segmentar asignando a cada pixel una de

    las K etiquetas a todos aquellos pixeles cercanos al cluster

    correspondiente a esa etiqueta. La complejidad de esta clasificacin

    depende del nmero de variables y del nmero de clusters. Adems si se

    desconoce el nmero de clusters el problema se complica an ms

    .

    En el caso particular que se conozca el nmero de clusters se puede

    emplear el algoritmo LBG o K-means. Este algoritmo permite determinar

    iterativamente el centroide de cada uno de los K clusters y la particin del

    espacio de los parmetros en K zonas, una para cada cluster. Partiendo

    de una estimacin inicial para los centroides, se clasifica los datos segn

    esos centroides. A partir de los datos clasificados para cada cluster se

    vuelve a determinar el centroide para ese cluster. Esto se repite hasta

    que la posicin de los centroides de los clusters y la clasificacin de los

    datos no cambien apreciablemente. La imagen segmentada viene dada

    entonces por las etiquetas correspondientes a la ltima clasificacin.

    Es particularmente importante la clasificacin de imgenes en color

    basada en tono y saturacin. Estas propiedades de color son

    particularmente importantes, a diferencia de los canales RGB, porque

    son equivalentes a como se perciben los colores en el sistema visual

    humano. En este caso tenemos dos variables y se pueden emplear

    tcnicas de clasificacin o clustering en dos dimensiones.

  • 31

    Figura 1.13: Ejemplo de clustering para dos variables y tres clusters.

    En la figura 13 (11) se puede ver un ejemplo para tres clusters junto con

    las regiones de clasificacin (umbrales en dos dimensiones).

    Extraccin de contornos

    Separacin de elementos significativos de la superficie de los objetos los

    contornos resumen la mayor parte de la informacin de una imagen

    Deteccin de puntos de contorno

    Cambios de luminosidad en la imagen

    o Mximos del Gradiente

    En el rea de procesamiento de imgenes, la deteccin de los bordes de

    una imagen es de suma importancia y utilidad, pues facilita muchas

    tareas, entre ellas, el reconocimiento de objetos, la segmentacin de

    regiones, entre otras.

    Se han desarrollado variedad de algoritmos que ayudan a solucionar este

    inconveniente. El algoritmo de Canny11 es usado para detectar todos los

    11

    Algoritmo de Canny es un operador desarrollado por John F. Canny en 1986 que utiliza un algoritmo de mltiples etapas para detectar una amplia gama de bordes en imgenes (37 pgs. 679-698).

  • 32

    bordes existentes en una imagen. Este algoritmo est considerado como

    uno de los mejores mtodos de deteccin de contornos mediante el

    empleo de mscaras de convolucin y basado en la primera derivada.

    Los puntos de contorno son como zonas de pxeles en las que existe un

    cambio brusco de nivel de gris. En el tratamiento de imgenes, se

    trabaja con pxeles, y en un ambiente discreto, es as que en el algoritmo

    de Canny se utiliza mscaras, las cuales representan aproximaciones en

    diferencias finitas.

    Uno de los mtodos relacionados con la deteccin de bordes es el uso

    de la primera derivada, la que es usada por que toma el valor de cero en

    todas las regiones donde no vara la intensidad y tiene un valor

    constante en toda la transicin de intensidad. Por tanto un cambio de

    intensidad se manifiesta como un cambio brusco en la primera derivada,

    caracterstica que es usada para detectar un borde, y en la que se basa

    el algoritmo de Canny. El algoritmo de Canny consiste en tres grandes

    pasos:

    - Obtencin del gradiente: en este paso se calcula la magnitud y

    orientacin del vector gradiente en cada pxel.

    - Supresin no mxima: en este paso se logra el adelgazamiento del

    ancho de los bordes, obtenidos con el gradiente, hasta lograr bordes de

    un pxel de ancho.

    - Histresis de umbral: en este paso se aplica una funcin de histresis

    basada en dos umbrales; con este proceso se pretende reducir la

    posibilidad de aparicin de contornos falsos.

    o Obtencin del gradiente

    Para la obtencin del gradiente, lo primero que se realiza es la aplicacin

    de un filtro gaussiano a la imagen original con el objetivo de suavizar la

    imagen y tratar de eliminar el posible ruido existente. Sin embargo, se

    debe de tener cuidado de no realizar un suavizado excesivo, pues se

  • 33

    podran perder detalles de la imagen y provocar un psimo resultado

    final. Este suavizado se obtiene promediando los valores de intensidad

    de los pxeles en el entorno de vecindad con una mscara de

    convolucin de media cero y desviacin estndar . En la figura 14 se

    muestran dos ejemplos de mscaras que se pueden usar para realizar el

    filtrado gaussiano.

    Una vez que se suaviza la imagen, para cada pxel se obtiene la

    magnitud y mdulo (orientacin) del gradiente, obteniendo as dos

    imgenes. El algoritmo para este primer paso se describe a continuacin.

    Figura 1.14. Mscaras de convolucin recomendadas para el

    obtener el filtro gaussiano. La mscara (a) fue obtenida de (12),

    mientras que la mscara (b) fue obtenida de (13).

    En situaciones ms complejas es necesario realizar un procesado

    posterior, a nivel ms alto, para interpretar, reconocer o clasicar los

    objetos segmentados a bajo nivel, y as dar conectividad o eliminar los

    falsos positivos y negativos.

    Una solucin ms satisfactoria consiste en utilizar unas tcnicas de

    aparicin ms reciente que son mucho ms robustas, aunque requieren

    bastante ms tiempo de clculo. Estas tcnicas las podemos agrupar en

    lo que se han venido a denominar con el trmino genrico de contornos

  • 34

    activos. Estos contornos modelan las fronteras entre un objeto, el fondo y

    el resto de objetos de la imagen.

    Permiten extraer los contornos de los objetos de inters basndonos en

    modelos que utilizan informacin a priori de la forma de los objetos. Estas

    tcnicas son mucho ms robustas frente a la presencia de ruido y otros

    elementos espureos y permiten segmentar imgenes mucho ms

    complejas que las imgenes para las que eran aplicables los mtodos de

    segmentacin de bajo nivel, como son las imgenes mdicas, por

    ejemplo.

    La solucin proporcionada por estas tcnicas en general no requiere

    procesado posterior y son directamente interpretables, puesto que se

    basan en un modelo establecido a priori. Si este modelo es el adecuado,

    la presencia de falsos positivos o negativos ser muy pequea.

    o Supresin no mxima al resultado del gradiente

    Las dos imgenes generadas en el paso anterior sirven de entrada para

    generar una imagen con los bordes adelgazados. El procedimiento es el

    siguiente: se consideran cuatro direcciones identificadas por las

    orientaciones de 0, 45, 90 y 135 con respecto al eje horizontal. Para

    cada pxel se encuentra la direccin que mejor se aproxime a la direccin

    del ngulo de gradiente (14).

    o Algoritmo: Obtencin de Gradiente

    Entrada: imagen I

    Mscara de convolucin H, con media cero y desviacin estndar .

    Salida: imagen m E de la magnitud del gradiente

    Imagen o E de la orientacin del gradiente

  • 35

    1. Suavizar la imagen I con H mediante un filtro gaussiano y obtener J como

    imagen de salida.

    2. Para cada pxel (i, j) en J, obtener la magnitud y orientacin del gradiente

    basndose en las siguientes expresiones:

    El gradiente de una imagen f(x,y) en un punto (x,y) se define como un

    vector bidimensional dado por la ecuacin:

    (1.18)

    Siendo un vector perpendicular al borde, donde el vector G apunta en la

    direccin de variacin mxima de f en el punto (x,y) por unidad de

    distancia, con la magnitud y direccin dadas por:

    (1.19)

    Obtener Em a partir de la magnitud de gradiente y Eo a partir de la

    orientacin, de acuerdo a las expresiones anteriores. Posteriormente se

    observa si el valor de la magnitud de gradiente es ms pequeo que al

    menos uno de sus dos vecinos en la direccin del ngulo obtenida en el

    paso anterior. De ser as se asigna el valor 0 a dicho pxel, en caso

    contrario se asigna el valor que tenga la magnitud del gradiente.

    La salida de este segundo paso es la imagen In con los bordes

    adelgazados, es decir, Em (i j), despus de la supresin no mxima de

    puntos de borde.

  • 36

    o Contornos activos

    Los contornos activos se puede clasicar en snakes (serpientes) (15),

    patrones deformables y contornos dinmicos. Los snakes12 son

    mecanismos para dar cierto grado de conocimiento a priori a la

    interpretacin de la imagen a bajo nivel.

    En lugar de esperar que propiedades deseables de los contornos como

    son continuidad y suavidad provengan de los datos de imagen, estas

    propiedades son impuestas desde el principio. Se impone un modelo

    elstico de curva continua y exible, que posteriormente se ajustar a los

    datos de la imagen. Variando los parmetros de elasticidad de la curva

    se puede controlar la cantidad de informacin a priori que se asume.

    El modelado a priori se puede hacer ms especco construyendo un

    conjunto de curvas exibles que formarn el contorno global, con un

    conjunto de parmetros que controlen las variables cinticas de la curva,

    como por ejemplo, los tamaos de las diferentes partes y los ngulos con

    las que se unen. Un modelo como este recibe el nombre de 1patron

    deformable y es un mecanismo muy potente para buscar estructuras

    conocidas en una imagen.

    En caso de que sea necesario localizar objetos en movimiento, las cosas

    se complican aun ms dando lugar al problema del seguimiento de

    objetos. Esto se denomina modelado dinmico, para el que es necesario

    aadir inercia, fuerzas de restauracin y factor de amortiguamiento al

    snake esttico. Cuando las curvas sean de seguimiento y utilicen

    informacin dinmica a priori reciben el nombre de contornos dinmicos.

    12

    Los contornos activos, tambin llamados 'Snakes', son unas lneas curvas cerradas que van evolucionando iterativamente hasta que se adaptan la figura buscada en una escena. Los Snakes pueden ser internos (cuando se inicializan en el interior de la figura) externos (cuando se inicializan en el exterior) o mixtos (cuando se inicializan cortando a la figura). Los tres problemas de estos algoritmos son: Inicializacin, criterio de parada y coste computacional.

  • 37

    o Algoritmo de Burns

    Esta tcnica de extraccin de lneas rectas est basada en dos

    observaciones realizadas sobre muchos algoritmos de extraccin de

    lneas (16):

    1) carecen de una vista global de la estructura fundamental de la imagen

    prioritaria para la toma de decisiones acerca de los sucesos de bordes

    2) relegan la informacin de la orientacin de los bordes a un plano

    secundario en el procesamiento.

    En la mayora de los algoritmos de extraccin de bordes y lneas, el

    cambio en la magnitud de la intensidad se usa de algn modo como una

    medida de la importancia local del borde. Mientras que la informacin de

    la orientacin de los bordes puede ser usada para modular el proceso de

    agrupacin aplicado a las lneas importantes, la magnitud del borde

    normalmente tiene la influencia dominante y central. Segn Burns, la

    orientacin del borde transporta la informacin importante sobre la

    colocacin de los pixel que participan en la variacin de intensidad que

    delimitan la lnea recta, particularmente en su extensin espacial.

    El gradiente de orientacin es definido como la direccin de mximo

    cambio de nivel de gris medido sobre un rea pequea alrededor del

    pixel, o de forma equivalente, como la direccin local de incrementos

    ascendentes (o descendentes) en intensidad superficial. El modelo de

    pixel tiene dos caractersticas:

    a) el gradiente de magnitud local (medido sobre una pequea ventana

    local) variar significativamente sobre la superficie de intensidad, por

    razones citadas antes, particularmente en la direccin ortogonal a la

    lnea.

  • 38

    b) el gradiente de orientacin local variar relativamente poco a lo largo

    de la superficie de intensidad completa.

    Estas caractersticas son ciertas en la mayora de las lneas rectas que

    nosotros deseamos extraer en las imgenes digitalizadas. Por encima de

    basarse en la consistencia del gradiente de orientacin local, se

    desarrolla un algoritmo simple para la extraccin de regiones entorno de

    lneas, que son conjuntos de pixel que se incluyen en cada superficie de

    intensidad. De este modo, en un suceso de gran envergadura el paso

    difcil de la extraccin de todas las lneas puede ser reducido a simples

    agrupaciones y a un proceso de conexin de componentes. El beneficio

    adicional de la separacin de estas regiones entorno es que otros

    aspectos de la lnea, como el contraste y la anchura (o el rizado), pueden

    ser medidos ms exactamente.

    Sorprendentemente, las aproximaciones globales para la extraccin de

    lneas rectas, como los mtodos de la transformada de Hough13, no

    explotan la orientacin tanto como se podra pensar. Aunque los grupos

    de histograma de coordenadas (r, q) codifican la orientacin de los

    bordes en trminos de puntos colineales, una vez ms dominan las

    magnitudes de los bordes. El proceso global para la extraccin de lneas

    depende de la bsqueda de cumbres importantes en la transformada.

    Todas las tcnicas de Hough usan de alguna manera la magnitud del

    borde en el proceso de votacin, por un peso proporcional o por

    umbralizacin de tal modo que slo acceden los bordes importantes. As,

    es muy difcil extraer lneas grandes, coherentes, de bajo contraste

    porque su respuesta en el espacio (r, q) se reduce por el proceso de

    13

    La Transformada de Hough es un algoritmo empleado en reconocimiento de patrones en imgenes que permite encontrar ciertas formas dentro de una imagen, como lneas, crculos, etc. La versin ms simple consiste en encontrar lneas. Su modo de operacin es principalmente estadstico y consiste en que para cada punto que se desea averiguar si es parte de una lnea se aplica una operacin dentro de cierto rango, con lo que se averiguan las posibles lneas de las que puede ser parte el punto.

  • 39

    votacin, pudiendo ser ocultadas por la informacin de alto contraste y

    pudiendo existir presente otro tipo de ruido.

    La tcnica presentada aqu fue motivada por un mtodo de extraccin de

    lneas que encontrara lneas rectas en imgenes razonablemente

    complejas, particularmente aquellas lneas que son grandes pero no

    necesariamente de alto contraste.

    Una caracterstica clave de la aproximacin que la distingue de los

    trabajos previos es la organizacin global del contexto de entorno de

    lneas prioritario a cualquier decisin sobre la relevancia de los cambios

    locales de intensidad. Una estimacin de la orientacin local de cada uno

    de los pixel es la base de este primer proceso de organizacin. La

    agrupacin de pixel en regiones entorno de lneas evita el exceso de

    respuesta de las mscaras de tamaos y orientaciones variables, as

    como la complejidad innecesaria en la organizacin de mecanismos

    subsiguientes.

    Permite la extraccin de lneas rectas a pesar de las debilidades en la

    claridad de la lnea debido a variaciones locales en la anchura, contraste

    y orientacin. Esto traslada directamente el problema asociado con el

    tamao del operador del borde y determina la extensin de entorno dada

    a los bordes y lneas directamente desde de los datos fundamentales.

    La aproximacin tiene su origen en el proceso de coleccin de gradientes

    de Hanson, Riseman y Glazer (17). El proceso de coleccin de

    gradientes utiliza un mecanismo de datos directos para organizar el

    contexto completo del borde en una direccin para cada instante de

    tiempo (la componente vertical y horizontal) por encima de la anchura de

    una seccin de incremento o decremento montono del perfil de

    intensidad contribuyente al borde (por ejemplo, donde el signo del

    gradiente sea constante). El gradiente total del contraste fue entonces

  • 40

    distribuido alrededor de la localizacin del centroide del gradiente de

    magnitudes local en el perfil del borde.

    Este proceso organizaba la informacin del contraste de un lado al otro

    de la anchura de un borde sin comprometerse con ningn tamao fijo o

    con tamaos establecidos para el operador de bordes. Ambas tcnicas

    capturan el gradiente de informacin global que resulta de una tasacin

    ms exacta de la magnitud total del borde de un lado al otro de su

    anchura. Haralick14 tambin procesa la superficie de intensidad en el

    orden de crear decisiones acerca de las lneas, pero la diferencia clave

    es que sus tramos de superficie son locales, y afronta el mismo tipo de

    dificultades en la organizacin de esta informacin como lo hace el

    resultado de los operadores locales de bordes.

    La aproximacin aqu tomada ha generalizado el proceso global de

    organizacin contextual hacia dos dimensiones, agrupando los pixel de la

    imagen de un lado al otro de la anchura de un borde as como

    disminuyendo la longitud del borde, para formar la base para la

    extraccin de una lnea recta. Todos los pixel en esas regiones entorno

    de lnea contribuyen tanto a la representacin final de la lnea como a la

    generacin de un conjunto de atributos descriptivos que son tiles para

    procesamientos posteriores de los datos de la lnea. Las regiones

    entorno de lnea podran tambin ser usadas en la separacin de lneas

    rectas en imgenes intrnsecas representando bordes y lneas de

    diferentes tipos, tal como iluminacin, textura, reflejo, orientacin, etc.

    o Representacin y proceso para la extraccin de lneas rectas

    La aproximacin general para la extraccin de lneas rectas es agrupar

    los pixel en regiones entono de lneas basadas en el gradiente de

    14

    HARALICK es miembro del IEEE por sus contribuciones en visin por computador y procesamiento de imgenes y un miembro de la Asociacin Internacional para el Reconocimiento de Patrones (IAPR) por sus contribuciones en el reconocimiento de patrones , procesamiento de imgenes, y para el servicio de IAPR

  • 41

    orientacin, y ms tarde extraer de cada regin un segmento de lnea

    recta. Hay que ver que cada una de las variaciones de intensidad,

    incluyendo los cambios de baja magnitud, inicialmente ser extrada

    como segmentos de lneas dbiles (a menudo de gran anchura). Durante

    la interpretacin de estas lneas, las regiones entorno adyacentes de bajo

    contraste pueden ser agrupadas en regiones homogneas y filtradas

    para que no sean vistas como lneas rectas dbiles.

    Hay cuatro pasos bsicos en la extraccin de lneas rectas:

    1) Agrupacin de pixel en regiones entorno de lneas

    Basadas en la similitud del gradiente de orientacin. Esto permite una

    organizacin directa de los datos de contexto de borde sin

    comprometerse a ningn tamao particular de mscara.

    2) Aproximacin de la superficie de intensidades por una superficie

    plana.

    La aproximacin plana es ponderada por el gradiente de magnitud

    asociado con los pixel de modo que dominar la intensidad en las partes

    ms empinadas.

    3) Extraccin de atributos

    De las regiones de entorno de lneas y aproximacin plana. Los atributos

    extrados incluyen la lnea representativa y su longitud, contraste,

    anchura, colocacin, orientacin y rectitud.

    4) Filtrado de lneas

    sobre los atributos para aislar los variados sucesos de la imagen como

    grandes lneas rectas de cualquier contraste, lneas pequeas de bajo

    contraste (textura pesada), lneas cortas de bajo contraste (textura

    ligera), regiones homogneas de lneas adyacentes de muy bajo

    contraste, y lneas en posiciones y orientaciones particulares.

  • 42

    1.1.4 Proceso de alto nivel

    Reconocimiento de patrones

    Un patrn es un arreglo de descriptores obtenidos de los objetos. La palabra

    caracterstica es comnmente usada en la literatura de reconocimiento de

    patrones para denotar a un descriptor. Una clase de patrn en una familia de

    patrones que comparten propiedades comunes. Las clases de patrones son

    denotadas como w1, w2,, wW, donde W es el numero de clases. El

    reconocimiento de patrones realizado por computadora involucra diversas

    tcnicas para realizar la asignacin de los patrones a sus respectivas clases

    automticamente y con la mnima intervencin posible por parte del ser

    humano (18).

    Los patrones pueden ser representados como vectores denotados por la letra

    x de la misma manera como se muestra en la figura 15 (19)

    Figura 1.15. Extraccin de objetos

  • 43

    (1.20)

    Donde cada componente xi representa el i-esimo descriptor y n es el

    nmero total de descriptores asociados con el patrn. Los vectores de

    patrones son representados como columnas (matrices de n1). As, un

    patrn puede ser expresado en la forma mostrada en (1.20) o en la forma

    equivalente x = (x1, x2, . . . , xn)T, donde T indica transposicin.

    o Momentos invariantes de Hu

    El reconocimiento visual de patrones y caracteres independientes de la

    posicin, tamao y orientacin, es uno de los objetivos en las muchas de

    las investigaciones. Para alcanzar este objetivo, se deben utilizar

    mtodos insensibles a las transformaciones geomtricas.

    Una tcnica muy utilizada en la extraccin de caractersticas es la de

    momentos invariantes15.

    Considrese un objeto geomtrico S en el espacio X. Se supone la

    existencia de un grupo de transformaciones admisibles G que acta en el

    espacio X. Un invariante escalar de un objeto S es una cantidad que no

    cambia su valor cuando el objeto S sufre cualquiera de las

    transformaciones admisibles, tales como rotacin, traslacin o

    escalamiento. Supngase que el objeto S tiene invariantes escalares

    I1, I2,. . ., In. Considrese que se obtiene el objeto S al transformar

    apropiadamente el objeto S usando transformaciones admisibles, los

    valores de estos invariantes escalares deben ser idnticos (20). 15

    La teora de los momentos invariantes para el reconocimiento de patrones fue introducida por Ming-Kuei Hu (19), por medio del teorema fundamental de momentos invariantes.

  • 44

    El uso de los momentos invariantes en imgenes de dos dimensiones es

    muy utilizado en el reconocimiento de patrones, ya que son muy tiles

    dado que se puede realizar el reconocimiento de un objeto an sin

    importar si ha sufrido transformaciones geomtricas como rotacin,

    traslacin y/o escalamiento. Los momentos invariantes han sido

    aplicados ampliamente en el reconocimiento de patrones, por ejemplo,

    en la localizacin automtica de objetos 2D y 3D (21), en la autenticacin

    de imgenes digitales (22), entre otros.

    Hu (19) propone un conjunto de momentos invariantes a las

    transformaciones geomtricas como la rotacin, traslacin y

    escalamiento. Este conjunto est formado por siete funciones denotadas

    por . Una vez que se han obtenido los momentos se puede establecer

    la clase para este tipo de patrones.

    o Clasificador de mnima distancia

    Las tcnicas de reconocimiento basadas en coincidencias representan a

    cada clase por un vector de patrones prototipo. Un patrn desconocido

    es asignado a la clase que se encuentre ms cerca en trminos de una

    mtrica predefinida. La forma ms simple es el clasificador de mnima

    distancia, lo cual implica el clculo de la distancia Euclideana entre el

    patrn desconocido y cada uno de los vectores prototipos. Est

    clasificada toma la distancia ms corta como decisin.

    Reconocimiento ptico de caracteres (OCR)

    Cuando se dispone de informacin en forma de documento impreso y se

    desea procesarla mediante un computador, existen dos opciones: una

    primera consistira en introducirla a travs del teclado, labor larga y

    tediosa. Otra posibilidad es automatizar esta operacin por medio de un

    sistema de OCR compuesto de un software y hardware adecuado que

    reducira considerablemente el tiempo de entrada de datos.

  • 45

    La tecnologa de reconocimiento de caracteres, OCR (Optical Character

    Recognition) engloba a un conjunto de tcnicas basadas en estadsticas,

    en las formas de los caracteres, transformadas y en comparaciones, que

    complementndose entre s, se emplean para distinguir de forma

    automtica entre los diferentes caracteres alfanumricos existentes. En

    realidad no se reconocen exactamente los caracteres de un determinado

    alfabeto, sino que es posible distinguir entre cualquier conjunto de formas

    o smbolos. Sin embargo, se debe tener en cuenta que la precisin que

    se obtiene en la prctica al intentar distinguir entre un conjunto de

    smbolos no es del 100%. Por lo tanto, es fcil deducir que cuanto ms

    numeroso es el conjunto de smbolos entre los que se debe decidir,

    mayor es la probabilidad de que se produzca un fallo de clasificacin

    (23).

    En todo sistema de reconocimiento ptico de caracteres (OCR) se

    distinguen al menos estas 4 etapas:

    - Adecuacin de la imagen (pre proceso).

    - Seleccin de la zona de inters (segmentacin).

    - Representacin digital de la imagen (extraccin de caractersticas).

    - Distincin del carcter contenido en la imagen (reconocimiento).

    Para cada una de las cuatro etapas es posible aplicar multitud de

    tcnicas ya existentes o desarrollar alguna especfica en funcin de las

    condiciones en las que se presentan los datos de entrada, que en el caso

    de OCR se puede traducir por las imgenes de entrada.

    Uno de los pasos ms difciles es la extraccin de las caractersticas, ya

    que es de gran dificultad elegir un conjunto ptimo de caractersticas. En

    general para que una caracterstica sea buena debe tener:

  • 46

    a) Discriminacin: Deben ser caractersticas que diferencien

    suficientemente una clase de otra.

    b) Deben tener igual valor para mismas clases.

    c) Independencia: Las caractersticas deben estar incorreladas unas de

    otras.

    d) Pequeo espacio para caractersticas: El nmero de caractersticas

    debe ser pequeo para la rapidez y facilidad de clasificacin.

    Adems las caractersticas deben contar con otros requerimientos como

    son que tengan un bajo gasto computacional, tanto en tiempo como en

    complejidad. Debido a estos motivos es muy difcil conseguir unas

    caractersticas ptimas.

    Normalmente, las tcnicas de OCR son tiles para digitalizar textos de

    algn libro (caracteres impresos) o formularios rellenados manualmente

    (caracteres manuscritos). Tanto en un caso como en el otro el desglose

    de los caracteres individuales es mucho ms sencillo que en el caso de

    texto manuscrito continuo, para el que es necesario la aplicacin de

    tcnicas de pre proceso y segmentacin ms complejas que en el caso

    de OCR (24).

    En esta fase de pre procesamiento (o adecuacin de la imagen) el

    objetivo que se persigue es eliminar de la imagen de cualquier tipo de

    ruido o imperfeccin que no pertenezca al carcter, as como normalizar

    el tamao del mismo. Adems, para el caso de OCR, la normalizacin de

    la imagen tambin puede implicar un binarizado de la misma.

    Para la eliminacin del ruido que puede aparecer en una imagen digital,

    bien provocada por manchas reales o grafas imperfectas, o bien por

    defectos tcnicos en la adquisicin o binarizado de la imagen, se utilizan

    diversos algoritmos:

  • 47

    - Etiquetado: para la divisin de la imagen en regiones de

    componentes conectadas.

    - Erosin / expansin: para la eliminacin de pequeos grupos de

    pxeles.

    - Umbralizado de histograma: para eliminar/seleccionar los objetos

    ms brillantes o ms oscuros de la imagen.

    o Esquema bsico de un algoritmo de Reconocimiento ptico de

    Caracteres

    Todos los algoritmos de Reconocimiento ptico de Caracteres tienen la

    finalidad de poder diferenciar un texto de una imagen cualquiera. Para

    hacerlo se basan en 4 etapas: Binarizacin, fragmentacin o

    segmentacin de la imagen, Adelgazamiento de los

    componentes y Comparacin con patrones.

    o KNN

    Para OCR, existe un mt