Generación de secuencias de expresiones faciales a partir de texto completo mediante gramáticas independientes del contexto

Marcela S. Castro - Jorge H. Doorn - Pablo A. Jalabert - Adriana I. Berruti

Universidad Nacional del Centro Facultad de Ciencias Exactas - ISISTAN

San Martín 57, (7000) Tandil, Argentina

1. Introducción

La tarea de mejorar la calidad de vida, como así también las oportunidades vocacionales, para millones de personas con discapacidades es una necesidad inminente [1]. La demora en el desarrollo de herramientas para discapacitados no es debido a la falta de tecnología sino al escaso reconocimiento de su potencial [2]. Por otra parte, el desarrollo de herramientas computacionales que faciliten la integración de personas discapacitadas requiere la comprensión precisa y detallada de cómo la habilidad faltante funciona en una persona normal [3]. En el presente artículo se describe un aspecto del desarrollo de un sistema de apoyo en el entrenamiento en la lectura de labios [4], como parte de un proyecto más amplio de creación de un conjunto de herramientas de ayuda a personas con dificultad auditiva [5].

1.1 Comunicación oral

El ser humano se vale de las más diversas maneras para transmitir ideas, lo hace mediante gestos, gritos, actitudes, movimientos; pero su lenguaje más frecuente es la voz, la cual está constituida por sonidos cuyos elementos sonoros básicos son los fonemas. Por otra parte es bien conocida la importancia de la escritura como medio de comunicación, la cual está basada en un conjunto de símbolos gráficos o grafemas [6]. La unidad básica teórica que permite describir cómo el habla transporta significado lingüístico a través del sonido es denominada fonema. Cada fonema puede ser considerado un código que consiste de un conjunto único de gestos articulatorios, los cuales incluyen el tipo y la ubicación de la estimulación de sonido así como la posición o movimiento de los articuladores vocales [7]. El acto concreto de hablar se realiza mediante la producción de sonido articulado, esto es, cada segmento sonoro es el resultado de utilizar simultáneamente los órganos del aparato vocal: lengua, labios, glotis, etc. [8]. Cada emisión de un sonido es distinto a otra emisión del mismo. Por ejemplo, la emisión de la secuencia escrita flores no es siempre igual; la /s/ puede aparecer más o menos sonora.; la /o/ admite realizaciones más o menos abiertas, etc. Hay sin embargo, un conjunto de características comunes a todas las variantes de un determinado fonema, que le permite ser reconocido como tal. Reconocemos una /s/ entre todas las variaciones de la /s/; una /o/ entre todas las infinitas pronunciaciones de /o/. Es decir, un fonema está constituido por un conjunto de alófonos que representan la libertad permisible dentro de cada lenguaje para la producción de un fonema. Toda lengua dispone de un conjunto pequeño de fonemas, que actúan como elementos constitutivos de la palabra, es decir, permiten la construcción de las mismas, y con ellas los mensajes del habla [9].

1.2 Desarrollo lingüístico en personas hipoacúsicas

La capacidad para desarrollar el lenguaje está codificada en el DNA de los cromosomas humanos. Pero cualquier niño adquiere el lenguaje como lo recibe durante su infancia. Su lengua natural es la que él espontáneamente desarrollará, corregida constantemente por el modelo de la lengua de la comunidad en la que vive [10]. Durante el primer año de vida el ÒbalbuceoÓ de un niño sin discapacidad no se distingue, generalmente, de uno hipoacúsico. Pero aquél no puede escuchar sus propios sonidos perdiendo, así, un muy importante estímulo. Por esta razón, la disminución o carencia de audición es descubierta más tarde de lo imaginado, incrementándose de esta manera la necesidad de un entrenador experto [11]. El hipoacúsico debe aprender cómo se produce el sonido de una forma más consciente, esto es, deberá entender que hay algo llamado ÒsonidoÓ que no puede percibir, pero que es muy importante para comunicarse con otras personas. El niño tiene un desarrollo mental concurrente con el desarrollo del habla y de muchas otras habilidades. Durante esta etapa, el desarrollo se basa en estímulos, siendo el auditivo una de las más importantes fuentes de nuevos conceptos e incentivos. Como resultado de la diferencia de estímulos recibidos entre un hipoacúsico y un niño normal, tiene lugar un desarrollo intelectual también diferente. Las dos principales formas en las que una persona hipoacúsica puede reemplazar parcialmente la habilidad faltante, son el lenguaje de señas y el aprendizaje de la dicción conjuntamente con la lectura de labios. El lenguaje basado en señas ofrece una muy buena fuente de estimulación, y si bien requiere poco esfuerzo, reduce el número de personas con las cuales el hipoacúsico podrá interactuar apropiadamente. Por otro lado, la lectura de labios hace posible mejorar la comunicación del no hábil y, también sus oportunidades de vida. Una herramienta computacional basada en la animación de expresiones faciales, resulta válida para colaborar en el proceso del entrenamiento en la lectura de labios. Indudablemente, esta herramienta no intenta reemplazar o disminuir el rol del maestro especializado. Por el contrario, la idea que podría ser una herramienta de ayuda resulta muy alentadora.

2. Apoyo computacional para el entrenamiento en la lectura de labios

Al pronunciar un fonema se deben ejecutar actividades específicas con la boca, labios, dientes y lengua. Cada actividad puede ser parcialmente vista por un interlocutor adecuadamente ubicado respecto del hablante. La edad en la cual la lectura de labios se enseña es muy importante, puesto que el conocimiento de la escritura se vuelve extremadamente relevante. Leer los labios cuando una expresión facial se puede correlacionar con letras es una tarea más fácil. En particular, hay una relación uno a uno entre expresiones faciales y vocales. Por otra parte el castellano es, generalmente, calificado como un lenguaje ÒfonéticoÓ, en el sentido que el sonido de sus palabras pueden ser bien predicho desde la forma en la cual ellas están escritas.

2.1 Lenguaje fonético y expresiones faciales

Para la persona hábil auditivamente, la diferencia entre fonemas es mayor que la diferencia entre las respectivas expresiones faciales. Hay 22 fonemas diferentes en el castellano rioplatense, sin embargo solo 18 de ellos producen imágenes visualmente distinguibles. De los 22 fonemas, 5 derivan de las vocales; de los restantes, 8 derivan de 8 letras (d, l, m, f, n, ñ, p, t) y cada uno de ellos tiene su propia expresión facial, esto les brinda la oportunidad de ser "leídos". Los restantes 9 fonemas que derivan de 14 letras, disponen sólo 5 expresiones faciales diferentes. Es por esto que la lectura de labios se desarrolla en un ámbito con un importante grado de ambigüedad, ya que más de un fonema se manifiesta con la misma expresión facial. Si todas las expresiones faciales "ambiguas" fueran interpretadas incorrectamente, el grado máximo de confusión sería del 41%. Este número aparece como exagerado, pero si se tiene en cuenta la pérdida de información que va del texto a su versión oral, bajo las mismas consideraciones, el grado de confusión sería del 52 %. Es decir, la pérdida de información por observación de expresiones faciales respecto de escuchar los correspondientes fonemas es, en principio, menor que la que existe al escuchar un texto respecto de su versión escrita. Está claro que en el análisis anterior se ha ignorado la dificultad adicional que emerge de ver la expresión facial en lugar de oír el fonema. La comparación del párrafo anterior proporciona los porcentajes del 18 % para ambos casos, cuando se considera que el acierto es tan probable como el error. Finalmente, si se tiene en cuenta la probabilidad de ocurrencia de cada una de las letras, y fonemas en el idioma castellano estos valores se reducen a 16 y 14 % respectivamente.

2.2 Duración de los fonemas

La duración individual de cada fonema depende no sólo de su naturaleza propia, sino también de la velocidad global con que se habla. Aunque hay algunos fonemas cuyas expresiones faciales son indistinguibles, su duración es diferente. La herramienta de ayuda que se describe fue construida teniendo en cuenta la duración de los fonemas, de tal forma que cada expresión facial dura en la pantalla un período predeterminado. En otras palabras, cada fonema tiene una expresión facial y un período de duración asociado; éste se modifica, en función de la velocidad global del discurso, de manera diferente para cada fonema o más precisamente para cada alífono. Un fonema no vocálico ubicado en una posición libre en una sílaba, es decir antes del grupo vocálico, se comporta de una manera muy diferente en cuanto a su duración, que un fonema ubicado en una posición trabada, es decir al final de la sílaba. Los fonemas consonánticos libres tienen una flexibilidad en su duración mucho más rígida que los fonemas trabados, especialmente cuando encuentran al final de la palabra. Aparentemente esta característica no es fácil de apreciar, sin embargo posiblemente ofrezca un servicio adicional para la persona bajo entrenamiento que no es posible ser apreciado apropiadamente todavía.

2.3 Traducción texto-expresiones faciales

El corazón de la herramienta utilizada para el entrenamiento en la lectura de labios por parte de hipoacúsicos graves, está constituido por un traductor texto a secuencia de expresiones faciales, cuyo componente más importante es, a su vez, el traductor texto a secuencia de fonemas, dado que como ya se ha dicho, conocido el fonema existe una sola expresión facial y una sola duración para el mismo. Cuando en la modalidad interactiva, el usuario escribe una palabra o una sentencia en la pantalla, ésta es traducida a una secuencia de fonemas. Para lograrlo, se aplican las reglas fonéticas del castellano rioplatense. Estas reglas se basan en el conocimiento de la posición de cada letra en relación con las demás y también, en la forma en que la palabra se separa en sílabas. Un aspecto significativo para asegurar una traducción correcta, es el conocimiento de la ubicación del acento tónico, puesto que cada palabra castellana tiene acento, sea éste escrito o no. La traducción de texto escrito a expresiones faciales, para el castellano rioplantense, es un proceso de cuatro etapas, dos de las cuales fueron construidas basadas en las gramáticas de las reglas fonéticas. Esta traducción es mostrada en el siguiente diagrama:

La primer etapa escribe un guión en cada posible separación de sílaba dentro del texto. La segunda hace la traducción de texto guionizado a secuencia de fonemas usando las reglas fonéticas del lenguaje. La tercera estudia completamente la acentuación de las palabras, clasificando en tres grupos todas las sílabas del texto: sílabas con acento principal, sílabas con acento secundario y sílabas no acentuadas. Debiera notarse que el acento dentro de una palabra es muy importante en la fonética castellana y, finalmente, la última etapa es, simplemente, una búsqueda en una tabla de dibujos de expresiones faciales indexada por fonema. La primera y la segunda etapa fueron implementadas como una especie de pequeño compilador con los correspondientes analizadores léxicos y sintácticos y un generador de código directo. Ambos analizadores fueron construidos basados en una gramática libre de contexto escrita en BNF. La gramática de la primer etapa es más pequeña que la gramática de la segunda, la cual contiene más de trescientas reglas. La fase de acentuación lee una secuencia de fonemas separada en sílabas mediante guiones y modifica las palabras de tal forma que el acento de cada sílaba es codificado dentro de ésta. En la sección 3 se amplia y detalla el proceso de traducción indicado.

2.4 Animación de expresiones faciales

Un prototipo completamente operacional ha sido escrito en Visual C++, el cual se ejecuta en el ambiente Windows. Este prototipo se encuentra evolucionando en base a las realimentaciones que se reciben, a punto de partida de su uso concreto con un reducido grupo de hipoacúsicos, bajo la supervisión de docentes especializados. La animación de las figuras faciales se realiza presentando en la pantalla dibujos en los que se destaca la posición de los dientes, labios y lengua para cada fonema distinguible. Entre cada "expresión facial límite", se intercalan dos o tres posiciones intermedias las que fueron creadas para cada posible transición. La barra de control de la ventana en la cual la figura facial está "hablando" contiene varios íconos permitiendo al usuario entrar nuevos textos, cambiar la velocidad del movimiento de la figura, mover cuadro por cuadro o moverse hacia atrás. Las figuras 1 y 2 muestran los cuadros que representan las expresiones faciales de las letras a y f, respectivamente.

Figura 1 -----------------------------------------------------------Figura 2

3. Traducción texto-fonema

Dependiendo del lenguaje, la relación entre los grafemas y los fonemas es más o menos próxima. En el idioma castellano en general, y en el castellano rioplatense en particular, esta relación es muy cercana, ya que a partir de cualquier sucesión de grafemas se genera una única sucesión de fonemas. Por otra parte, la relación inversa no es cierta en virtud que, frecuentemente, varias sucesiones de grafemas diferentes producen la misma sucesión de fonemas. Si bien, en el castellano rioplatense, la vinculación entre una sucesión de grafemas con la correspondiente sucesión de fonemas es totalmente determinística, eesto no significa que a cada grafema le corresponda un sólo fonema. El fonema correspondiente a un determinado grafema sólo puede obtenerse a partir del conocimiento de los grafemas que le anteceden y suceden. En otras palabras, puede decirse que la relación entre los grafemas y los fonemas es una relación funcional pero cuando la misma se aplica a un conjunto de grafemas. Si a cada fonema le correspondiera una letra e inversamente a cada letra le correspondiera un fonema, no habría ningún tipo de dificultad ortográfica en este aspecto o causada por esta relación, sin embargo, a pesar de que como ya se dijo el castellano es una de las lenguas que tiene mayor relación entre fonemas y grafemas, se producen algunas situaciones de disociación con sus correspondientes dificultades ortográficas. Este fenómeno es más notorio en el castellano rioplatense, ya que existen menos fonemas que en otras variantes del mismo idioma. Por ejemplo los sonidos asociados al grafema /c/ antes de /e/ o /i/ no se distinguen del sonido del grafema /s/ y también ocurre que el sonido que surge del par de grafemas /ll/, no se distinguen del que surge del grafema /y/ antes de una vocal. Como ya se indicó más arriba, un aspecto a ser tenido en cuenta, es que cada fonema no es un sonido monolítico e invariante, sino que está influenciado por los fonemas que lo encierran, generándose de esta manera los diferentes alífonos del fonema en cuestión. En el castellano existen grafemas que suelen ser afectados por símbolos, como el acento y la diéresis. El primero de ellos se caracteriza por influir a las vocales, en tanto que el segundo es utilizado para destacar el sonido asociado con la letra /u/ cuando es precedida por la letra /g/ y seguida de otra vocal, donde habitualmente su sonoridad es nula por ejemplo en la palabra lingüista. Por otra parte, ciertas consonantes al combinarse con las consonantes /l/ o /r/ forman grupos consonánticos cuyas característica más relevante es que en el silabeo forman duplas que no es posible separar, y durante la dicción aunque se trate de dos fonemas independientes actúan como un grupo consonántico consolidado. Las vocales también presentan características similares a los grupos anteriores, pero sus agrupaciones poseen distintos nombres dependiendo de la combinación y cantidad existente de las mismas, cuando el conjunto de vocales pertenece a una misma sílaba se trata de diptongos o triptongos, cuando involucra a la(s) vocal(es) final(es) de una palabra y a la(s) vocal(es) inicial(es) de la palabra siguiente es una sinalefa. Cuando el grupo vocálico que puede ser tanto un diptongo como un triptongo, se haya separado constituyendo más de una sílaba, recibe el nombre de hiato.

3.1 Proceso de silabeo

La palabras constituyen grupos fónicos que se organizan en sílabas, las cuales son unidades rítmicas constituidas de uno o más grafemas; en forma intuitiva se puede afirmar que una sílaba se produce cada vez que el aire sale de la boca y se emite un sonido al hablar, es decir que las sílabas se encuentran limitadas por depresiones de la perceptibilidad, las cuales son observables al oír los sonidos de las palabras. Estas características permiten definir a la sílaba como la emisión indivisa de un sonido vocálico simple o compuesto, solo o acompañado de sonidos consonánticos, por lo cual la sílaba es el grupo fónico más elemental. Desde el punto de vista de la separación silábica, los sonidos vocálicos pueden constituir una sílaba por sí solos, en tanto que los consonánticos no. Este hecho se debe a que las consonantes impiden momentáneamente la salida del aire de la cavidad bucal, o bien provocan cierta resistencia la que produce fricaciones perceptibles, en cambio en las vocales los órganos toman posiciones más abiertas. Si se realiza una comparación en iguales condiciones del aparato fonador, las vocales poseen un mayor grado de perceptibilidad que las consonantes; dando por resultado que en la sílaba siempre se destaque el sonido de la vocal o vocales que la componen, por lo cual la vocal constituye el núcleo de la sílaba, pudiendo la misma constar de una, dos o tres vocales y hasta cuatro consonantes. El silabeo ortográfico, es un proceso de separación de palabras en sílabas que se lleva a cabo siguiendo normas fijas. Debe tenerse en cuenta que un texto está constituido por una secuencia de palabras, cada palabra por una cadena de caracteres iniciales, intermedios y finales; que pueden ser consonantes, vocales, agrupación de vocales o agrupación de consonantes.

NO-TERMINAL ---> DEFINICION

<silaba-libre> <grupo-vocalico>

<silaba-libre>--> <grupo-consonante> <grupo-vocalico>

<silaba--> <silaba-libre>

<silaba>--> <silaba> <consonante>

<grupo-vocalico>--> <vocal>

<grupo-vocalico>--> <diptongo>

<grupo-vocalico>--> <triptongo>

<diptongo>--> <vocal-abierta> <vocal-cerrada>

<diptongo>--> <vocal-abierta> H <vocal-cerrada>

<diptongo>--> <vocal-cerrada> <vocal-abierta>

<diptongo>--> <vocal-cerrada> H <vocal-abierta>

<diptongo >--> <vocal-cerrada> <vocal-cerrada

<diptongo>--> <vocal-cerrada> H <vocal-cerrada>

______________________________________________________

Tabla 1

Las reglas de silabeo han sido totalmente formalizadas mediante reglas de producción en BNF. En la tabla 1 se presentan algunos ejemplos de las reglas BNF utilizadas para la construcción del traductor de texto a texto separado en sílabas. El analizador léxico del traductor de texto a texto separado en sílabas, es simple y se ocupa de algunas tareas menores como de reconocer mayúsculas y minúsculas, eliminar espacios innecesarios, etc.

3.2 Proceso de fonetización

El traductor de texto separado en sílabas a secuencia de fonemas también ha sido realizado mediante una suerte de compilador cuyo programa fuente es el texto guionizado y cuyo programa objeto es la secuencia de fonemas. El analizador léxico de este compilador se ocupa de detectar todas las posibles situaciones de sinalefa, eliminando la separación entre las palabras involucradas, de tal manera que el análisis sintáctico asuma la existencia de diptongos y genere los alófonos correspondientes a esta situación. Por otra parte, el mismo tiene a su cargo el análisis de la conjunción "y" determinando su reemplazo por el grafema "i" y provocando la sinalefa cuando la palabra que la precede termina en vocal y/o la que la sucede empieza con vocal. Otra tarea del analizador léxico consiste en la eliminación del grafema /h/, excepto cuando se produce la sucesión de los grafemas /c/ y /h/. El analizador sintáctico del traductor de texto guionizado a secuencia de fonemas, ha sido también construido a partir de un conjunto de producciones escritas en BNF que describen las reglas fonéticas del castellano rioplatense. En la tabla 2 se presentan algunos ejemplos de las reglas BNF utilizadas para la construcción del traductor de texto separado en sílabas a secuencia de fonemas.

NO-TERMINAL------> DEFINICION

<p-implosiva>--> P GUION <t-dental>

<p-nula>--> P <s-trabada>

<p-bilabial>--> P

<b-oclusiva>--> <espacio-largo> B

<b-oclusiva>--> <espacio-largo> V

<b-fricativa relajada>--> B <s-trabada>

<b-fricativa-relajada>--> B <s-relajada>

<b-fricativa-relajada>--> V <s-trabada>

<b-fricativa relajada>--> V <s-relajada>

<b-fricativa>--> B<b-fricativa>--> V

<m-bilabial-implosiva>--> M

<m-bilabial-implosiva-sorda>--> M GUION <p-bilabial>

_______________________________________________________

Tabla 2

3.3 Proceso de acentuación

Tanto en la lectura de un texto como en el diálogo coloquial, en la pronunciación de las palabras se aprecia claramente la existencia de distintas intensidades sonoras para las diferentes sílabas que las constituyen. Algunas tienen una sonoridad mucho más destacada que el resto, otras poseen sonoridad intermedia y las restantes sonoridad baja. La sílaba con mayor intensidad de una palabra se dice que tiene el acento principal de la misma, éste puede ser tanto escrito como prosódico. Además de este acento, existen otros de menor intensidad conocidos como acentos secundarios. Las sílabas con acento secundario, comparten con el acento prosódico el hecho de no tener una representación escrita. Su diferencia reside en la menor intensidad sonora con la que se pronuncian. En una secuencia de sílabas correspondientes a una palabra, el acento secundario se distribuye según un esquema conocido como el del principio alternativo: a partir de la sílaba con acento principal tanto hacia el final de la palabra como hacia el inicio, las sílabas se clasifican en no tónica y tónica alternativamente. Existe una excepción a esta alternancia que se da en las palabras que poseen 4 o 5 sílabas con acento principal sobre la cuarta sílaba, en donde el acento secundario no recae sobre la sílaba segunda sino sobre la primera. La influencia del tipo de acento que recibe una determinada sílaba se extiende a todos los fonemas de la misma de tal manera que se producen sonidos cuya diferencia es notoriamente perceptible. Los fonemas correspondientes a las sílabas con acento principal poseen mayor intensidad sonora y se extienden durante un periodo más largo que los mismos fonemas cuando pertenecen a sílabas con acento secundario o sin acentuación en absoluto. Finalmente, los fonemas pertenecientes a sílabas sin acento, o sílabas relajadas, tienen una intensidad y una duración menor aún que aquellas con acento secundario. En principio esta diferencia no resulta perceptible a nivel de las expresiones faciales asociadas a los fonemas, pero definitivamente la duración de los mismos es mayor, por lo que es posible que esta diferencia pueda ser notada por una persona que realiza la actividad de lectura de labios. La secuencia de fonemas recibida del paso anterior es modificada de acuerdo a la posición del acento principal y de los acentos secundarios generándose una secuencia de fonemas acentuados, la cual es utilizada para seleccionar de una tabla las expresiones faciales y las duraciones correspondientes.

4. Conclusiones y futuras investigaciones

En este artículo se presentan las principales ideas de un proyecto de investigación y desarrollo, que si bien no está aún terminado, ha permitido obtener conclusiones preliminares que se estiman de mucho interés: La animación de expresiones faciales es, una herramienta útil y de ayuda en el proceso de entrenamiento en la lectura de labios. Las gramáticas BNF de silabeo y fonética, permiten dar un conjunto de reglas claras que describen correctamente la morfología y las combinaciones sonoras del castellano rioplantense. La duración de los fonemas depende fuertemente de la acentuación. En futuras investigaciones, se estudiarán las diferentes formas de visualizar expresiones faciales para intentar determinar cual es la forma que resulta más atractiva y eficaz para el entrenamiento en la lectura de labios. La influencia del acento en los fonemas vocálicos parece ser más fuerte que lo establecido en la fonética hispana tradicional.

Bibliografía

[1] Hazan, Paul L. PERSONAL COMPUTING TO AID THE HANDICAPPED. Johns Hopkins, APL Technical Digest. pp. 226-230, Volume 3-Number 3, 1982.

[2] Levitt, Harry, TELECOMMUNITACIONS DEVICES FOR THE DEAF Johns Hopkins, APL Technical Digest. pp. 231-235, Volume 3-Number 3, 1982.

[3] Hight, Robin L. LIP-READER TRAINER. Johns Hopkins, APL Technical Digest. pp. 235-237, Volume 3-Number 3, 1982.

[4] Castro, M., Doorn J., TOWARD AN AID TOOL FOR LIP-READER TRAINING. IWHIT95 pp. 59-63. JapÛn, Octubre 1995

[5] Doorn, J.; Castro. M. INTEGRATED SET OF AID TOOLS FOR THE HELP OF IMPAIRED-HEARING PERSONS. CSUN96, California State University, EEUU, Marzo 1996.

[6] Borzone, Ana María. MANUAL DE FONETICA ACUSTICA Madrid, 1980.

[7] Deller J., Proakis J., Hansen J. DISCRETE TIME PROCCESING OF SPEECH SIGNAL. New York 1993.

[8] Navarro, T. MANUAL DE PRONUNCIACION ESPAÑOLA. Madrid, 1957.

[9] Alonso-CortÈs, Angel, LINGUISTICA GENERAL. Madrid, 1992.

[10] Saucedo, M. ORALIZACION DEL NIÑO SORDO. FonoaudiologÌa. Tomo 39 Nº 2 pp 75-91 Mayo-Agosto 1993. A.S.A.L.F.A.

[11] Hight, R. LIP-READER TRAINER. J. H., APL Tech. Dig. pp 235-237, Vol. 3-N. 3.

(Home) (Prefacio) (Programa) (Organizadores) (Charlas) (Papers) (Posters)