Proyecto Tsu̱nkua

¿Qué es?

Tsu̱nkua es un corpus paralelo, en línea, español-otomí que permite búsquedas de palabras o frases dentro de una colección de documentos bilingües digitalizados .

Un corpus paralelo es un conjunto de textos en una lengua fuente con sus respectivas traducciones en una lengua destino, es decir, cada texto posee su traducción correspondiente en otra lengua.

Este tipo de sistemas nos permite hacer búsquedas de palabras o frases en español u otomí y ver cómo diversas fuentes han traducido esa palabra.

Por ejemplo, si buscamos la palabra “gracias” en español, podemos ver aquellos fragmentos que contienen la palabra buscada, así como su fragmento asociado en otomí, dependiendo de la fuente (podemos observar que "gracias" se traduce diferente en el prontuario otomí, que en libro otomí de Toluca):

Ejemplo de búsqueda de una palabra en español.

Visita Tsunkua https://tsunkua.elotl.mx/

¿Para quiénes está pensado este tipo de sistemas?

Este tipo de sistemas es útil para estudiosos, aprendices y hablantes de otomí (hñahñu) que quieran observar cómo se traduce cierta palabra o frase dependiendo del contexto y de la fuente.

Adicionalmente, es un recurso útil para los lingüistas computacionales que deseen utilizar este tipo de corpus para realizar sistemas de traducción automática y otro tipo de estudios

¿De qué recursos bilingües se alimenta Tsu̱nkua?

Actualmente Tsu̱nkua está en desarrollo, continuamos en la tarea de seguir agregando contenido bilingüe para enriquecer al corpus. Las fuentes recopiladas pertenecen a diferentes dominios, por ejemplo, libros de historia, cuentos, prontuarios. Al hacer una búsqueda se puede consultar información de la fuente de donde fue extraído el texto.

El corpus actualmente contiene materiales bibliográficos bilingües como La Visión de los Vencidos traducida al Hñahñu, prontuarios del INALI, elicitaciones del Otomí de Toluca hechas por la Dra. Yolanda Lastra, entre otros.

Estos textos representan, hasta ahora, sólo las variantes del Mezquital y del Estado de México, en específico de la región de San Andrés Cuexcontitlán, municipio de Toluca.

¿Por qué se llama Tsu̱nkua?

Tsu̱nkua es la palabra para referirse al axolote en la región otomí-ñatho de las montañas del Nevado de Toluca (Amanalco/Nzábi). Agradecemos a Caritina de la Cruz, y a su familia, originarios de esta región, por compartir este saber con nosotros.

¿Quiénes hacen Tsu̱nkua?

El proyecto Tsu̱nkua, corpus paralelo otomí-español, se lleva a cabo gracias a los colaboradores y voluntarios de la Comunidad Elotl. Una comunidad, sin fines de lucro, interesada en el desarrollo de tecnologías del lenguaje. Difundimos cuestiones lingüísticas, sociales y tecnológicas de las lenguas mexicanas

En particular, agradecemos la asesoría y participación de los siguientes investigadores y estudiantes (primordialmente de la UNAM):

  • Mtro. en Lingüística Víctor Mijangos (doctorante en el posgrado en lingüística)
  • Dra. Ximena Gutierrez-Vasques (lingüista computacional)
  • M. en C. Javier Santillán
  • Diego Alberto Barriga (estudiante de Ingeniería en computación)
  • Ing. José Luis Olivares Castillo
  • Yael Hermenegildo (estudiante de licenciatura en letras)
  • Mtra en Estudios Amerindios y Educación Bilingüe Cynthia Montaño


Si tienes más preguntas o te gustaría colaborar con textos bilingües, contáctanos:

[email protected]

Ayúdanos a poder seguir desarrollando este tipo de proyectos. Donaciones

Comunidad Elotl: Iniciativa tecnológica que difunde lenguas indígenas (mexico.com)

Reportaje hecho por el medio informativo Mexico.com sobre la Comunidad Elotl https://www.mexico.com/hecho-en-mexico/comunidad-elotl-iniciativa-tecnologica-que-difunde-lenguas-indigenas/

Marcela Vargas 21 de Enero 2019

Los hablantes de español en México damos por sentado el valor de nuestra lengua tanto dentro como fuera de la tecnología. Pero ¿qué pasa cuando tu lengua no solo no puede utilizarse dentro de alguna herramienta tecnológica, sino que hasta se convierte en motivo de discriminación? Es ahí donde entra el trabajo de los investigadores e ingenieros de Comunidad Elotl, un proyecto colaborativo, sin fines de lucro, dedicado a la creación de herramientas digitales libres y gratuitas que ayuden a preservar y difundir lenguas indígenas mexicanas.

Integrada principalmente por egresados de la UNAM, Elotl tiene apenas cinco meses de vida como comunidad organizada, pero ya comienza a hacer ruido por el enfoque de su labor científica. “Somos una comunidad de desarrolladores, investigadores y estudiosos de la lengua interesados en el desarrollo de tecnologías del lenguaje para las lenguas habladas en México”, explica en entrevista Ximena Gutiérrez, coordinadora de Investigación y Desarrollo de este colectivo y doctora en Lingüística Computacional.

El planteamiento fundamental de Elotl está relacionado con la diversidad lingüística de México. En este país hay 11 grupos de lenguas con orígenes distintos que se desglosan en 68 lenguas distintas que a su vez engloban 364 variantes. “Convierten a México en un país megadiverso en términos lingüísticos”, dice Gutiérrez. “Sin embargo, el gran contraste es que son lenguas que no tienen casi ninguna tecnología desarrollada. Además de la parte social que conocemos en la que son lenguas con una carga despectiva”.

Esta situación es un lienzo en blanco para los científicos que integran a Elotl y cuyo interés en las lenguas mexicanas los ha puesto en este camino. “Venimos de un país que está lleno de lenguas pero no tenemos ni siquiera un traductor”, agrega Ximena Gutiérrez. “Es un escenario ideal para hacer investigación en ese tipo de cosas porque trabajar con estas lenguas representa un reto desde un punto de vista tecnológico”.

Entre los proyectos que Elotl tiene en desarrollo está Tsunkua, un sistema ya disponible en línea que consiste en un “corpus paralelo”, es decir, un conjunto de textos en otomí vinculados a sus traducciones en español para ayudar a conocer y comprender mejor la construcción del idioma.

Aunque suena muy técnico, es un primer paso rumbo al desarrollo de otro tipo de tecnologías. “Dentro de nuestra área entran herramientas como los traductores automáticos, asistentes de voz, motores o sistemas de búsqueda, entre otros”, cuenta Gutiérrez, quien tiene un interés especial por el náhuatl, que considera su segunda lengua después de aprobar los cinco niveles de este idioma en el Centro de Enseñanza de Lenguas Extranjeras de la UNAM.

Como ella, gran parte de los miembros de Elotl no son hablantes nativos de lenguas mexicanas, pero esto no les impide expresar un sincero interés en ellas. “Nosotros estamos más del lado de la tecnología, no estamos en comunidades revitalizando la lengua”, explica Ximena sobre el acercamiento del equipo a la difusión de lenguas mexicanas. “Nuestra idea es que si habemos varios estudiantes y gente interesada, hagamos comunidad y hagamos cosas que puedan servir no solo para los hablantes de esta lengua sino para los aprendices. Al final del día lo que queremos es hacer tecnología y herramientas digitales”.

Revaloración vs discriminación

Dentro de Comunidad Elotl hay hablantes cuya primera lengua es diferente del español. “Hay dos becarias que son hablantes de mixteco, pero son casos en los que ellas pueden entender la lengua de sus papás, pero no se las enseñaron para que no las discriminen”, cuenta la investigadora. “Están en el proceso de revalorarla. Es interesante que las generaciones jóvenes a las que sus papás o sus abuelos les negaron la lengua porque no querían que los discriminaran, la estén recuperando de alguna manera”, agrega.

Para personas como Ximena Gutiérrez y el resto del equipo de Elotl, la posibilidad de ayudar a que más personas conozcan y usen estas lenguas es una motivación para seguir investigando.

“Recuperar su lengua puede ser a través del interés por estudiarla o por participar en proyectos como Elotl”, dice Ximena. “En ese sentido se tiende un puente: a lo mejor ellos ya perdieron la lengua pero no significa que no puedan recuperarla o participar en proyectos que la promuevan para las generaciones que vengan”.

Procesando el otomí (hñähñu) ¿Dónde empezar?

En Comunidad Elotl nos dedicamos al desarrollo de recursos digitales y tecnologías del lenguaje para las diversas lenguas habladas en México. Estas lenguas tienen una gran variación dialectal, ortográfica y de otros tipos.  En esta entrada de blog platicamos sobre algunas cuestiones a las que nos hemos enfrentado al tratar textos en otomí 

Se le llama otomí* a un conjunto de lenguas de la rama otopame (de la familia lingüística otomangue), las cuales se hablan en ocho estados de la República Mexicana (Lastra, 1996: 361); estos estados son Guanajuato, Querétaro, Hidalgo, Puebla, Veracruz, Michoacán, Tlaxcala y México. Dada la diversidad de lugares en que se habla alguna lengua otomí, la variedad interna de las lenguas otomíes es muy vasta.

Tomar en cuenta la variación de una lengua es importante para poder procesar los textos por medio de técnicas computacionales y, eventualmente, realizar tecnologías del lenguaje. Sobretodo si estas variaciones implican diferentes ortografías dependiendo de la región donde se hable.

En vista de lo anterior, nuestro primer paso fue identificar que, de acuerdo con Lastra (2001), existen nueve variantes del otomí. Es importante mencionar que la variación dialectal se puede presentar incluso dentro de un mismo estado. Así, Lastra (2001) presenta tres variantes de otomí habladas en el Estado de México: el Otomí de Tilapa (Palancar, 2012; 2017), hablado en el municipio de Santiago Tianguistenco; el Otomí de Acazulco (Hernández-Green, 2015; 2018), del municipio de San Jerónimo Acazulco; y el Otomí de Toluca (Lastra, 1992), de San Andrés Cuexcontitlán.

Cada una de estas variantes muestra particularidades fonológicas, morfológicas, sintácticas y léxicas. En procesamiento del lenguaje natural (PLN), es importante trabajar con textos homogéneos o normalizados para obtener un mejor desempeño en los diversos métodos automáticos. Por ejemplo, una computadora puede tener problemas en asociar diferentes grafías o formas ortográficas que corresponden la misma palabra:

ɨhi/u̱hu/ʉhu/ụhu (venir)

En el otomí, como en diversas lenguas mexicanas, la variación ortográfica es grande. Esto responde, en parte, a las características lingüísticas propias de cada variante, pero también a cuestiones políticas, de alfabetización, falta de consenso en la norma ortográfica y a otros criterios, no necesariamente lingüísticos. Al procesar textos en otomí, encontramos que la escritura muestra diferentes variaciones dependiendo de la variante, la época, el autor, la fuente, etc.

Sistema fonológico

Relacionado con las diferentes variantes ortográficas, el otomí puede mostrar variación en su sistema fonológico. Principalmente se presentan variaciones es en el sistema vocálico. Si bien, todas las lenguas otomíes son tonales y distinguen entre vocales orales y vocales nasales, existen fonemas que pueden presentarse en unas variantes, mientras que en otras están ausentes. En general, las vocales orales incluyen a las mismas vocales que también se presentan en el español: a, e, i, o, u; pero su inventario de vocales orales no se limita a estas cinco. Es común, en todas las variantes, encontrar las vocales ɨ, ɛ y ə. En algunas variantes del estado de México, como son el Otomí de Temoaya (Andrews, 1949), el Otomí de Tilapa (Palancar, 2012: 2017) y el Otomí de Toluca (Lastra, 1992), se puede presentar  la vocal ɔ. Además, en el Otomí de Temoaya y el de Toluca, se reporta la vocal ʌ.

Como parte de nuestra investigación para conocer las variaciones en los textos en otomí, identificamos las diferentes vocales, y su escritura ortográfica, utilizadas en la mayor parte de las fuentes bibliográficas. La siguiente tabla muestra la representación de cada vocal en IPA (alfabeto fonético internacional), seguida de la ortografía práctica propuesta por el INALI (INALI, 2014) así como diferentes grafías utilizadas dependiendo de la fuente

IPA

Ortografía práctica

Hernández Cruz et al (2004) [Mezquital]

Hernández-Green (2015) [Acazulco]

Voigtlander y Echegoyen (1979) [de la Sierra]

Palancar (2017) [Tilapa]

ɨ

 

ʉ

 

ɛ

ɔ

 

 

å

ʌ

 

 

 

 

ɘ

ø

ø

Tabla 1. Escritura del sistema vocálico del otomí en diferentes estándares

Además de la variedad de vocales orales, las variantes otomíes muestran las vocales nasales ĩ, ũ, õ, ɛ̃, ɑ̃. Estas vocales nasales también muestran variación ortográfica. Por ejemplo, Andrews (1949) las denota con cedilla: i̧, u̧, o̧, ȩ, a̧. En la ortografía práctica,  estas vocales se denotan por medio de diéresis: ï, ü, ö, ë, ä.

¿Qué escritura elegir?

Quizá esta sea una pregunta sin una respuesta única. Como lingüistas computacionales nos interesa minimizar la variación ortográfica de las diversas fuentes, en la medida de lo posible, para facilitar los métodos computacionales. Asimismo, es conveniente que los caracteres de la norma ortográfica sean fácilmente procesables por computadora, es decir, que sean parte de un formato de codificación de caracteres estándar (por ejemplo UTF-8 o Unicode).

La norma ortográfica que ha propuesto el INALI parece gozar de aceptación en diferentes medios de difusión.  En Comunidad Elotl tenemos en marcha varios proyectos relacionados con el otomí, en la mayor parte de ellos hemos decidido realizar una normalización ortográfica de los textos tomando como referencia la norma práctica del INALI.

Sin embargo, es importante mencionar que en esta ortografía detectamos problemas de compatibilidad de los caracteres de las vocales: a̱, e̱, i̱, o̱, u̱. No es fácil encontrar estos caracteres en un estándar de codificación; ante esta dificultad, muchos  de los que producen textos digitales en otomí optan por subrayar las vocales utilizando un editor de textos. Lo anterior resulta muy problemático para el procesamiento automático, pues el formato de subrayado se pierde al convertir los textos a un formato de texto plano (por ejemplo TXT). Por ahora, en la Tabla 1 ponemos disponibles las vocales subrayadas de esta norma utilizando el carácter asociado en UTF-8  (que hemos logrado encontrar hasta el momento).

Es importante que organismos, como el INALI, consideren los estándares de codificación, la facilidad y accesibilidad del conjunto de letras/caracteres digitales que eligen durante el proceso de constitución de una norma ortográfica.

Nos gustaría despedirnos adelantando que en las próximas semanas daremos a conocer nuestro proyecto tsu̱nkwa, un corpus paralelo en línea español-oto​mí

* El término otomí usualmente abarca las diferentes designaciones que existen para esta lengua. Wright Carr (2005) reporta los siguientes nombres: ñatho (Toluca); ñahñu (Mezquital); ñañho (sur de Querétaro); n’yúhü (Sierra Madre Oriental). Sin embargo, existen todavía más designaciones, por ejemplo Palancar (2009) reporta el término ñöñhö para la región de San Ildefonso Tultepec, Querétaro, y Hernández-Green (2015) el de yühü para el de Acazulco.

Autores: Víctor Mijangos, Ximena Gutiérrez-Vasques

*Agradecemos a la estudiante de letras hispánicas, Yael Hermenegildo, por ayudarnos en nuestra búsqueda de caracteres digitales para el otomí

-Víctor es doctorante en lingüística por la UNAM y colaborador de Comunidad Elotl. Sus intereses abarcan la lingüística, las matemáticas y la lingüística computacional

 -Ximena es doctora en Ciencias de la computación/ Lingüística computacional. Actualmente coordina la investigación y desarrollo dentro de la comunidad Elotl.

Referencias

Andrews, H. (1948). “Phonemes and morphophonemes of Temoaya Otomi”. En International Journal of American Linguistics, 15(1), pp. 213-222.

Hernández Cruz, L. & Victoria Torquemada, M. (2004). Diccionario del hñähñu (otomí) del Valle del Mezquital, estado de Hidalgo. México: Instituto Lingüístico del Verano.

Hernández-Green, N. (2015). Morfosintaxis verbal del otomí de Acazulco. Tesis doctoral. Doctorado en Lingüística Indoamericana, México: CIESAS.

Hermández-Green, N. (2018). “El sistema aspectual del Otomí de Acazulco”. En Cuadernos de Lingüística del Colegio de México, 5(2), pp. 280-334.

INALI. (2014). “njaua nt'ot'i ra hñähñu, norma de escritura de la lengua hñähñu (otomí) de los estados de Guanajuato, Hidalgo, Estado de México, Puebla, Querétaro, Tlaxcala, Michoacán y Veracruz”.

Lastra, Y. (1992). El Otomí de Toluca. México: Instituto de Investigaciones Antropológicas, UNAM.

Lastra, Y. (1996). "¿Es el otomı́ una lengua amenazada?" En Anales de antropologı́a, 33 (1), pp. 361-395.

Lastra, Y. (2001). Unidad y diversidad de la lengua. Relatos Otomíes. México: Instituto de Investigaciones Antropológicas, UNAM.

Palancar, E. L. (2009). Gramática y textos del hñöñö. Otomí de San Ildefonso, Tultepec, Querétaro. México: Universidad Autónoma de Querétaro.

Palancar, Enrique (2012). “The conjugation classes of Tilapa Otomi: An approach from canonical typology”. En Linguistics 50(4), pp. 783–832.

Palancar, E. L. (2018). “Clefts In Otomi: Extended Uses Of The Copular Construction”. En International Journal of American Linguistics, 84(1), 93-145.

Voigtlander, K. & Echegoyen, A. (1979). Luces contemporáneas del otomí; gramática del otomí de La Sierra. México: Instituto Lingüístico de Verano.Wright Carr, D. C. (2005), “Hñahñu, Nuhu, Nhato, Nuhmu. Precisiones sobre el término ‘otomí’”. En Arqueología Mexicana, 73, pp. 19-20.