Blog

Presentación de Kolo

Feb 25, 2021
Cynthia Montaño
Blog, Proyectos

El mixteco es una agrupación lingüística originaria geográficamente del oeste del estado de Oaxaca, el oeste de Guerrero y el sur de Puebla. Pertenece a la familia lingüística Otomangue y es una de las agrupaciones con mayor número de variantes, pues, según datos del INALI, el mixteco cuenta con 81 variantes lingüísticas. Uno de los trabajos que más ha aportado a la dialectología del mixteco es el de Judy Josserand (1983), quien propone agrupaciones de variantes según áreas dialectales con diferentes grados de inteligibilidad, éstas se pueden apreciar en el siguiente mapa:

Áreas dialectales del Mixteco — Adaptado de Josserand, Judy K. (1983). Mixtec dialect history (Proto-mixtec and modern mixtec text), tesis de Doctorado, Universidad de Tulane.

Una de sus principales características es la presencia de tono, pues la mayoría de sus variantes distinguen tres tonos de nivel, aunque también existen variantes de cuatro tonos, como en Alcouzaca (Mendoza Ruíz 2016) y Yoloxóchitl (Palancar et al. 2016), ambas habladas en Guerrero, o de dos tonos de nivel, como la variante de Coscatlán (Herrera 2014) y de Acatlán (Méndez 2017). En general, su sistema vocálico tiene un contraste entre vocales orales contra nasales (a vs ã) y vocales modales contra glotalizadas (a vs aʔa). Algunas variantes tienen la vocal alta, central no redondeada [ɨ], pero en otras no aparece.
El corpus es un trabajo en progreso. Los textos que aparecen hasta el momento han sido recabados de diversas fuentes con diferentes grafías ortográficas para los tonos y otros fonemas. Con el propósito de facilitar las búsquedas, regularizamos algunas de las grafías de ciertos textos. Las sustituciones se pueden observar a continuación:

Original	Caracter en el corpus
ch	ty, ch
c, qu	k
h	'

Sustituciones de grafías en el corpus

Para ‘ch’, se decidió dejar los dígrafos ‘ty’ y ‘ch’, ya que estos se encuentran alternando en uso actualmente. El dígrafo ‘ty’ ha sido propuesto por la Ve'e Tu'un Savi (Academia de la Lengua Mixteca). Sin embargo, no ha sido adaptado por completo dentro de la comunidad de mixteca.

Por otro lado, la representación tonal tiene diversos caracteres. Los cuales se han mantenido en el corpus y se presentan continuación:

Caracteres para tonos
á, ā, a̠, à, ǎ, â
é, ē, e̠, è
í, ī, i̠, ì, i, ɨ, ɨ̄,
ó, ō, o̠, ò
ú, ū, u̠, ù, û

Finalmente, el nombre del corpus KOLO (guajolote) fue elegido porque es uno de los animales más icónicos de los pueblos, como alimento y sustento económico, así como protagonista de uno de nuestros recuerdos de infancia más entrañable, ¿a quién no lo ha perseguido un guajolote?

Esquite

Ser parte de LIDSoL me ha permitido conocer y colaborar con otras comunidades que hacen un trabajo estupendo. Comunidad Elotl es una de ellas. Elotl es un proyecto colaborativo, sin fines de lucro, dedicado a la creación de herramientas digitales libres (obvio :heart:) y gratuitas con el objetivo de preservar y difundir lenguas indígenas mexicanas. Además, buscan promover este tema en la agenda nacional y realizar investigaciones académicas en ese sentido. El tema central de Elotl es la diversidad lingüística y la creación de tecnología para toda esta diversidad. México cuenta con 11 grupos de lenguas desglosadas en 68 lenguas distintas y que a su vez engloban 364 variantes (casi una variante por día del año 😲).

¿Qué es Esquite?

Además de ser un vaso con deliciosos elotes desgranados, mayonesa, queso y chile (del que pica) es uno de los proyectos con los que LIDSoL ha colaborado. Esquite es un framework de software libre destinado a personas que poseen corpus paralelos (textos bilingües) y que desean tener un sistema web que les permita subir, administrar realizar búsquedas de palabras o frases en sus corpus. El software está hecho en django (otro framework para desarrollo web escrito en python 🐍) y utiliza elasticsearch como motor de búsquedas y gestión de documentos. Un ejemplo de uso del framework es el corpus paralelo TSU̱NKUA que permite consultar documentos bilingües digitalizados y alineados de distintas variantes del otomí. Al día de la publicación de esta entrada el corpus cuenta con aproximadamente 5519 líneas paralelas de 6 documentos distintos.

Para enriquecer las búsquedas la plataforma web cuenta con un filtrado por variante dialectal. Además, el motor de búsqueda permite realizar operaciones especiales para la realización de búsquedas avanzadas. Algunos operadores son los que se listan a continuación:

Búsqueda difusa(~): Incluye en los resultados las palabras con similitud ortográfica. Por ejemplo si se busca:jamadi~ los resultados incluirán las palabras jämadi, dabadi, juadi, jamfri, etcétera.
Comodín(*): Reemplaza cero o más caracteres. Por ejemplo: mexic*
Comodín(?): Reemplaza un carácter. Por ejemplo: nin?s

Una característica especialmente pensada para las personas que estén interesadas en la investigación o que deseen hacer experimentos con los resultados las búsquedas que realicen se pone a disposición de las usuarias la posibilidad de exportar los resultados en formato..csv Para mayor información pueden checar la sección de ayuda de la página. Muestra dónde esta el botón para exportar resultados de búsqueda con una carita feliz

Muestra dónde esta el botón para exportar resultados de búsqueda con una carita feliz

Me convenciste, dame 2

Bueno, ya que insisten, vamos a ver que necesitamos para instalar nuestro flamante framework de corpus paralelos. Los programas que debes tener instalados son los siguientes:

Dependencias

git
python3.6 o una versión más actual
- virtualenv: entornos virtuales para paquetes de python
elasticsearch 7.6 o mayor

Instalación

0. Instalamos y corremos `elasticsearch`

Puedes consultar la página oficial de Elasticsearch para completar este paso

1. Clonamos el repositorio de esquite

user@machine:~$ git clone https://github.com/ElotlMX/Esquite.git

2. Preparando el entorno

Entramos al directorio de Esquite, creamos el entorno virtual y lo activamos¹

user@machine:~$ cd Esquite/
user@machine:~/Esquite$ virtualenv env
user@machine:~/Esquite$ source env/bin/activate

3. Instalación de dependencias

(env)user@machine:~/Esquite$ pip install -r requeriments.txt

4. Asistente de configuración 💫

El proyecto requiere de un archivo de configuración. Este archivo es creado de forma automática con un asistente que utiliza Deep Learning (broma). Ejecutamos el asistente con el siguiente comando:

(env)user@machine:~/Esquite$ python wizard.py

El asistente pedirá una serie de detalles para la plataforma como el nombre de la organización que la mantendrá, nombre del proyecto, la primera y segunda lengua del corpus, etcétera. La configuración se verá de esta manera:

Asistente de configuración del backend 🧙
Nombre de la organización>> LIDSoL
Nombre del proyecto>> Galagar
Primera lengua del corpus (l1)>> español
Segunda lengua del corpus (l2)>> galáctico
Generando token secreto
⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙
🛑 El corpus requiere que exista un indice de
Elasticsearch con las configuraciones que se indican
en la documentación 🛑
⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙⚙
Índice de Elasticsearch>> galagar
Protocolo HTTP o HTTPS [http]>>
Nombre o IP del servidor de Elasticsearch [localhost]>>
Puerto del servidor de Elasticsearch [9200]>>
Token Google Analytics (OPCIONAL)>>
Colores del proyecto (HEXADECIMALES)
Primario [#ffffff]>>#295db6
Secundario [#000000]>>#9adc49
Generando archivo para la configuración:
{'ALT_TEXT': '#000000',
 'COLABS': [],
 'DEBUG': 'False',
 'GOOGLE_ANALYTICS': '',
 'INDEX': 'galagar',
 'KEYBOARD': [],
 'L1': 'Español',
 'L2': 'Galáctico',
 'NAME': 'GALAGAR',
 'ORG_NAME': 'LIDSOL',
 'PRIMARY_COLOR': '#295db6',
 'SECONDARY_COLOR': '#9adc49',
 'SECRET_KEY': '<secreto>',
 'SOCIAL': {'blog': '',
            'email': '',
            'facebook': '',
            'github': '',
            'site': '',
            'twitter': ''},
 'TEXT_COLOR': '#ffffff',
 'URL': 'http://localhost:9200/'}
Terminado :)

El asistente menciona que debemos tener un índice de elasticsearch creado para que funcione correctamente nuestra plataforma web. Para crear el índice con las configuraciones² necesarias ejecutamos esta línea de código:

$ curl -X PUT -H "Content-Type: application/json" -d @elastic-config.json localhost:9200/<nombre-de-tu-indice>

6. Corremos la aplicación

(env)user@machine:~/Esquite$ python manage.py runserver

Listo, si vamos a nuestro navegador a la dirección localhost:8000/ deberíamos ver algo como esto: Ejemplo de Esquite funcionando

Se pueden realizar algunas personalizaciones como los colores de la página, colaboradorxs del proyecto, ligas a las redes sociales y el banner de la página (que por cierto modificamos para este ejemplo). La personalización la abordaremos a detalle en otra entrada ;)

Administración

El sistema cuenta con un administrador de documentos en la dirección localhost:8000/corpus-admin/ donde podemos agregar nuevos documentos, visualizarlos, agregar nuevas líneas a un documento previo y eliminarlos. Además, podemos ver las variantes presentes en el corpus y hacer una copia de seguridad en formato.csv Administrador de documentos de esquite

Esto se ve triste porque nuestro sistema está vacío. Debemos alimentarlo con textos paralelos :book:.

Aliméntame humano 🤖

GIF animado del personaje Sin rostro de la película El Viaje de Chihiro comiendo un pedaso de pastel

Damos clic en “Nuevo Documento”, agregamos el nombre del documento, el archivo csv con nuestro corpus alineado y un archivo pdf asociado a nuestro documento. El formato de los archivos csv es la siguiente:

l1	l2	variante
Una vez una señora se emborrachó	xu̱tu̱ bimáyóhthó ’á ngŭ ra bésíno	Otomí del Estado de México (ots)
Luego se fue a dormir a la casa del vecino	nándi na ra t’u̱xú bintí	Otomí del Estado de México (ots)
Después que se durmió	despwés ya biyóbí	Otomí del Estado de México (ots)

El archivo tiene una cabecera³. La primera columna es texto en español, la siguiente columna será la segunda lengua (en este ejemplo otomí) y la tercera columna⁴ es la variante (si esta está disponible). Muestra como se está subiendo un documento nuevo a esquite

Muestra como se está subiendo un documento nuevo a esquite

Muestra un listado de documentos subidos a esquite

Probemos

Resultados para la búsqueda de la palabra amor

Resultados para la búsqueda amor con el operador difuso ~

Conclusiones

Este framework al ser software libre les permite ver, modificar, estudiar y redistribuir sus modificaciones al código fuente. Este código se encuentra en el repositorio antes mencionado.
Si les gusta programar y les interesan las tecnologías aplicadas al lenguaje la Comunidad Elotl está abierta a que puedan contribuir con el desarrollo de esta y otras plataformas. Manden sus Pull Requests :D
Si no les gusta programar o no es su área de estudio aún pueden colaborar con la comunidad haciendo:
- Investigación 🔬: Algunos integrantes de la Comunidad Elotl tienen posibilidad de dirigir o asesorar tesis, principalmente dentro de la UNAM
- Difusión 📡: comparte información relevante con la comunidad para que sea difundida
- Donaciones 🎁: todas las herramientas son gratuitas y para poder continuar con los desarrollos la Comunidad está constantemente búsqueda de donativos.
- Pueden checar todas las opciones de colaboración en esta liga.

Fuente: LIDSoL

Asegúrate de que tienes python3 por defecto en tu sistema con el comando python --version. Si tienes python2.7 pueden ejecutar el comando virtualenv env -p /usr/bin/python3.↩︎
El archivo elastic-config.json viene con la clonación del repo :p↩︎
Es indispensable que exista la cabecera ya que la primer línea del archivo se ignora por defecto.↩︎
En caso de no existir la variante la columna debe existir pero vacía.↩︎

Proyecto Tsu̱nkua

¿Qué es?

Tsu̱nkua es un corpus paralelo, en línea, español-otomí que permite búsquedas de palabras o frases dentro de una colección de documentos bilingües digitalizados .

Un corpus paralelo es un conjunto de textos en una lengua fuente con sus respectivas traducciones en una lengua destino, es decir, cada texto posee su traducción correspondiente en otra lengua.

Este tipo de sistemas nos permite hacer búsquedas de palabras o frases en español u otomí y ver cómo diversas fuentes han traducido esa palabra.

Por ejemplo, si buscamos la palabra “gracias” en español, podemos ver aquellos fragmentos que contienen la palabra buscada, así como su fragmento asociado en otomí, dependiendo de la fuente (podemos observar que "gracias" se traduce diferente en el prontuario otomí, que en libro otomí de Toluca):

*Ejemplo de búsqueda de una palabra en español.*

Visita Tsunkua https://tsunkua.elotl.mx/

¿Para quiénes está pensado este tipo de sistemas?

Este tipo de sistemas es útil para estudiosos, aprendices y hablantes de otomí (hñahñu) que quieran observar cómo se traduce cierta palabra o frase dependiendo del contexto y de la fuente.

Adicionalmente, es un recurso útil para los lingüistas computacionales que deseen utilizar este tipo de corpus para realizar sistemas de traducción automática y otro tipo de estudios

¿De qué recursos bilingües se alimenta Tsu̱nkua?

Actualmente Tsu̱nkua está en desarrollo, continuamos en la tarea de seguir agregando contenido bilingüe para enriquecer al corpus. Las fuentes recopiladas pertenecen a diferentes dominios, por ejemplo, libros de historia, cuentos, prontuarios. Al hacer una búsqueda se puede consultar información de la fuente de donde fue extraído el texto.

El corpus actualmente contiene materiales bibliográficos bilingües como La Visión de los Vencidos traducida al Hñahñu, prontuarios del INALI, elicitaciones del Otomí de Toluca hechas por la Dra. Yolanda Lastra, entre otros.

Estos textos representan, hasta ahora, sólo las variantes del Mezquital y del Estado de México, en específico de la región de San Andrés Cuexcontitlán, municipio de Toluca.

¿Por qué se llama Tsu̱nkua?

Tsu̱nkua es la palabra para referirse al axolote en la región otomí-ñatho de las montañas del Nevado de Toluca (Amanalco/Nzábi). Agradecemos a Caritina de la Cruz, y a su familia, originarios de esta región, por compartir este saber con nosotros.

¿Quiénes hacen Tsu̱nkua?

El proyecto Tsu̱nkua, corpus paralelo otomí-español, se lleva a cabo gracias a los colaboradores y voluntarios de la Comunidad Elotl. Una comunidad, sin fines de lucro, interesada en el desarrollo de tecnologías del lenguaje. Difundimos cuestiones lingüísticas, sociales y tecnológicas de las lenguas mexicanas

En particular, agradecemos la asesoría y participación de los siguientes investigadores y estudiantes (primordialmente de la UNAM):

Mtro. en Lingüística Víctor Mijangos (doctorante en el posgrado en lingüística)
Dra. Ximena Gutierrez-Vasques (lingüista computacional)
M. en C. Javier Santillán
Diego Alberto Barriga (estudiante de Ingeniería en computación)
Ing. José Luis Olivares Castillo
Yael Hermenegildo (estudiante de licenciatura en letras)
Mtra en Estudios Amerindios y Educación Bilingüe Cynthia Montaño

Si tienes más preguntas o te gustaría colaborar con textos bilingües, contáctanos:

[email protected]

Ayúdanos a poder seguir desarrollando este tipo de proyectos. Donaciones

Comunidad Elotl: Iniciativa tecnológica que difunde lenguas indígenas (mexico.com)

Reportaje hecho por el medio informativo Mexico.com sobre la Comunidad Elotl https://www.mexico.com/hecho-en-mexico/comunidad-elotl-iniciativa-tecnologica-que-difunde-lenguas-indigenas/

Marcela Vargas 21 de Enero 2019

Los hablantes de español en México damos por sentado el valor de nuestra lengua tanto dentro como fuera de la tecnología. Pero ¿qué pasa cuando tu lengua no solo no puede utilizarse dentro de alguna herramienta tecnológica, sino que hasta se convierte en motivo de discriminación? Es ahí donde entra el trabajo de los investigadores e ingenieros de Comunidad Elotl, un proyecto colaborativo, sin fines de lucro, dedicado a la creación de herramientas digitales libres y gratuitas que ayuden a preservar y difundir lenguas indígenas mexicanas.

Integrada principalmente por egresados de la UNAM, Elotl tiene apenas cinco meses de vida como comunidad organizada, pero ya comienza a hacer ruido por el enfoque de su labor científica. “Somos una comunidad de desarrolladores, investigadores y estudiosos de la lengua interesados en el desarrollo de tecnologías del lenguaje para las lenguas habladas en México”, explica en entrevista Ximena Gutiérrez, coordinadora de Investigación y Desarrollo de este colectivo y doctora en Lingüística Computacional.

El planteamiento fundamental de Elotl está relacionado con la diversidad lingüística de México. En este país hay 11 grupos de lenguas con orígenes distintos que se desglosan en 68 lenguas distintas que a su vez engloban 364 variantes. “Convierten a México en un país megadiverso en términos lingüísticos”, dice Gutiérrez. “Sin embargo, el gran contraste es que son lenguas que no tienen casi ninguna tecnología desarrollada. Además de la parte social que conocemos en la que son lenguas con una carga despectiva”.

Esta situación es un lienzo en blanco para los científicos que integran a Elotl y cuyo interés en las lenguas mexicanas los ha puesto en este camino. “Venimos de un país que está lleno de lenguas pero no tenemos ni siquiera un traductor”, agrega Ximena Gutiérrez. “Es un escenario ideal para hacer investigación en ese tipo de cosas porque trabajar con estas lenguas representa un reto desde un punto de vista tecnológico”.

Entre los proyectos que Elotl tiene en desarrollo está Tsunkua, un sistema ya disponible en línea que consiste en un “corpus paralelo”, es decir, un conjunto de textos en otomí vinculados a sus traducciones en español para ayudar a conocer y comprender mejor la construcción del idioma.

Aunque suena muy técnico, es un primer paso rumbo al desarrollo de otro tipo de tecnologías. “Dentro de nuestra área entran herramientas como los traductores automáticos, asistentes de voz, motores o sistemas de búsqueda, entre otros”, cuenta Gutiérrez, quien tiene un interés especial por el náhuatl, que considera su segunda lengua después de aprobar los cinco niveles de este idioma en el Centro de Enseñanza de Lenguas Extranjeras de la UNAM.

Como ella, gran parte de los miembros de Elotl no son hablantes nativos de lenguas mexicanas, pero esto no les impide expresar un sincero interés en ellas. “Nosotros estamos más del lado de la tecnología, no estamos en comunidades revitalizando la lengua”, explica Ximena sobre el acercamiento del equipo a la difusión de lenguas mexicanas. “Nuestra idea es que si habemos varios estudiantes y gente interesada, hagamos comunidad y hagamos cosas que puedan servir no solo para los hablantes de esta lengua sino para los aprendices. Al final del día lo que queremos es hacer tecnología y herramientas digitales”.

Revaloración vs discriminación

Dentro de Comunidad Elotl hay hablantes cuya primera lengua es diferente del español. “Hay dos becarias que son hablantes de mixteco, pero son casos en los que ellas pueden entender la lengua de sus papás, pero no se las enseñaron para que no las discriminen”, cuenta la investigadora. “Están en el proceso de revalorarla. Es interesante que las generaciones jóvenes a las que sus papás o sus abuelos les negaron la lengua porque no querían que los discriminaran, la estén recuperando de alguna manera”, agrega.

Para personas como Ximena Gutiérrez y el resto del equipo de Elotl, la posibilidad de ayudar a que más personas conozcan y usen estas lenguas es una motivación para seguir investigando.

“Recuperar su lengua puede ser a través del interés por estudiarla o por participar en proyectos como Elotl”, dice Ximena. “En ese sentido se tiende un puente: a lo mejor ellos ya perdieron la lengua pero no significa que no puedan recuperarla o participar en proyectos que la promuevan para las generaciones que vengan”.

Procesando el otomí (hñähñu) ¿Dónde empezar?

Jan 08, 2019
elotl-comunidad
Blog

En Comunidad Elotl nos dedicamos al desarrollo de recursos digitales y tecnologías del lenguaje para las diversas lenguas habladas en México. Estas lenguas tienen una gran variación dialectal, ortográfica y de otros tipos. En esta entrada de blog platicamos sobre algunas cuestiones a las que nos hemos enfrentado al tratar textos en otomí

Se le llama otomí* a un conjunto de lenguas de la rama otopame (de la familia lingüística otomangue), las cuales se hablan en ocho estados de la República Mexicana (Lastra, 1996: 361); estos estados son Guanajuato, Querétaro, Hidalgo, Puebla, Veracruz, Michoacán, Tlaxcala y México. Dada la diversidad de lugares en que se habla alguna lengua otomí, la variedad interna de las lenguas otomíes es muy vasta.

Tomar en cuenta la variación de una lengua es importante para poder procesar los textos por medio de técnicas computacionales y, eventualmente, realizar tecnologías del lenguaje. Sobretodo si estas variaciones implican diferentes ortografías dependiendo de la región donde se hable.

En vista de lo anterior, nuestro primer paso fue identificar que, de acuerdo con Lastra (2001), existen nueve variantes del otomí. Es importante mencionar que la variación dialectal se puede presentar incluso dentro de un mismo estado. Así, Lastra (2001) presenta tres variantes de otomí habladas en el Estado de México: el Otomí de Tilapa (Palancar, 2012; 2017), hablado en el municipio de Santiago Tianguistenco; el Otomí de Acazulco (Hernández-Green, 2015; 2018), del municipio de San Jerónimo Acazulco; y el Otomí de Toluca (Lastra, 1992), de San Andrés Cuexcontitlán.

Cada una de estas variantes muestra particularidades fonológicas, morfológicas, sintácticas y léxicas. En procesamiento del lenguaje natural (PLN), es importante trabajar con textos homogéneos o normalizados para obtener un mejor desempeño en los diversos métodos automáticos. Por ejemplo, una computadora puede tener problemas en asociar diferentes grafías o formas ortográficas que corresponden la misma palabra:

ɨhi/u̱hu/ʉhu/ụhu (venir)

En el otomí, como en diversas lenguas mexicanas, la variación ortográfica es grande. Esto responde, en parte, a las características lingüísticas propias de cada variante, pero también a cuestiones políticas, de alfabetización, falta de consenso en la norma ortográfica y a otros criterios, no necesariamente lingüísticos. Al procesar textos en otomí, encontramos que la escritura muestra diferentes variaciones dependiendo de la variante, la época, el autor, la fuente, etc.

Sistema fonológico

Relacionado con las diferentes variantes ortográficas, el otomí puede mostrar variación en su sistema fonológico. Principalmente se presentan variaciones es en el sistema vocálico. Si bien, todas las lenguas otomíes son tonales y distinguen entre vocales orales y vocales nasales, existen fonemas que pueden presentarse en unas variantes, mientras que en otras están ausentes. En general, las vocales orales incluyen a las mismas vocales que también se presentan en el español: a, e, i, o, u; pero su inventario de vocales orales no se limita a estas cinco. Es común, en todas las variantes, encontrar las vocales ɨ, ɛ y ə. En algunas variantes del estado de México, como son el Otomí de Temoaya (Andrews, 1949), el Otomí de Tilapa (Palancar, 2012: 2017) y el Otomí de Toluca (Lastra, 1992), se puede presentar la vocal ɔ. Además, en el Otomí de Temoaya y el de Toluca, se reporta la vocal ʌ.

Como parte de nuestra investigación para conocer las variaciones en los textos en otomí, identificamos las diferentes vocales, y su escritura ortográfica, utilizadas en la mayor parte de las fuentes bibliográficas. La siguiente tabla muestra la representación de cada vocal en IPA (alfabeto fonético internacional), seguida de la ortografía práctica propuesta por el INALI (INALI, 2014) así como diferentes grafías utilizadas dependiendo de la fuente

IPA	Ortografía práctica	Hernández Cruz et al (2004) [Mezquital]	Hernández-Green (2015) [Acazulco]	Voigtlander y Echegoyen (1979) [de la Sierra]	Palancar (2017) [Tilapa]
ɨ	u̱	ụ	ụ	ʉ	u̱
ɛ	e̱	ẹ	ẹ	ẹ	e̱
ɔ	a̱		ạ		å
ʌ	i̱
ɘ	o̱	ọ	ọ	ø	ø

Tabla 1. Escritura del sistema vocálico del otomí en diferentes estándares

Además de la variedad de vocales orales, las variantes otomíes muestran las vocales nasales ĩ, ũ, õ, ɛ̃, ɑ̃. Estas vocales nasales también muestran variación ortográfica. Por ejemplo, Andrews (1949) las denota con cedilla: i̧, u̧, o̧, ȩ, a̧. En la ortografía práctica, estas vocales se denotan por medio de diéresis: ï, ü, ö, ë, ä.

¿Qué escritura elegir?

Quizá esta sea una pregunta sin una respuesta única. Como lingüistas computacionales nos interesa minimizar la variación ortográfica de las diversas fuentes, en la medida de lo posible, para facilitar los métodos computacionales. Asimismo, es conveniente que los caracteres de la norma ortográfica sean fácilmente procesables por computadora, es decir, que sean parte de un formato de codificación de caracteres estándar (por ejemplo UTF-8 o Unicode).

La norma ortográfica que ha propuesto el INALI parece gozar de aceptación en diferentes medios de difusión. En Comunidad Elotl tenemos en marcha varios proyectos relacionados con el otomí, en la mayor parte de ellos hemos decidido realizar una normalización ortográfica de los textos tomando como referencia la norma práctica del INALI.

Sin embargo, es importante mencionar que en esta ortografía detectamos problemas de compatibilidad de los caracteres de las vocales: a̱, e̱, i̱, o̱, u̱. No es fácil encontrar estos caracteres en un estándar de codificación; ante esta dificultad, muchos de los que producen textos digitales en otomí optan por subrayar las vocales utilizando un editor de textos. Lo anterior resulta muy problemático para el procesamiento automático, pues el formato de subrayado se pierde al convertir los textos a un formato de texto plano (por ejemplo TXT). Por ahora, en la Tabla 1 ponemos disponibles las vocales subrayadas de esta norma utilizando el carácter asociado en UTF-8 (que hemos logrado encontrar hasta el momento).

Es importante que organismos, como el INALI, consideren los estándares de codificación, la facilidad y accesibilidad del conjunto de letras/caracteres digitales que eligen durante el proceso de constitución de una norma ortográfica.

Nos gustaría despedirnos adelantando que en las próximas semanas daremos a conocer nuestro proyecto tsu̱nkwa, un corpus paralelo en línea español-otomí

* El término otomí usualmente abarca las diferentes designaciones que existen para esta lengua. Wright Carr (2005) reporta los siguientes nombres: ñatho (Toluca); ñahñu (Mezquital); ñañho (sur de Querétaro); n’yúhü (Sierra Madre Oriental). Sin embargo, existen todavía más designaciones, por ejemplo Palancar (2009) reporta el término ñöñhö para la región de San Ildefonso Tultepec, Querétaro, y Hernández-Green (2015) el de yühü para el de Acazulco.

Autores: Víctor Mijangos, Ximena Gutiérrez-Vasques

*Agradecemos a la estudiante de letras hispánicas, Yael Hermenegildo, por ayudarnos en nuestra búsqueda de caracteres digitales para el otomí

-Víctor es doctorante en lingüística por la UNAM y colaborador de Comunidad Elotl. Sus intereses abarcan la lingüística, las matemáticas y la lingüística computacional

-Ximena es doctora en Ciencias de la computación/ Lingüística computacional. Actualmente coordina la investigación y desarrollo dentro de la comunidad Elotl.

Referencias

Andrews, H. (1948). “Phonemes and morphophonemes of Temoaya Otomi”. En International Journal of American Linguistics, 15(1), pp. 213-222.

Hernández Cruz, L. & Victoria Torquemada, M. (2004). Diccionario del hñähñu (otomí) del Valle del Mezquital, estado de Hidalgo. México: Instituto Lingüístico del Verano.

Hernández-Green, N. (2015). Morfosintaxis verbal del otomí de Acazulco. Tesis doctoral. Doctorado en Lingüística Indoamericana, México: CIESAS.

Hermández-Green, N. (2018). “El sistema aspectual del Otomí de Acazulco”. En Cuadernos de Lingüística del Colegio de México, 5(2), pp. 280-334.

INALI. (2014). “njaua nt'ot'i ra hñähñu, norma de escritura de la lengua hñähñu (otomí) de los estados de Guanajuato, Hidalgo, Estado de México, Puebla, Querétaro, Tlaxcala, Michoacán y Veracruz”.

Lastra, Y. (1992). El Otomí de Toluca. México: Instituto de Investigaciones Antropológicas, UNAM.

Lastra, Y. (1996). "¿Es el otomı́ una lengua amenazada?" En Anales de antropologı́a, 33 (1), pp. 361-395.

Lastra, Y. (2001). Unidad y diversidad de la lengua. Relatos Otomíes. México: Instituto de Investigaciones Antropológicas, UNAM.

Palancar, E. L. (2009). Gramática y textos del hñöñö. Otomí de San Ildefonso, Tultepec, Querétaro. México: Universidad Autónoma de Querétaro.

Palancar, Enrique (2012). “The conjugation classes of Tilapa Otomi: An approach from canonical typology”. En Linguistics 50(4), pp. 783–832.

Palancar, E. L. (2018). “Clefts In Otomi: Extended Uses Of The Copular Construction”. En International Journal of American Linguistics, 84(1), 93-145.

Voigtlander, K. & Echegoyen, A. (1979). Luces contemporáneas del otomí; gramática del otomí de La Sierra. México: Instituto Lingüístico de Verano.Wright Carr, D. C. (2005), “Hñahñu, Nuhu, Nhato, Nuhmu. Precisiones sobre el término ‘otomí’”. En Arqueología Mexicana, 73, pp. 19-20.

Búsqueda automática de traducciones para lenguas originarias de México

Te invitamos a conocer nuestro proyecto para generar corpus paralelos, consultables en línea, para las lenguas habladas en México

Comunidad Elotl

Comunidad Elotl

Presentación de Kolo

Esquite

¿Qué es Esquite?

Me convenciste, dame 2

Dependencias

Instalación

0. Instalamos y corremos `elasticsearch`

1. Clonamos el repositorio de esquite

2. Preparando el entorno

3. Instalación de dependencias

4. Asistente de configuración 💫

6. Corremos la aplicación

Administración

Aliméntame humano 🤖

Probemos

Conclusiones

Proyecto Tsu̱nkua

¿Qué es?

¿Para quiénes está pensado este tipo de sistemas?

¿De qué recursos bilingües se alimenta Tsu̱nkua?

¿Por qué se llama Tsu̱nkua?

¿Quiénes hacen Tsu̱nkua?

Comunidad Elotl: Iniciativa tecnológica que difunde lenguas indígenas (mexico.com)

Revaloración vs discriminación

Procesando el otomí (hñähñu) ¿Dónde empezar?

Búsqueda automática de traducciones para lenguas originarias de México

Recent Posts

Recent Comments

Archives

Meta

Blog

Presentación de Kolo

Esquite

¿Qué es Esquite?

Me convenciste, dame 2

Dependencias

Instalación

0. Instalamos y corremos elasticsearch

1. Clonamos el repositorio de esquite

2. Preparando el entorno

3. Instalación de dependencias

4. Asistente de configuración 💫

6. Corremos la aplicación

Administración

Aliméntame humano 🤖

Probemos

Conclusiones

Proyecto Tsu̱nkua

¿Qué es?

¿Para quiénes está pensado este tipo de sistemas?

¿De qué recursos bilingües se alimenta Tsu̱nkua?

¿Por qué se llama Tsu̱nkua?

¿Quiénes hacen Tsu̱nkua?

Comunidad Elotl: Iniciativa tecnológica que difunde lenguas indígenas (mexico.com)

Revaloración vs discriminación

Procesando el otomí (hñähñu) ¿Dónde empezar?

Búsqueda automática de traducciones para lenguas originarias de México

Recent Posts

Recent Comments

Archives

Meta

0. Instalamos y corremos `elasticsearch`