License:
CC-BY-NC-SA-4.0
Steward:
Universidad Nacional Autónoma de México, UNAMTask: ASR
Release Date: 4/17/2026
Format: WAV, TSV
Size: 819.45 MB
Share
Corpus de 3 horas de audio transcrito de diferentes comunidades de habla cuicateca. Respecto de la clasificación del INALI, la muestra cubre de manera más extensa la variante del cuicateco del centro (San Juan Tepeuxila, Santos Reyes Pápalo, San Lorenzo Pápalo), seguida de la del norte (San Andrés Teotilálpam) y en menor medida del oriente (Colonia Constitución). Las transcripciones empleadas siguen una representación fonética estrecha. Los materiales forman pare del archivo recopilado por el Grupo de Estudio de la Lengua Dibaku (GELED).
Licensing
Creative Commons Attribution Non Commercial Share Alike 4.0 International (CC-BY-NC-SA-4.0)
https://spdx.org/licenses/CC-BY-NC-SA-4.0.htmlRestrictions/Special Constraints
Los usuarios no pertenecientes a las comunidades de habla cuicateca que busquen desarrollar tecnologías usando estos datos deberán contactar a los creadores del conjunto de datos para informar sobre el uso que se les dará. Esto facilitará coordinar esfuerzos entorno a los desarrollos prioritarios y el vinculo directo con las comunidades.
Forbidden Usage
Se prohíbe su uso para fines comerciales o cualquier otro uso que atente contra la privacidad de los colaboradores y la autonomía de las comunidades de habla cuicateca.
Ethical Review
Las grabaciones se realizaron en el marco de las actividades de documentación e investigación del Grupo de Estudio de la Lengua Dibaku (GELED). Se informó a los participantes sobre el uso de los materiales recopilados para fines de investigación y difusión de la lengua y sobre la privacidad en el manejo de sus datos personales. La difusión de los audios se integra como parte de los esfuerzos orientados a la documentación, investigación y conservación de la lengua cuicateca y para beneficio de sus hablantes.
Intended Use
ASR para su aplicación en la creación de materiales pedagógicos y procesamiento de datos para la documentación e investigación de la lengua.
El corpus contiene una muestra de la diversidad lingüística del cuicateco en diferentes comunidades de la región Cañada, Oaxaca, en la voz de hablantes de ambos sexos de diferentes rangos etarios. Se compone principalmente de léxico, frases y algunas oraciones.
Los materiales forman parte del archivo recopilado por Grupo de Estudio de la Lengua Dibaku (GELED) del Instituto de Investigaciones Antropológicas, UNAM. De las grabaciones originales en donde se elicitaron listas de palabras, frases y oraciones por traducción directa, se realizó una selección de las emisiones más claras, se transcribieron fonéticamente en PRAAT y se extrajo la transcripción y su fragmento del audio correspondiente.
El conjunto de datos deben procesarse para una normalización ortográfica o fonémica. Dado que es un registro fonético, puede que no se hayan capturado todos los lindes de palabra correspondientes. En una futura versión de este conjunto se incorporará la normalización de las representaciones y se expandirá el numero de horas procesadas.