Task: ASR
Release Date: 6/17/2026
Format: MP3
Size: 226.41 MB
Share
A collection of spontaneous responses to questions in Michoacán Mazahua (Jñatjo).
Restrictions/Special Constraints
None provided.
Forbidden Usage
It is forbidden to attempt to determine the identity of speakers in the Common Voice datasets. It is forbidden to re-host or re-share this dataset.
Intended Use
This dataset is intended to be used for training and evaluating automatic speech recognition (ASR) models. It may also be used for applications relating to computer-aided language learning (CALL) and language or heritage revitalisation.
mmc)Esta ficha técnica corresponde a sps-corpus-4.0-2026-06-12 del conjunto de datos Spontaneous Speech (habla espontánea) de Mozilla Common Voice para Jñatjo [Michoacán Mazahua - mmc]. El conjunto de datos contiene 871 representando 11.23 horas de grabaciones (11.23 horas validadas) de 12 hablantes.
La variante de Michoacán de mazahua o ‘Jñatjo’ es hablada en el norte Michoacán, México. Las tenencias donde se habla esta variante son Crescencio Morales, Boca de la Cañada, Rincón de San Mateo, El Tigre, La Barranca, La Dieta, La Fundición, Macho de Agua y Río de Guadalupe. Pertenece a la familia lingüística otomangue, subrama otopameana-central. Los datos obtenidos para este corpus de datos provienen de la tenencia de Crescencio Morales, ubicado en el municipio de Zitácuaro.
Los clips del conjunto de datos se clasifican según el estado de transcripción y la asignación al conjunto de entrenamiento. Las siguientes tablas resumen la distribución.
| Categoría | Clips | % |
|---|---|---|
| Transcrito y validado | 871 | 100.0% |
| Transcrito pendiente | 0 | 0.0% |
| Sin transcribir | 0 | 0.0% |
| Categoría | Clips | % |
|---|---|---|
| Train | 607 | 69.7% |
| Dev | 183 | 21.0% |
| Test | 81 | 9.3% |
| Sin asignar | 0 | 0.0% |
Cobertura de particiones de entrenamiento: 871 de 871 clips transcritos y validados (100.0%)
| Categoría | Clips | % |
|---|---|---|
| Validadas | 871 | 100.0% |
| Pendientes | 0 | 0.0% |
| Edited | 305 | 35.0% |
El Mazahua de Michoacán se escribe utilizando alfabeto latino. Ha habido múltiples propuestas de alfabeto para el Mazahua y sus dos variantes, la del Estado de México (Jñajtro) y la de Michoacán (Jñatjo), las cuales no toman en cuenta los tonos de las palabras habiendo mucha confusión durante la escritura, los tonos de la lengua son sistémicos ya que pueden contrastar funciones gramaticales (posesión, demostrativos, definitud, tiempo, aspecto y modo) y determinar el significado de las palabras
Por ejemplo:
‘kjǚjnü’ metate – ‘kjǜjnü’ maíz
‘‘ë̀dyi’ llevar animales – ‘ ‘ë̂dyi’ medir
Para esta propuesta de alfabeto, se retomará el sugerido por la Universidad Intercultural del Estado de México expuesto en la tesis de Gloria Vargas Bernal (2013). Se tiene la visión de hacerlo más específico en el caso de los tonos.
A continuación se muestra una selección aleatoria de las preguntas usadas en el corpus.
Jânge gá 'èñe ji nu téjñe nu ch'áreje?
Má kjá mí t'ǐ'i gí ts'â'a b'ë̌ts'a? Xǐts'i mbéka b'í ts'â'a?
Pjéko ndéma téjmʼe gí pâra?
Nutsʼkʼé péchʼkʼe ín cultura jânge gá kjâʼa.
Mā̀mā jângégi yä̀t'ä íñö̂na k'amí kjí né'e?
A continuación se muestra una selección aleatoria de respuestas transcritas del corpus.
Yó b'ë̌zo k'o k'á rá à jñíñi kjoch'á rá 'é'e k'a ñéjua este... k'o yá b'a 'éjk'e ñéjua à Bṓndo kâxtjoji à jñíñi pero... este... nú k'óyáji k'â rí à Bṓndo k'o tê'e yó juā́jmā eh... yá gí k'o... yá gí pàjü k'o jí ngǔm'ü kjâ rá jyégí ngǔmi para yó juā́jmāgé... bá gí xíndó k'o kêxjye nú jék'o yá gí 'úndoji mbépji k'o para jyéb'eji k'a nú ngǔm'ü para pë́pji yá k'u 'ä́rätju k'a jñíñi k'o yó b'ë̌zo
Eh, mí jíngua pa... nú të̌'ëgö, este..., mí jā̂ndāgö gá mí mā́mā, má rá né'ejmé 'ä̀t'ä yó jyús... servilleta o máji yó nú kjö́s'ü k'a rá ndéxe, k'a rá kjö́s'ü k'a rí né'e angexe kjö́s'ü, eh..., pero ngéjo m... mânta k'o mí 'ä̀t'äji k'o mí ndzh..., k'o mí dyä̀rüji ázuca k'o mí póji mí jíngua k'e dyá k'o yó mânta dyá k'o rá... rá ndôm'a dyá k'a ná'a dyá k'o para rá x... dyójk'ü k'o jângo b'ǚb'ü k'a môgü à ñä̌'nä dyá ró pjö̌ngu ná jó'o k'a rá mbé'e ñá k'a rá né'e rá juë̌jch'i k'o servilleta 'o máji yó ngôs'ü k'e dyá k'a yá rá juë̌jch'i dyá k'o í'i má rá jângo yá mí 'ä̀t'ä angeze rú mí né'egö k'a jângo má já'a jângo dyá k'a. 'ó mí ñâño dyá k'a b'ǘ k'a nà kjâ'a b'íjtu k'a yá gí b'ǘnk'a gó kjôs'ü k'a rá xǘjkjü, í yá ndés'e dyá rá b'ób'ü k'o dyá k'a nú b'íjtu k'a nú... k'a rá dyä̀t'ä angezi k'a 'ùni mā́mā, í dyá ndó rá kíchi k'o yá k'a ndóra nú má jók'o ná só'o nú kjôs'ü nú 'ä̀t'ä yó nána, à, má dyá rá xôrügö í rá 'ä̀t'ägö k'a rí xíra 'ä̀t'göji í m'íjtu ín servilleta 'ó ín ts'óts'ü, jé má mbênk'o dyá k'o má mí jā̂ndāgö k'o mí 'ä̀t'ä k'a mí mā́mā, eh, 'ó máji yó ngó rá mâ'a k'a yó ngǔm'ü mí tía má... jé rá mâ'a k'a ngǔm'ü ín tía, má rá sä̌tji rá xí'i ngú'u rá tǐ'i, k'a nú tjǐ'i dyá gó 'ä̀t'ä k'a nú b'íjtu ndé rá jā̂ndā ndé rá sót'ü k'a mí 'ä̀t'ä po servilleta ó nú kjôs'ü, ndé ná s'ó'o k'o yó kjôs'ü k'o mí kuájtüji k'a nú b'íjtu k'a rá juë̌jchji, yá sí'i má né'egö k'o k'a ró dyá múxtegö k'o dyá ró të́'ë k'a dyá ró né'e dyá ró juë̌zhi ró xôrgo, dyá ró 'ö́jtü k'a nú b'íjtu í mā́mā para gó dyájk'o para que rú xôrügö para ró juë̌jchjigö ná servilleta o ín ts'ósk'a rú 'ä̀t'ä
Má yá rí pë́pj' jó'o rá mí mò'... rá mí ,mí kjâ'a índzǔm'ü rá, ró 'ä̀t'ä jñôna rá pë́dyi ímb'íjtu nú, rá ín guí'i añimále k'a rí pésk'o k'a índzǔm'ü rá t'é'b'e í í'i ts'íjt'a ín tǐ'i, í, ín tǐ'i ín ch'ijue rá, rá pôrgo í, ín ts'íb'èjch'e k'a, k'a b'ǚb'ü k'a ngǔm'ü, porque dyá rí pë́pj', pë́pj' jó'o ñextjo k'a rí b'ǚb'ü ín ngùr' pero ngéjyo k'a rí kjâ'a dyák'o í pédye í míjtu rá xíbi ín traste, rá limpia ín, íngǔm'ü para que rá sójñi íngǔm'ü nà pâxü, nà kjâ'a ná nójo íngǔm'ü rá xák'o
T'embáne hêch'eji yó bíjtu para dyàra ndǜs'é'e
Nuts'kó rí pjë̌ch'k'o rá mbêzhi ndí pjë̌ch'ko rá... rá 'ä̀tk'o jñôna rá... ndä́'t'ä ná ngǔmü rá 'ä̀tk'o ná... ná ts'íngǔmü de... de... yó sâkja dyémp'e ndé yó tabla rá kja 'ë̀nt'e ñé'e rá... rá 'ätk'ä yó jñôna rá 'ä̀tk'o yó... yó... m'ândresi rá... mbêzhogö yó m'ândresi y... pjêxkjo rá kjâ'a dyák'o
Cada fila de un archivo tsv representa un solo clip de audio, y contiene la siguiente información:
client_id - UUID hasheado de cierto usuario
audio_id - id numérico para archivo de audio
audio_file - nombre del archivo de audio
duration_ms - duración del audio en milisegundos
prompt_id - id numérico para el prompt
prompt - pregunta para el usuario
transcription - transcripción de la respuesta al audio
votes - número de personas quiene aprobaron cierta transcripción
age - edad de los hablantes1
gender - género de los hablantes1
language - nombre de la lengua
split - para el modelado de datos, indica a qué subconjunto de datos pertenece este clip
char_per_sec - cuántos caracteres de transcripción por segundo de audio.
quality_tags - una evaluación automatizada del par transcripción-audio, separadas por |
transcription-length - caracteres por segundo inferior a 3 caracteres por segundo
speech-rate - tasa de caracteres por segundo superior a 30 caracteres por segundo
short-audio - duración del audio inferior a 2 segundos
long-audio - duración del audio superior a 5 minutos
non-allowed-script - la transcripción contiene caracteres de un sistema de escritura no asociado al idioma
mixed-script-words - una sola palabra contiene caracteres de múltiples sistemas de escritura
mixed-script-transcription - la transcripción abarca múltiples sistemas de escritura, pero cada palabra usa uno solo de forma consistente
Rosario de Fátima Álvarez García <fatimaalvarezgr96@gmail.com>
Juan Castro Gallardo <jcgallardho@gmail.com>
Lorena Abigail Benítez Cruz <abigailbenitez66@gmail.com>
Este proyecto recibió financiamiento del Open Multilingual Speech Fund gestionado por Mozilla Common Voice.
Este conjunto de datos se publica bajo la licencia Creative Commons Zero (CC-0). Al descargar estos datos usted acepta no determinar la identidad de los hablantes en el conjunto de datos.
Para una lista completa de opciones de edades, generos, y acéntos, ver la especificación demográfica. Esta será reportada únicamente si el hablante aceptó proporcionar dicha información. ↩ ↩2