Task: ASR
Release Date: 6/17/2026
Format: MP3
Size: 202.35 MB
Share
A collection of spontaneous responses to questions in Mixteco Yucuhiti (meh).
Restrictions/Special Constraints
None provided.
Forbidden Usage
It is forbidden to attempt to determine the identity of speakers in the Common Voice datasets. It is forbidden to re-host or re-share this dataset.
Intended Use
This dataset is intended to be used for training and evaluating automatic speech recognition (ASR) models. It may also be used for applications relating to computer-aided language learning (CALL) and language or heritage revitalisation.
meh)Esta ficha técnica corresponde a sps-corpus-4.0-2026-06-12 del conjunto de datos Spontaneous Speech (habla espontánea) de Mozilla Common Voice para meh [Mixteco Yucuhiti - meh]. El conjunto de datos contiene 1057 representando 10.15 horas de grabaciones (10.05 horas validadas) de 16 hablantes.
Los clips del conjunto de datos se clasifican según el estado de transcripción y la asignación al conjunto de entrenamiento. Las siguientes tablas resumen la distribución.
| Categoría | Clips | % |
|---|---|---|
| Transcrito y validado | 1,048 | 99.1% |
| Transcrito pendiente | 0 | 0.0% |
| Sin transcribir | 9 | 0.9% |
| Categoría | Clips | % |
|---|---|---|
| Train | 742 | 70.2% |
| Dev | 149 | 14.1% |
| Test | 157 | 14.9% |
| Sin asignar | 9 | 0.9% |
Cobertura de particiones de entrenamiento: 1,048 de 1,048 clips transcritos y validados (100.0%)
| Categoría | Clips | % |
|---|---|---|
| Validadas | 1,048 | 100.0% |
| Pendientes | 0 | 0.0% |
| Edited | 328 | 31.3% |
A continuación se muestra una selección aleatoria de las preguntas usadas en el corpus.
Nakani yaku à síkuéká ini’ nú.
A ká’án nú Tù’un Ñuu Sàvì ve’i nú?
Nà tata’ táji kúvi jiákɨ́n’ daja ñuu’ nú?
Néiin teku’ kúvi à màá vii nùù nú?
Nà jíni ñú’ún à tyineí da ñɨvɨ’ satíñú nùù kú’ú’ ya’á ká’án nú?
A continuación se muestra una selección aleatoria de respuestas transcritas del corpus.
Tiñu... satiñu kuaiyo ñivɨ kuvi, ɨjvn... a nututu ajan ñuu tun na ni tiñu ñuu kuvi kiji naka'an na tee nee tiñu da jen yukuan satiñu kuaiyo daja. ka'an suu tu'un stila ka'an o maa ja tequio soma, ɨjɨn, sutiñu nututu kuaiyo ñivɨ ñuu vi jen satiñu daja. Tava daja tyinuu tiñu vi yoo ñuu daja tunaa iin tiñu ve'i kuvi ji.
Ntu vi jini ni sute ni tyi yu'vi nute. Ntu kijini ni kivɨ nini jin xini nuu nute jen ntu kuvi sute ni.
Teku ta'an ini ni kuvi teku lee tuun ni teku li'i. Da yukuan vi teku vii nuu ni.
M.. iyo kue'e saa ñuu ni soma, iyo saa, a sivɨ katyi ki ni kue'e ke'in nuu saa iyo ñuu ni. Iyo kuili, iyo... saa tyii, iyo sa...saa na'ma, liyo, a vii ka saa vi liyo yukuan tyi, a tutu ju kuni o sa'a ja sa kanaji, san.... na'yu ju jen, vii tyu'un jun tatyi ji ka'an ja kuaa to a kuaa tu'un a tutu, kuaa tu'un a jita jen... Yukuan kuvi a saa vii so'o tun jini o iñɨ tyiji ku'u.
Iyo tiñu sa'a daja, kue'e nuu tiñu sa'a daja a nuu ñuu ya'a.
Cada fila de un archivo tsv representa un solo clip de audio, y contiene la siguiente información:
client_id - UUID hasheado de cierto usuario
audio_id - id numérico para archivo de audio
audio_file - nombre del archivo de audio
duration_ms - duración del audio en milisegundos
prompt_id - id numérico para el prompt
prompt - pregunta para el usuario
transcription - transcripción de la respuesta al audio
votes - número de personas quiene aprobaron cierta transcripción
age - edad de los hablantes1
gender - género de los hablantes1
language - nombre de la lengua
split - para el modelado de datos, indica a qué subconjunto de datos pertenece este clip
char_per_sec - cuántos caracteres de transcripción por segundo de audio.
quality_tags - una evaluación automatizada del par transcripción-audio, separadas por |
transcription-length - caracteres por segundo inferior a 3 caracteres por segundo
speech-rate - tasa de caracteres por segundo superior a 30 caracteres por segundo
short-audio - duración del audio inferior a 2 segundos
long-audio - duración del audio superior a 5 minutos
non-allowed-script - la transcripción contiene caracteres de un sistema de escritura no asociado al idioma
mixed-script-words - una sola palabra contiene caracteres de múltiples sistemas de escritura
mixed-script-transcription - la transcripción abarca múltiples sistemas de escritura, pero cada palabra usa uno solo de forma consistente
Este proyecto recibió financiamiento del Open Multilingual Speech Fund gestionado por Mozilla Common Voice.
Este conjunto de datos se publica bajo la licencia Creative Commons Zero (CC-0). Al descargar estos datos usted acepta no determinar la identidad de los hablantes en el conjunto de datos.
Para una lista completa de opciones de edades, generos, y acéntos, ver la especificación demográfica. Esta será reportada únicamente si el hablante aceptó proporcionar dicha información. ↩ ↩2