Common Voice Spontaneous Speech 3.0 - Mixteco Yucuhiti

meh — Mixteco Yucuhiti (`meh`)

Esta ficha técnica corresponde a sps-corpus-3.0-2026-03-09 del conjunto de datos Spontaneous Speech (habla espontánea) de Mozilla Common Voice para meh [Mixteco Yucuhiti - meh]. El conjunto de datos contiene 1057 representando 10.15 horas de grabaciones (10.05 horas validadas) de 16 hablantes.

Partición de datos para modelado

Los clips del conjunto de datos se clasifican según el estado de transcripción y la asignación al conjunto de entrenamiento. Las siguientes tablas resumen la distribución.

Clips de audio

Categoría	Clips	%
Transcrito y validado	1,048	99.1%
Transcrito pendiente	0	0.0%
Sin transcribir	9	0.9%

Particiones de entrenamiento

Categoría	Clips	%
Train	532	50.3%
Dev	288	27.2%
Test	228	21.6%
Sin asignar	9	0.9%

Cobertura de particiones de entrenamiento: 1,048 de 1,048 clips transcritos y validados (100.0%)

Transcripciones

Estado de transcripción

Categoría	Clips	%
Validadas	1,048	100.0%
Pendientes	0	0.0%
Edited	328	31.3%

Ejemplos

Preguntas

A continuación se muestra una selección aleatoria de las preguntas usadas en el corpus.

Nàsa sa’á de nuvi và’a ku’và kunu kàa jíso ñɨvɨ’?
Á íyó yúví jín sàvì ñuu’ nú de néiin?
Nakani yaku tù’un káá và’a jiè’è ñuu’ nú.
Nà tiñu kúvi à tá’án kà ini’ da ñɨvɨ’ ñá’nú ñuu’ nú?
Néiin kúvi màá víjí nùù tiñu sá’á nú nùù kú’ú’?

Respuestas

A continuación se muestra una selección aleatoria de respuestas transcritas del corpus.

Na ini ni sikɨ ni a kunu jen, kuaa ni jin ku'va jen ki nii kenei dani ke'e nu va kuya kei jen jianka ni xini yutun na jen suni nuvi a ni kune'ya ni jita a ña a xisa e kuiya iki axin suu sava kunee suu vi ji.
Suu a jitu vi a... a jitu vi a vi tiñu viji da katyi o, sa kakɨn itu jen, viji xini kakɨn jin katyi o. Jen... yuku e... Nee ña kɨ'ɨn jin maa natyii jen... kuvi iin uvi yoo niyo jen sa... ɨjɨn, tee nu nuu yaka jen sa kajie'e nuu taji nu katyi o.
Soo, a nkani ka ko'o ku jin yu'u vi a, ɨjɨn... nkuni'i yu'u o nuu da ña'nu.
A iyo ya'a va tan una kivɨ axin kanta vi. koo jen jiani daja ya'vi nuu nee o ke'en o nee ka nee o ke'en o. A na iyo nuu nee o ya'a ve'i tyi tyuvee ya ki nika, kij ña'ni, kijii suu ña'mi yatu a kiji na yuve xiko daa iin tyi tyuvee va jen kuaan va ni'i o ke'en o a kanta nuu ya'vi tan una kivɨ, nuu nee dani ya'a. Axin tun iin ve'i kuya'vi da yaji o vi suu kuvi kɨ'ɨn o kuaa tienda ve'i nuu kuya'vi da ke'en o asukar o ke'en o, arros ke'en o, nutyi ke'en o, nuni. Yukuan va kuya'vi. Ve'i konasupo.
A kua nuu nee ni ya'a jen ntu koyo ñu'un ntu naa iin tuno'o iyo majan de yu'u ityi karretera va koyo ñu'un. Tyi ma jie'e a ntanɨ jɨn jen saa vi nuu kunaka ñu'un kua'an de koo maa nuu nee dani ya'a tyi iyo va'a ya'a nee danu kava yukuan va koyo yuu, koyo koo, so ntuvi nuu nee o viji ntu nuu iñɨ nuu nee ve'i, ntu nuu jia'a ñivɨ viji tyi jika vi ju ntu na iyo iin a nasɨ vi'i ya'a tyi ntu nuu natyitu nute vi ya'a de na iyo sa ne tun iyo va'a xini ve'i dani, nee dani ini ve'i dani koo a, kuiñɨ dani ini nute de ku'un dani nuu nute tyi ntuvi, tyi ntuvi na nute ka'nu iyo nuu iyo dani ya'a.

Campos

Cada fila de un archivo tsv representa un solo clip de audio, y contiene la siguiente información:

client_id - UUID hasheado de cierto usuario
audio_id - id numérico para archivo de audio
audio_file - nombre del archivo de audio
duration_ms - duración del audio en milisegundos
prompt_id - id numérico para el prompt
prompt - pregunta para el usuario
transcription - transcripción de la respuesta al audio
votes - número de personas quiene aprobaron cierta transcripción
age - edad de los hablantes1
gender - genero de los hablantes1
language - nombre de la lengua
split - para el modelado de datos, indica a qué subconjunto de datos pertenece este clip
char_per_sec - cuántos caracteres de transcripción por segundo de audio.
quality_tags - una evaluación automatizada del par transcripción-audio, separadas por |
- transcription-length - caracteres por segundo inferior a 3 caracteres por segundo
- speech-rate - tasa de caracteres por segundo superior a 30 caracteres por segundo
- short-audio - duración del audio inferior a 2 segundos
- long-audio - duración del audio superior a 5 minutos

Involúcrate

Enlaces comunitarios

Discusiones

Contribuir

Agradecimientos

Financiamiento

Este proyecto recibió financiamiento del Open Multilingual Speech Fund gestionado por Mozilla Common Voice.

Licencia

Este conjunto de datos se publica bajo la licencia Creative Commons Zero (CC-0). Al descargar estos datos usted acepta no determinar la identidad de los hablantes en el conjunto de datos.

Footnotes

Para una lista completa de opciones de edades, generos, y acéntos, ver la especificación demográfica. Esta será reportada únicamente si el hablante aceptó proporcionar dicha información. ↩ ↩2

Common Voice Spontaneous Speech 3.0 - Mixteco Yucuhiti

Description

Specifics

Considerations

Processes

Metadata

meh — Mixteco Yucuhiti (`meh`)

Partición de datos para modelado

Clips de audio

Particiones de entrenamiento

Transcripciones

Estado de transcripción

Ejemplos

Preguntas

Respuestas

Campos

Involúcrate

Enlaces comunitarios

Discusiones

Contribuir

Agradecimientos

Financiamiento

Licencia

Footnotes

Common Voice Spontaneous Speech 3.0 - Mixteco Yucuhiti

Description

Specifics

Considerations

Processes

Metadata

meh — Mixteco Yucuhiti (meh)

Partición de datos para modelado

Clips de audio

Particiones de entrenamiento

Transcripciones

Estado de transcripción

Ejemplos

Preguntas

Respuestas

Campos

Involúcrate

Enlaces comunitarios

Discusiones

Contribuir

Agradecimientos

Financiamiento

Licencia

Footnotes

meh — Mixteco Yucuhiti (`meh`)