Common Voice Spontaneous Speech 4.0 - Wixárika

hch — Wixárika (`hch`)

Esta ficha técnica corresponde a sps-corpus-4.0-2026-06-12 del conjunto de datos Spontaneous Speech (habla espontánea) de Mozilla Common Voice para hch [Wixárika - hch]. El conjunto de datos contiene 1553 representando 10.14 horas de grabaciones (10.12 horas validadas) de 10 hablantes.

Partición de datos para modelado

Los clips del conjunto de datos se clasifican según el estado de transcripción y la asignación al conjunto de entrenamiento. Las siguientes tablas resumen la distribución.

Clips de audio

Categoría	Clips	%
Transcrito y validado	1,549	99.7%
Transcrito pendiente	0	0.0%
Sin transcribir	4	0.3%

Particiones de entrenamiento

Categoría	Clips	%
Train	590	38.0%
Dev	491	31.6%
Test	468	30.1%
Sin asignar	4	0.3%

Cobertura de particiones de entrenamiento: 1,549 de 1,549 clips transcritos y validados (100.0%)

Transcripciones

Estado de transcripción

Categoría	Clips	%
Validadas	1,549	100.0%
Pendientes	0	0.0%
Edited	1,524	98.4%

Ejemplos

Preguntas

A continuación se muestra una selección aleatoria de las preguntas usadas en el corpus.

¿Ke peyɨanetɨ teiwari niukieya pepetimá?
¿Ke peyɨanetɨ ‘uximaayatsika pepukaxei?
¿Ke peyɨanetɨ petiʼiwawetɨ pepatɨa?
¿ʼAkíe mɨreuwɨɨtɨkakɨ ke xeteyuparewietɨ xepɨteyukutuaya?
¿Pemetaweerixɨtsie ha waɨká meuyewekatsie ke xeteʼikutɨkɨkai?

Respuestas

A continuación se muestra una selección aleatoria de respuestas transcritas del corpus.

Ne nunuutsiyari kwanetsinakekai xɨka hanɨiyari netsi'uta'aitɨani, xɨka ha mɨkaneikani takie tepenɨ'ariwákai haixápa pai tɨ tepuyehanɨtɨkɨkákai, takɨxaurite te'uhapatɨ méxɨ́katɨni taxaaríte te'uhapatɨ.
Heiwa ʼiitsɨkame titewatɨ kumitsariyu, teʼutihɨawarieka, teʼutiʼitɨ́arieka, takupanieru tatsihakaʼitɨaku, ʼaikɨkɨɨxi wahetsíe naneuyerɨni, ʼaana mɨ kwinie nepɨtiunetiʼatsíxɨ.
Mɨɨkɨ ya memɨʼánene ne pɨkanetsinake, mɨpaɨ méripai meʼánenetɨ mepɨkaxuawékai.
Méripai tɨ, nunuutsiyari, mmm, takie mɨɨkɨ, pelota memɨte'itérɨwa tapaapáma mɨɨkɨ mepetíwaikakai, 'e, muuwa reyetewakaku Tsiikwáita, mmm, muuwa nepeta'axékai, nepe'inieriwákai, 'aku ke paɨ tɨtɨ meyɨatɨ mɨɨkɨ me... me... me... mepɨyɨakai mɨɨkɨ muuwa memeukɨkɨkákai, mɨpaɨ netiku'eriwatɨ nepɨyɨanékai tiitayari ya meteyɨaka 'aku, ke paɨ tɨtɨ me... meyɨ́atɨ mepɨyɨakai, 'aana netsi... netsi'unakixɨ mɨɨkɨ yunaitɨ memutihiwanitsie, eh, memɨteheu'ɨnanitsie, 'e, yeme ne pɨnetsikunanakékai ya... ya nemɨtinierékai.
Mɨɨkɨ tsɨ niuyɨneni kaunari xunuuri titetewatɨ kanixuawéni, mɨɨkɨ tenitixixiwakaitɨni, mɨɨkɨkɨ menitiweewiwakaitɨni taʼúkitsiema.

Campos

Cada fila de un archivo tsv representa un solo clip de audio, y contiene la siguiente información:

client_id - UUID hasheado de cierto usuario
audio_id - id numérico para archivo de audio
audio_file - nombre del archivo de audio
duration_ms - duración del audio en milisegundos
prompt_id - id numérico para el prompt
prompt - pregunta para el usuario
transcription - transcripción de la respuesta al audio
votes - número de personas quiene aprobaron cierta transcripción
age - edad de los hablantes1
gender - género de los hablantes1
language - nombre de la lengua
split - para el modelado de datos, indica a qué subconjunto de datos pertenece este clip
char_per_sec - cuántos caracteres de transcripción por segundo de audio.
quality_tags - una evaluación automatizada del par transcripción-audio, separadas por |
- transcription-length - caracteres por segundo inferior a 3 caracteres por segundo
- speech-rate - tasa de caracteres por segundo superior a 30 caracteres por segundo
- short-audio - duración del audio inferior a 2 segundos
- long-audio - duración del audio superior a 5 minutos
- non-allowed-script - la transcripción contiene caracteres de un sistema de escritura no asociado al idioma
- mixed-script-words - una sola palabra contiene caracteres de múltiples sistemas de escritura
- mixed-script-transcription - la transcripción abarca múltiples sistemas de escritura, pero cada palabra usa uno solo de forma consistente

Involúcrate

Enlaces comunitarios

Discusiones

Contribuir

Agradecimientos

Financiamiento

Este proyecto recibió financiamiento del Open Multilingual Speech Fund gestionado por Mozilla Common Voice.

Licencia

Este conjunto de datos se publica bajo la licencia Creative Commons Zero (CC-0). Al descargar estos datos usted acepta no determinar la identidad de los hablantes en el conjunto de datos.

Footnotes

Para una lista completa de opciones de edades, generos, y acéntos, ver la especificación demográfica. Esta será reportada únicamente si el hablante aceptó proporcionar dicha información. ↩ ↩2

Common Voice Spontaneous Speech 4.0 - Wixárika

Description

Specifics

Considerations

Processes

Metadata

hch — Wixárika (`hch`)

Partición de datos para modelado

Clips de audio

Particiones de entrenamiento

Transcripciones

Estado de transcripción

Ejemplos

Preguntas

Respuestas

Campos

Involúcrate

Enlaces comunitarios

Discusiones

Contribuir

Agradecimientos

Financiamiento

Licencia

Footnotes

Common Voice Spontaneous Speech 4.0 - Wixárika

Description

Specifics

Considerations

Processes

Metadata

hch — Wixárika (hch)

Partición de datos para modelado

Clips de audio

Particiones de entrenamiento

Transcripciones

Estado de transcripción

Ejemplos

Preguntas

Respuestas

Campos

Involúcrate

Enlaces comunitarios

Discusiones

Contribuir

Agradecimientos

Financiamiento

Licencia

Footnotes

hch — Wixárika (`hch`)