Task: ASR
Release Date: 3/22/2026
Format: MP3
Size: 216.40 MB
Share
A collection of read speech recordings in Western Highland Purepecha (pua).
Restrictions/Special Constraints
None provided.
Forbidden Usage
It is forbidden to attempt to determine the identity of speakers in the Common Voice datasets. It is forbidden to re-host or re-share this dataset.
Intended Use
This dataset is intended to be used for training and evaluating automatic speech recognition (ASR) models. It may also be used for applications relating to computer-aided language learning (CALL) and language or heritage revitalisation.
pua)Esta ficha técnica corresponde a cv-corpus-25.0-2026-03-09 del conjunto de datos de voz guiada de Mozilla Common Voice para pua [Western Highland Purepecha - pua]. El conjunto de datos contiene 8176 clips representando 11.09 horas de grabaciones (10.22 horas validadas) de 9 hablantes, grabados a partir de un corpus de texto de 2201 oraciones.
El conjunto de datos incluye las siguientes distribuciones autodeclaradas de edad y género. Debajo de cada tabla se muestra un resumen de cobertura.
Información de género autodeclarada. La tabla muestra conteos de clips y hablantes con porcentajes. Los hablantes que no declararon género aparecen como No especificado. Un guion (-) indica cero.
| Code | Gender | Clips | Speakers |
|---|---|---|---|
| male_masculine | Male, masculine | - | - |
| female_feminine | Female, feminine | 2294 (28.1%) | 3 (33.3%) |
| transgender | Transgender | - | - |
| non-binary | Non-binary | - | - |
| do_not_wish_to_say | Prefer not to say | - | - |
| - | Unspecified | 5882 (71.9%) | 8 (88.9%) |
Gender declared: 2294 of 8176 clips (28.1%), 1 of 9 speakers (11.1%)
Información de edad autodeclarada. La tabla muestra conteos de clips y hablantes con porcentajes. Los hablantes que no declararon edad aparecen como No especificado. Un guion (-) indica cero.
| Code | Age | Clips | Speakers |
|---|---|---|---|
| teens | Teens | - | - |
| twenties | Twenties | 4482 (54.8%) | 4 (44.4%) |
| thirties | Thirties | 2532 (31.0%) | 3 (33.3%) |
| fourties | Fourties | - | - |
| fifties | Fifties | - | - |
| sixties | Sixties | - | - |
| seventies | Seventies | - | - |
| eighties | Eighties | - | - |
| nineties | Nineties | - | - |
| - | Unspecified | 1162 (14.2%) | 6 (66.7%) |
Age declared: 7014 of 8176 clips (85.8%), 3 of 9 speakers (33.3%)
Clip buckets
| Bucket | Clips |
|---|---|
| Validated | 7536 (92.2%) |
| Invalidated | 195 (2.4%) |
| Other | 445 (5.4%) |
Training splits
| Split | Clips |
|---|---|
| Train | 1153 (15.3%) |
| Dev | 495 (6.6%) |
| Test | 547 (7.3%) |
Training split coverage: 2195 of 7536 validated clips (29.1%)
El conjunto de datos contiene 7536 clips validados, 195 invalidados y 445 sin resolver. La duración promedio de los clips es de 4.885 segundos.
Validated sentences: 2201
| Category | Count |
|---|---|
| Unvalidated sentences | - |
| Pending sentences | - |
| Rejected sentences | - |
| Reported sentences | 1 |
El corpus contiene 2201 oraciones: 2201 validadas y 0 no validadas (0 pendientes de revisión, 0 rechazadas), con 1 reportadas para revisión.
A continuación se muestran cinco oraciones seleccionadas aleatoriamente del corpus.
¿Nena jamasínki ma énka kamaaka tumina?
Tata Luisi purhu tsïpata jinkontkusï tʼirempti ka echutʼa.
Warhiti ma ataxati wapʼani jimpoka noteru kurhankusïnka ya.
Juchiti mintsita pʼamexati.
Magdalena niraxati jikwani.
| Source | Sentences |
|---|---|
| Author Sergio Salmeron; Own work | 998 (45.3%) |
| Ana Leidy / Sergio | 750 (34.1%) |
| Sergio Salmeron Madrigal | 453 (20.6%) |
Cada fila de un archivo tsv representa un solo clip de audio, y contiene la siguiente información:
client_id - UUID hasheado de cierto usuario
path - ruta relativa al archivo de audio
text - presunta transcripción del audio
up_votes - número de personas que dijeron que el audio concordaba con el texto
down_votes - número de personas que dijeron que el audio no concordaba con el texto
age - edad de los hablantes1
gender - genero de los hablantes1
accents - acentos de los hablantes1
variant - variante del idioma1
segment - si la oración pertenece a una porción personalizada de un dataset, será listada aquí
prompt_upvotes - número de votos positivos que recibió la oración
prompt_reports - número de reportes que recibió la oración
is_edited - si la transcripción del clip ha sido editada
validated_sentences.tsvEl archivo validated_sentences.tsv contiene una fila por cada oración validada en el corpus de texto:
sentence_id - identificador único de la oración
sentence - el texto de la oración
variant - la variante del idioma
sentence_domain - el/los dominio(s) a los que pertenece la oración
source - la fuente de donde se recopiló la oración
is_used - si la oración sigue en circulación para grabación
clips_count - número de clips grabados para esta oración
unvalidated_sentences.tsvEl archivo unvalidated_sentences.tsv contiene una fila por cada oración no validada en el corpus de texto:
sentence_id - identificador único de la oración
sentence - el texto de la oración
variant - la variante del idioma
sentence_domain - el/los dominio(s) a los que pertenece la oración
source - la fuente de donde se recopiló la oración
up_votes - número de votos positivos que recibió la oración
down_votes - número de votos negativos que recibió la oración
status - estado actual de la oración (pending o rejected)
Este proyecto recibió financiamiento del Open Multilingual Speech Fund gestionado por Mozilla Common Voice.
Este conjunto de datos se publica bajo la licencia Creative Commons Zero (CC-0). Al descargar estos datos usted acepta no determinar la identidad de los hablantes en el conjunto de datos.
Para una lista completa de opciones de edades, generos, y acéntos, ver la especificación demográfica. Esta será reportada únicamente si el hablante aceptó proporcionar dicha información. ↩ ↩2 ↩3 ↩4