Common Voice Scripted Speech 26.0 - Western Highland Purepecha

pua — Western Highland Purepecha (`pua`)

Esta ficha técnica corresponde a cv-corpus-26.0-2026-06-12 del conjunto de datos de voz guiada de Mozilla Common Voice para pua [Western Highland Purepecha - pua]. El conjunto de datos contiene 8176 clips representando 11.09 horas de grabaciones (10.22 horas validadas) de 9 hablantes, grabados a partir de un corpus de texto de 2201 oraciones.

Información demográfica

El conjunto de datos incluye las siguientes distribuciones autodeclaradas de edad y género. Debajo de cada tabla se muestra un resumen de cobertura.

Género

Información de género autodeclarada. La tabla muestra conteos de clips y hablantes con porcentajes. Los hablantes que no declararon género aparecen como No especificado. Un guion (-) indica cero.

Code	Gender	Clips	Speakers
male_masculine	Male, masculine	-	-
female_feminine	Female, feminine	2294 (28.1%)	3 (33.3%)
transgender	Transgender	-	-
non-binary	Non-binary	-	-
do_not_wish_to_say	Prefer not to say	-	-
-	Unspecified	5882 (71.9%)	8 (88.9%)

Gender declared: 2294 of 8176 clips (28.1%), 1 of 9 speakers (11.1%)

Edad

Información de edad autodeclarada. La tabla muestra conteos de clips y hablantes con porcentajes. Los hablantes que no declararon edad aparecen como No especificado. Un guion (-) indica cero.

Code	Age	Clips	Speakers
teens	Teens	-	-
twenties	Twenties	4482 (54.8%)	4 (44.4%)
thirties	Thirties	2532 (31.0%)	3 (33.3%)
fourties	Fourties	-	-
fifties	Fifties	-	-
sixties	Sixties	-	-
seventies	Seventies	-	-
eighties	Eighties	-	-
nineties	Nineties	-	-
-	Unspecified	1162 (14.2%)	6 (66.7%)

Age declared: 7014 of 8176 clips (85.8%), 3 of 9 speakers (33.3%)

Partición de datos para modelado

Clip buckets

Bucket	Clips
Validated	7537 (92.2%)
Invalidated	195 (2.4%)
Other	444 (5.4%)

Training splits

Split	Clips
Train	1153 (15.3%)
Dev	495 (6.6%)
Test	547 (7.3%)

Training split coverage: 2195 of 7537 validated clips (29.1%)

El conjunto de datos contiene 7537 clips validados, 195 invalidados y 444 sin resolver. La duración promedio de los clips es de 4.885 segundos.

Corpus de texto

Validated sentences: 2201

Category	Count
Unvalidated sentences	-
Pending sentences	-
Rejected sentences	-
Reported sentences	1

El corpus contiene 2201 oraciones: 2201 validadas y 0 no validadas (0 pendientes de revisión, 0 rechazadas), con 1 reportadas para revisión.

Muestra

A continuación se muestran cinco oraciones seleccionadas aleatoriamente del corpus.

Tataka sapichunha no jorhenaspti karani ka no wekasïnti jorhenkwarhini.
Yóntki anapu kʼumanchikwaecha chkarieri úkataesïrempti.
¿Necha xani jasïnki tʼirekwa úntani?
Apupu xani kanikwa sïrhuni jaka.
Tata jurhiata ka nana kutsï erakʼutasïntiksïni.

Fuentes

Source	Sentences
Author Sergio Salmeron; Own work	998 (45.3%)
Ana Leidy / Sergio	750 (34.1%)
Sergio Salmeron Madrigal	453 (20.6%)

Campos

Clips

Cada fila de un archivo tsv representa un solo clip de audio, y contiene la siguiente información:

client_id - UUID hasheado de cierto usuario
path - ruta relativa al archivo de audio
sentence - la oración a leer en voz alta
sentence_id - identificador único de la oración
sentence_domain - clasificación de dominio(s) de la oración
up_votes - número de personas que dijeron que el audio concordaba con el texto
down_votes - número de personas que dijeron que el audio no concordaba con el texto
age - edad de los hablantes1
gender - género de los hablantes1
accents - acentos de los hablantes1
variant - variante del idioma1
locale - código de localización del idioma
segment - si la oración pertenece a una porción personalizada de un dataset, será listada aquí

`validated_sentences.tsv`

El archivo validated_sentences.tsv contiene una fila por cada oración validada en el corpus de texto:

sentence_id - identificador único de la oración
sentence - el texto de la oración
variant - la variante del idioma
sentence_domain - el/los dominio(s) a los que pertenece la oración
source - la fuente de donde se recopiló la oración
is_used - si la oración sigue en circulación para grabación
clips_count - número de clips grabados para esta oración

`unvalidated_sentences.tsv`

El archivo unvalidated_sentences.tsv contiene una fila por cada oración no validada en el corpus de texto:

sentence_id - identificador único de la oración
sentence - el texto de la oración
variant - la variante del idioma
sentence_domain - el/los dominio(s) a los que pertenece la oración
source - la fuente de donde se recopiló la oración
up_votes - número de votos positivos que recibió la oración
down_votes - número de votos negativos que recibió la oración
status - estado actual de la oración (pending o rejected)

Involúcrate

Enlaces comunitarios

Discusiones

Contribuir

Agradecimientos

Financiamiento

Este proyecto recibió financiamiento del Open Multilingual Speech Fund gestionado por Mozilla Common Voice.

Licencia

Este conjunto de datos se publica bajo la licencia Creative Commons Zero (CC-0). Al descargar estos datos usted acepta no determinar la identidad de los hablantes en el conjunto de datos.

Footnotes

Para una lista completa de opciones de edades, generos, y acéntos, ver la especificación demográfica. Esta será reportada únicamente si el hablante aceptó proporcionar dicha información. ↩ ↩2 ↩3 ↩4

Common Voice Scripted Speech 26.0 - Western Highland Purepecha

Description

Specifics

Considerations

Processes

Metadata

pua — Western Highland Purepecha (`pua`)

Información demográfica

Género

Edad

Partición de datos para modelado

Corpus de texto

Muestra

Fuentes

Campos

Clips

`validated_sentences.tsv`

`unvalidated_sentences.tsv`

Involúcrate

Enlaces comunitarios

Discusiones

Contribuir

Agradecimientos

Financiamiento

Licencia

Footnotes

Common Voice Scripted Speech 26.0 - Western Highland Purepecha

Description

Specifics

Considerations

Processes

Metadata

pua — Western Highland Purepecha (pua)

Información demográfica

Género

Edad

Partición de datos para modelado

Corpus de texto

Muestra

Fuentes

Campos

Clips

validated_sentences.tsv

unvalidated_sentences.tsv

Involúcrate

Enlaces comunitarios

Discusiones

Contribuir

Agradecimientos

Financiamiento

Licencia

Footnotes

pua — Western Highland Purepecha (`pua`)

`validated_sentences.tsv`

`unvalidated_sentences.tsv`