Task: ASR
Release Date: 3/22/2026
Format: MP3
Size: 204.07 MB
Share
A collection of read speech recordings in Copainalá Zoque (zoc).
Restrictions/Special Constraints
None provided.
Forbidden Usage
It is forbidden to attempt to determine the identity of speakers in the Common Voice datasets. It is forbidden to re-host or re-share this dataset.
Intended Use
This dataset is intended to be used for training and evaluating automatic speech recognition (ASR) models. It may also be used for applications relating to computer-aided language learning (CALL) and language or heritage revitalisation.
zoc)Esta ficha técnica corresponde a cv-corpus-25.0-2026-03-09 del conjunto de datos de voz guiada de Mozilla Common Voice para zoc [Copainalá Zoque - zoc]. El conjunto de datos contiene 8948 clips representando 10.14 horas de grabaciones (10.07 horas validadas) de 12 hablantes, grabados a partir de un corpus de texto de 1488 oraciones.
El zoque de Ocotepec, Chiapas, pertenece a la familia lingüística mixezoqueana que comprende dos ramas, la mixeana y la zoqueana. Según la clasificación propuesta por Wichmann (1995), Kaufman y Justeson (2004), y Zavala (2011), la rama zoqueana se divide en dos subgrupos: el zoqueano del Golfo y el zoqueano propiamente. Dentro de este último grupo se encuentran el zoque oaxaqueño que comprende dos lenguas zoqueanas habladas en los municipios de Santa María Chimalapa y San Miguel Chimalapa; el zoque chiapaneco (el cual cuenta con cuatro principales variedades dialectales) y el jitotolteco. El zoque de Ocotepec pertenece al zoque del noreste, que es una de las cuatro áreas dialectales del zoque hablado en Chiapas y Tabasco (Wonderly 1949). Dentro de la cadena dialectal del zoque del noroeste, además del zoque de Ocotepec, se encuentran las variantes de los pueblos de Tapalapa, Pantepec, Rayón, Tapilula, Chapultenango, Amatán (todos estos en Chiapas); y Tapijulapa y Oxolotán (en Tabasco). En la región central (ZC) se localizan las variantes de Tecpatán, Copainalá y Coapilla. Al sur se localiza la variante sureña (ZS) que se habló todavía a mediados del siglo pasado en Tuxtla Gutiérrez, Berriozábal, San Fernando y Ocozocoautla. La cuarta variante del zoque se conoce como variante norteña (ZN) y se habla en los pueblos de Francisco León y Ostuacán. Además de esas cuatro áreas dialectales, en Chiapas se habla otra lengua zoqueana recientemente identificada con el nombre de jitotolteco, apelativo asignado por hablarse en el municipio de Jitotol, Chiapas (Zavala 2011), esta variante se separó del zoque del noreste, hipótesis que se sustenta por los rasgos compartidos con esa cadena de variantes y que las otras cadenas no comparten. La lengua zoque de Ocotepec, se le conoce como ʹodetsame, que literalmente significa ‘la lengua hablada’. Los hablantes se autodenominan como ʹodepändam que significa ‘personas de la palabra’ o ‘personas que hablan la lengua zoque’. El término utilizado hoy en día para denominar al grupo lingüístico zoque (zoke) proviene del saludo apelativo para interpelar al interlocutor que aún se escucha en algunas comunidades. En Oxolotán y en Tapijulapa se usa la forma zoke-ta para saludar al padre o soke-na para saludar a la madre, mientras que en Ocotepec y Tapilula se usa la forma corta sok-tatay o sok-nanay. Actualmente, este saludo entre los zoques de Ocotepec, ya no se da entre la población en general, únicamente se puede escuchar entre las personas mayores de 80 años. Actualmente la lengua la aprenden los niños de las colonias de Ocotepec, pero a los niños de la cabecera municipal ya no se les enseñan la lengua en los hogares, aunque aún se puede aprender con los amigos o en la calle. Según los datos del censo general de población (INEGI 2020), el municipio de Ocotepec, Chiapas, arrojó un total de 14, 088 pobladores; 7,209 mujeres (51.2 %) y 6,879 hombres (48.8 %). Los habitantes de Ocotepec representaban el 0.25% de la población total de Chiapas en 2020.
Únicamente se trabajó con la variante del zoque de Ocotepec.
El conjunto de datos incluye las siguientes distribuciones autodeclaradas de edad y género. Debajo de cada tabla se muestra un resumen de cobertura.
Información de género autodeclarada. La tabla muestra conteos de clips y hablantes con porcentajes. Los hablantes que no declararon género aparecen como No especificado. Un guion (-) indica cero.
| Code | Gender | Clips | Speakers |
|---|---|---|---|
| male_masculine | Male, masculine | - | - |
| female_feminine | Female, feminine | 3972 (44.4%) | 6 (50.0%) |
| transgender | Transgender | - | - |
| non-binary | Non-binary | - | - |
| do_not_wish_to_say | Prefer not to say | - | - |
| - | Unspecified | 4976 (55.6%) | 7 (58.3%) |
Gender declared: 3972 of 8948 clips (44.4%), 5 of 12 speakers (41.7%)
Información de edad autodeclarada. La tabla muestra conteos de clips y hablantes con porcentajes. Los hablantes que no declararon edad aparecen como No especificado. Un guion (-) indica cero.
| Code | Age | Clips | Speakers |
|---|---|---|---|
| teens | Teens | - | - |
| twenties | Twenties | 3413 (38.1%) | 4 (33.3%) |
| thirties | Thirties | 1981 (22.1%) | 3 (25.0%) |
| fourties | Fourties | 2751 (30.7%) | 2 (16.7%) |
| fifties | Fifties | - | - |
| sixties | Sixties | - | - |
| seventies | Seventies | - | - |
| eighties | Eighties | - | - |
| nineties | Nineties | - | - |
| - | Unspecified | 803 (9.0%) | 5 (41.7%) |
Age declared: 8145 of 8948 clips (91.0%), 7 of 12 speakers (58.3%)
Clip buckets
| Bucket | Clips |
|---|---|
| Validated | 8886 (99.3%) |
| Invalidated | 2 (0.0%) |
| Other | 60 (0.7%) |
Training splits
| Split | Clips |
|---|---|
| Train | 524 (5.9%) |
| Dev | 483 (5.4%) |
| Test | 474 (5.3%) |
Training split coverage: 1481 of 8886 validated clips (16.7%)
El conjunto de datos contiene 8886 clips validados, 2 invalidados y 60 sin resolver. La duración promedio de los clips es de 4.083 segundos.
Para realizar el trabajo de habla espontanea, se usaron textos ya publicados, dos tesis, una de maestría y una de doctorado, cinco cuentos en manuscrito y un poema. Se validaron aproximadamente 11,000 frases. La mayor parte de las frases validadas provienen de las dos tesis.
Validated sentences: 1481
| Category | Count |
|---|---|
| Unvalidated sentences | 7 |
| Pending sentences | 7 |
| Rejected sentences | - |
| Reported sentences | - |
El corpus contiene 1488 oraciones: 1481 validadas y 7 no validadas (7 pendientes de revisión, 0 rechazadas), con 0 reportadas para revisión.
Se utilizó el sistema arábico, consonantes y vocales que normalmente usa el español
p/b t/d k/g ts/ds ' m n ŋ w y l a e i o u ä ã ẽ ĩ õ ũ ä̃
A continuación se muestran cinco oraciones seleccionadas aleatoriamente del corpus.
Teʼ kaʼubä pobopobo tujku.
Teʼyi miduʼuŋ teʼ mäjatendsuŋ.
Teʼ yoyase tysäjkpabäʼis wyit, musobyabädeʼe.
Teʼyi miduʼuŋ teʼ nimeke kijpabä ʼune.
Jiʼkseʼkpä jamaʼomo ʼoyuʼtsi yumitäjkmä.
De la Cruz Morales Román. Tesis de maestría, 2016, Lingüística, CIESAS. De la Cruz Morales Román. Tesis de doctorado, 2023, Lingüística, CIESAS. De la Cruz Morales Román. Manuscrito no publicado, 2024. De la Cruz Morales Román. Poesía no publicada, 2024.
| Source | Sentences |
|---|---|
| Román de la Cruz Morales | 1481 (100.0%) |
General, Historia, Leyes y Gobierno, Naturaleza y Medio Ambiente
Se seleccionaron los materiales adecuados en donde se extrajeron los textos. Se seleccionaron que comprendían y podían ser emitidos por los propios hablantes. Fueron 1503 frases seleccionadas. Todos los textos se pegaron en Excel.
No conozco de alguna aplicación para recomendar.
Cada fila de un archivo tsv representa un solo clip de audio, y contiene la siguiente información:
client_id - UUID hasheado de cierto usuario
path - ruta relativa al archivo de audio
text - presunta transcripción del audio
up_votes - número de personas que dijeron que el audio concordaba con el texto
down_votes - número de personas que dijeron que el audio no concordaba con el texto
age - edad de los hablantes1
gender - genero de los hablantes1
accents - acentos de los hablantes1
variant - variante del idioma1
segment - si la oración pertenece a una porción personalizada de un dataset, será listada aquí
prompt_upvotes - número de votos positivos que recibió la oración
prompt_reports - número de reportes que recibió la oración
is_edited - si la transcripción del clip ha sido editada
validated_sentences.tsvEl archivo validated_sentences.tsv contiene una fila por cada oración validada en el corpus de texto:
sentence_id - identificador único de la oración
sentence - el texto de la oración
variant - la variante del idioma
sentence_domain - el/los dominio(s) a los que pertenece la oración
source - la fuente de donde se recopiló la oración
is_used - si la oración sigue en circulación para grabación
clips_count - número de clips grabados para esta oración
unvalidated_sentences.tsvEl archivo unvalidated_sentences.tsv contiene una fila por cada oración no validada en el corpus de texto:
sentence_id - identificador único de la oración
sentence - el texto de la oración
variant - la variante del idioma
sentence_domain - el/los dominio(s) a los que pertenece la oración
source - la fuente de donde se recopiló la oración
up_votes - número de votos positivos que recibió la oración
down_votes - número de votos negativos que recibió la oración
status - estado actual de la oración (pending o rejected)
Se realizó una plática acerca del proyecto con las personas que les interesa la conservación de la lengua. Muchas personas les gustó la idea, pero solo pacas personas participaron.
No se llevó a cabo informes por línea con los participantes.
No se aplicó.
Román de la Cruz Morales
No aplica
Este proyecto recibió financiamiento del Open Multilingual Speech Fund gestionado por Mozilla Common Voice.
Este conjunto de datos se publica bajo la licencia Creative Commons Zero (CC-0). Al descargar estos datos usted acepta no determinar la identidad de los hablantes en el conjunto de datos.
Para una lista completa de opciones de edades, generos, y acéntos, ver la especificación demográfica. Esta será reportada únicamente si el hablante aceptó proporcionar dicha información. ↩ ↩2 ↩3 ↩4