Common Voice Spontaneous Speech 4.0 - Papantla Totonac

top — Papantla Totonac (`top`)

Esta ficha técnica corresponde a sps-corpus-4.0-2026-06-12 del conjunto de datos Spontaneous Speech (habla espontánea) de Mozilla Common Voice para top [Papantla Totonac - top]. El conjunto de datos contiene 417 representando 10.5 horas de grabaciones (10.36 horas validadas) de 10 hablantes.

Partición de datos para modelado

Los clips del conjunto de datos se clasifican según el estado de transcripción y la asignación al conjunto de entrenamiento. Las siguientes tablas resumen la distribución.

Clips de audio

Categoría	Clips	%
Transcrito y validado	413	99.0%
Transcrito pendiente	0	0.0%
Sin transcribir	4	1.0%

Particiones de entrenamiento

Categoría	Clips	%
Train	264	63.3%
Dev	67	16.1%
Test	82	19.7%
Sin asignar	4	1.0%

Cobertura de particiones de entrenamiento: 413 de 413 clips transcritos y validados (100.0%)

Transcripciones

Estado de transcripción

Categoría	Clips	%
Validadas	413	100.0%
Pendientes	0	0.0%
Edited	159	38.5%

Ejemplos

Preguntas

A continuación se muestra una selección aleatoria de las preguntas usadas en el corpus.

Kalichiwinanti akgtun takatsin xla litilankga pulataman ne kgaxpatti nakpukgalhtawakga
Tuku lay akxni ti jiku'an?
Tukuya tawa wix nilakgatiya, wana?
Nikula tlan tamakgtayanan makgalhtawakgenani chu xanatikun nak takgalhtawakga laktsukaman?
Kalichiwinanti nikula lakgkaxtlawakan xawati pustapu.

Respuestas

A continuación se muestra una selección aleatoria de respuestas transcritas del corpus.

Akit chi nak e kilhtamakú kakxilhli tanlhuwa kistankanín la ama tsisa kakxilhli paxni kalh kamawi nachu Jkamakgotilh nakalh kakxila xtilan ne ta'tanuma anu nak puxtilan nachu tsisa kakxilhli chíchí xlakan natasinksa xak jkamawima mistun tsitsekga mistun kakxilhli lan latanuma lakgati way ama tawa nachu wa tsiya, nachu tsisa jka'kgaxkgaxmatma talawakana talhman spitu,nachu takgamanamana x'akgan kiwin ama staya tantuy staya talatataxtumana taputsamana xtawa talakgati tawa xakgan kiwi la ama jaka chuma talawakana tatsinksmana chi.
Akxni jkgalhi kiltamaku kaman kawaniyan es que nitu mas kan tlawa pala lan kilhtamaku kanchakganan kama kilhtipalhnan y chi pala kakxila ni tlan kilhtamaku mima sen pus kamatawila punchu kama kamawi ki xtilan kin chawila kama pasa kin kuxi aktsu o kama este lakgaxtokgonan chuma watiya pala kamatlawa chi aktsu kin tawa kamaj tlawa kama talin kistapu kama tsili kistapu kama tlawa kin tawa tu kama wa kama skiti o nitu kin kiwi kama lajka patsu kin kiwi pala ni mima snun sen chu nama latawilakan. Watiya.
Xliaktsu lata klakakatsiw lata ktsikixtunitaw nama chu kiliminitkan jkatsiniw kin tachiwinkan nachu tamapalhatnilh nama kintachiwinkan kinapapan,kintsiyuna,kinapa, xlakan wakg chu xtakgalhchiwinan wali ni tuwa jkatsiniw akin kintachiwinkan nachu kinatikun xtakgalhchiwinan chali chali tantaku chu akxni ananakpukgalhtawakga chu kgalhchiwinana,wali makgalhtawakgenanin nixmakgachakgxi lata akin xak kgalhchiwinana kpaxkit katsiniya lata kinkamakgastajkan wali chi nak ja´e kakilhtamaku mapalhatnimanaw kin tachiwinkan chu najkatsiya tsokgnanaw snun lipaxaw akin totonacos.
Ju'u nak kinpulataman makgasa lhuwa ixchakanankán nak puxkat xwilchuchut akxni saetsatsamá puxkat xtlawá staka chu chama kapit lakayawanana kalipiminpukgilhtay chu min tlhax y chu cha makgatsu tinkgatsolhix chipaya takgtsu tipakgatsi takgtsu stimputkgoxo nama chi este tatsumakgasakat makkga kiwi kgalchoj ilaklanxtawaka laktsukamakanin y lipaxu xwan lipaxu porque katsi pat wayana patsili wayana nak min chik chu nawa ixchakantu nak chuchu lakgatsakgata paxowana akxilh makilnixpinpa lhuwa tu wix kipus nak puxkat chu maschakanankán makgasa lipaxu xwanit.
Nak kinpulataman lan lakgskakgan kiwin, akxni lakgskakgan pula putsakan tuku namaklakaskinkan la ama,ama lichukun ne ama,ama lanka xakgxakga wanikan acha xmakglhtsan kgalhi ama kiwi, chalanka kiwi lichukukan ama lanka xa'aklanka lichukun nekgetsuntin kiwin lichukukan aktsu lichukun chu chima talajka kiwi lakatsuntin, ak katsuntin tamamakxtumi chi uyu tapuxtokga tamanu nak chiki xlakata ninalajkawa nina akxni manin sen ninalajkawa.

Campos

Cada fila de un archivo tsv representa un solo clip de audio, y contiene la siguiente información:

client_id - UUID hasheado de cierto usuario
audio_id - id numérico para archivo de audio
audio_file - nombre del archivo de audio
duration_ms - duración del audio en milisegundos
prompt_id - id numérico para el prompt
prompt - pregunta para el usuario
transcription - transcripción de la respuesta al audio
votes - número de personas quiene aprobaron cierta transcripción
age - edad de los hablantes1
gender - género de los hablantes1
language - nombre de la lengua
split - para el modelado de datos, indica a qué subconjunto de datos pertenece este clip
char_per_sec - cuántos caracteres de transcripción por segundo de audio.
quality_tags - una evaluación automatizada del par transcripción-audio, separadas por |
- transcription-length - caracteres por segundo inferior a 3 caracteres por segundo
- speech-rate - tasa de caracteres por segundo superior a 30 caracteres por segundo
- short-audio - duración del audio inferior a 2 segundos
- long-audio - duración del audio superior a 5 minutos
- non-allowed-script - la transcripción contiene caracteres de un sistema de escritura no asociado al idioma
- mixed-script-words - una sola palabra contiene caracteres de múltiples sistemas de escritura
- mixed-script-transcription - la transcripción abarca múltiples sistemas de escritura, pero cada palabra usa uno solo de forma consistente

Involúcrate

Enlaces comunitarios

Discusiones

Contribuir

Agradecimientos

Financiamiento

Este proyecto recibió financiamiento del Open Multilingual Speech Fund gestionado por Mozilla Common Voice.

Licencia

Este conjunto de datos se publica bajo la licencia Creative Commons Zero (CC-0). Al descargar estos datos usted acepta no determinar la identidad de los hablantes en el conjunto de datos.

Footnotes

Para una lista completa de opciones de edades, generos, y acéntos, ver la especificación demográfica. Esta será reportada únicamente si el hablante aceptó proporcionar dicha información. ↩ ↩2

Common Voice Spontaneous Speech 4.0 - Papantla Totonac

Description

Specifics

Considerations

Processes

Metadata

top — Papantla Totonac (`top`)

Partición de datos para modelado

Clips de audio

Particiones de entrenamiento

Transcripciones

Estado de transcripción

Ejemplos

Preguntas

Respuestas

Campos

Involúcrate

Enlaces comunitarios

Discusiones

Contribuir

Agradecimientos

Financiamiento

Licencia

Footnotes

Common Voice Spontaneous Speech 4.0 - Papantla Totonac

Description

Specifics

Considerations

Processes

Metadata

top — Papantla Totonac (top)

Partición de datos para modelado

Clips de audio

Particiones de entrenamiento

Transcripciones

Estado de transcripción

Ejemplos

Preguntas

Respuestas

Campos

Involúcrate

Enlaces comunitarios

Discusiones

Contribuir

Agradecimientos

Financiamiento

Licencia

Footnotes

top — Papantla Totonac (`top`)