Task: ASR
Release Date: 6/17/2026
Format: MP3
Size: 223.81 MB
Share
A collection of spontaneous responses to questions in Pashto (پښتو).
Restrictions/Special Constraints
None provided.
Forbidden Usage
It is forbidden to attempt to determine the identity of speakers in the Common Voice datasets. It is forbidden to re-host or re-share this dataset.
Intended Use
This dataset is intended to be used for training and evaluating automatic speech recognition (ASR) models. It may also be used for applications relating to computer-aided language learning (CALL) and language or heritage revitalisation.
ps)This datasheet is for sps-corpus-4.0-2026-06-12 of the Mozilla Common Voice Spontaneous Speech dataset for Pashto [پښتو - ps]. The dataset contains 965 clips representing 11.49 hours of recorded speech (0.77 hours validated) from 73 speakers.
The dataset clips are categorised by transcription status and training-set assignment. The following tables summarise the distribution.
| Bucket | Clips | % |
|---|---|---|
| Transcribed & Validated | 102 | 10.6% |
| Transcribed & Pending | 443 | 45.9% |
| Not transcribed | 420 | 43.5% |
| Bucket | Clips | % |
|---|---|---|
| Train | 0 | 0.0% |
| Dev | 0 | 0.0% |
| Test | 0 | 0.0% |
| Unassigned | 965 | 100.0% |
Training split coverage: 0 of 102 transcribed & validated clips (0.0%)
| Bucket | Clips | % |
|---|---|---|
| Validated | 102 | 18.7% |
| Pending | 443 | 81.3% |
| Edited | 37 | 6.8% |
There follows a randomly selected sample of questions used in the corpus.
پخوا به خلکو په ودونو کې ډزې کولې، ستاسو په نظر د خوښۍ څرګندولو لپاره نورې کومې غوره لارې شته؟
آیا تاسو د پښتو ژبې ارزښت په اړه خپل کوچینیانو سره خبري کړي؟
ستاسو په نظر، ولې ځینې خلک له حیواناتو ساتلو سره مینه لري او دا د انسان په خوی څه اغیز کوي؟
که ونو خبرې کولای شوای، د بادام ونې به څه ویل؟ او د پیستو ونه به څنګه غږیدله؟
د "جرګې" سیستم څنګه کار کوي او ولې خلک په محکمو کې د دعوې پر ځای جرګو ته ترجیح ورکوي؟
There follows a randomly selected sample of transcribed responses from the corpus.
د دین او ساینس په باب د هند د وچې نامتو مفکر، مولانا وحیدالدین خان، څيړنې کړي دي. دی اسلام د نوي عصر ځوابګر بولي، او وايي چې موژ په دین کې، یا په قران کې، ساینس لټولای سو. قران کریم د ځينو ساینسي پېشو اټکل هم کيي. دغه راز که وګورو، د اوو اسمانو ویشتون، چې بیا وروسته د ناسا ادارې هم دغه خبره تر ډېره حده منلې، د کایناتو د جوړشت په باب د قران کریم او اسلام لارشوونې، دا هغه څه دي چې د اوسني ساینس له لپاره موهيمې خبرې بلل کېژي. اسلام د ساینس دسره په ټکر کې نه دی، خو ساینس هغه علم دی چې په تجربه باندې ولاړ وي. او په قران کریم کې په خلص ډول ټول هغه موضوعاتو ته، چې ساینس پکې راځي، طب پکې راځي، او هم ځینې نور علوم پکې راځي، هغو ته کتنه نه ده سوې؛ یوازې په لنډ ډول باندې ځينو پيشو یا ځينو نقاطو ته اشاره شوې ده. [disfluency] که موژ ووايو چې قران کریم د اخلاقو يو غوره کتاب دی، مبالغه به مو نه وي کړی. همدغه راز قران کریم کې د ساینسي پیشو په باب باندې هم يادونې سوي دي، او داسې ویل کېژي چې د قران کريم څخه اروپا یانو د طبابت په برخه کې، دغه راز د کيمياوي موادو د جوړولو په برخه کې، استفاده کړې ده. او کله چې د حضرت موسی علیه سلام او فرعون تر منځ پیشه واقع کېژي، او فرعون په رود نیل کې غرق کې، د یو تاريخي روایت پر اساس باندې غرق کېژي. شاید رود نیل به و، کله چې دی الته غرق سي، ورسته د ده جسد ځمکې ته راځي، او پيړۍ پيړۍ وروسته د له مرګ څخه په مصر کې په یوه موزیم کې د ده جسد باندې څيړنې کېږي. نو لرغونپوهانو ته دا جوتېژي، دا ورته معلومېژي چې فرعون تقریبا دوه نیم زره کاله، یا غالبا درې زره کاله پخوا په اوبو کې غرق سوی دی، ځکه د ده بدن مالګین شکل لري، ام مالګین خوند لري. او دی بیا وايي چې دغې پیشې ته قران کریم څوارلس پیړۍ وړاندې اشاره کړې ده. دا په دې مانا چې يوویشتمه پيړۍ کې نننۍ موندنې، څوارلس سوه، څوارلس پيړۍ پخوا هم دغو موندنو ته اشاره سوې وه، او په اثبات رسیدلې وه.
که چېرې زه ولسمشر شم، نو هغه لومړی او مهم کار به چې زه یې کوم، د اړتیا او ضرورت پر اساس وي. تر هر څه دمخه به له ځان سره فکر وکړم چې کوم کار مهم دی؛ هغه کار چې په هغه وخت کې ورته اړتیا او ضرورت وي او کول یې ضرور وي، هغه به وکړم. اوس چې لا ولسمشر شوی نه یم، دا نشم ویلای چې زه باید کوم کار لومړی وکړم.
د ژبپوهانو په نظر، د پښتو ژبې د بقا او بډاینې يوازينۍ لاره دا ده چې په انټرنېټي پاڼو او ډېجیټلي کتابتونونو کې د دې ژبې په زرګونو کتابونه او علمي مقالې په معياري بڼه خپرې شي.
دې کې شک نشته دی چې ټکنالوژۍ انسانان لټان کړي دي، او دوی د دې پر ځای چې له خپل فکر څخه کار واخلي او خپل ذهن ته تمرین ورکړي، نو دوی ډېر کارونه په کمپیوټر او موبایل سره ترسره کوي، مثلاً
مسلمانان چې ده، په کال کې دوه اخترونه لري، چې یو ته یې کوچنی اختر یا وړوکی اختر وايي، او بل ته یې لوی اختر یا د قربانۍ اختر وايي. او په دې اختر کې خلک له وخته نه تیاری نیسي. د اختر لپاره نارینه د اختر په ورځ باندې په سهار کې حمام کوي، نوې جامې اغوندي، او ځینې خلک چې نوې جامې نه وي کړي، هماغه د کور جامې کومې چې ورته ښې او مناسبې ښکاري، نوې اوسي، هغه اوتو کوي او هغه اغوندي. نارینه د اختر لمونځ د ادا کولو لپاره مسجد ته ځي، په ګډه سره یوځای د اختر لمونځ ادا کوي. د اختر لمونځ د ادا کولو څخه وروسته یو بل ته د اختر مبارکي ورکوي، غاړه ورکوي، خپله خوښي لمانځي، اختر لمانځي. بیا یو بل کره ځي، دوستانو کره ځي، د اختر مبارکي ورکوي. که چا نه څوک خپه اوسي، یو په همدغه اختر کې سره پخلا کېږي، او دا یو ښه موقع ده د پخلا کېدو لپاره. او دا [unclear] کره چې څوک د اختر مبارکي دپاره یو بل کره ځي، نو هغوی ورته د اختر مېوه ږدي، وچه مېوه وي، تازه وي. افغانستان په مختلفو سیمو کې د اخترونه بیا په ډول ډول لمانځي، لمانځل کېږي. هره سیمه کې چې څنګه رواج واوسي، هماغسې اختر لمانځي. او ماشومان چې ده، ښځینه طبقه، هغوی بیا د اختر په شپه باندې نکریزې ږدي، بنګړي اچوي، سینګار کوي، نوې جامې اغوندي. او د [disfluency] ماشومانو چې ده، هغوی لپاره ځي بازار ته، دوکان نه سودا کوي، او ځي میلو ته، لوبې کوي، په ټالونو کې زانګي. او زموږ په سیمو کې چې موږ ماشومان وو، هغه وخت کې به په ټالونو کې به موږ زانګل، کودیان به مو اخیستل، او [disfluency] یو څه وو چې له لرګي څخه به جوړېدل، هغه وخت کې به مو چرخه فلک ورته ویل. ستنه به درېدل، هغې په سر به یې سر په سر تېرول، سر په سر به نه، یو د بل دپاسه به یې تېرول. داسې شکل یې لاره لکه د جمع شکل، داسې شکل به یې لارلو، او د هغې په منځ کې به بېر بېرنګ، او دا هم د ټال په شکل به وو. لکه ټال کې چې څنګه لرګی ایښودل کېږي په لاندې برخه کې، بیا داسې پړي، بهترینه ځوړند وو، او په اخره برخه کې به لرګی و. بیا به مو یوه پښه یوه خوا واړوله، بله بل خوا، او هغه نفر به دا تاوول. نو د دې لوبې او د دې ټال په مقابل کې به موږ پیسې ورکاوه هغه نفر ته، او دغه چرخه فلک به موږ ورته ویل. نه پوهېږم په نورو سیمو کې به په کوم نوم یادېږي، خو دغسې یو څه به یو جوړول به هماغه اختر کې، او ماشومان به له دې نه خوند اخیستل او خپل ساعتېري او خپلې لوبې به یې کولې. او ښه شېبه به دا وه زموږ ته چې موږ ته څوک اختری راکړي، چې زموږ کور ته څوک راغی د اختر مبارکي لپاره، یا موږ به چا کره لاړو، نو موږ به هغه د مېوې نه، چې موږ ته مېوه راکوي یا مېوه موږ ته ږدي، د هغې نه به موږ اختری اخیستلو، یا اختری ورکولو ته ډېر خوشاله وو. نو په ماشومتوب کې هم ورته ډېر خوشاله وو، او اوس هم که هم څوک اختری راکوي، په دې ډېر خوشالېږو. دا ښه شېبه وه، دا ښکلې شېبه به وو زموږ لپاره.
Each row of a tsv file represents a single audio clip, and contains the following information:
client_id - hashed UUID of a given user
audio_id - numeric id for audio file
audio_file - audio file name
duration_ms - duration of audio in milliseconds
prompt_id - numeric id for prompt
prompt - question for user
transcription - transcription of the audio response
votes - number of people that who approved a given transcript
age - age of the speaker1
gender - gender of the speaker1
language - language name
split - for data modelling, which subset of the data does this clip pertain to
char_per_sec - how many characters of transcription per second of audio
quality_tags - some automated assessment of the transcription--audio pair, separated by |
transcription-length - character per second under 3 characters per second
speech-rate - characters per second over 30 characters per second
short-audio - audio length under 2 seconds
long-audio - audio length over 5 minutes
non-allowed-script - transcription contains characters from a writing system not associated with the language
mixed-script-words - a single word contains characters from multiple writing systems
mixed-script-transcription - transcription spans multiple writing systems, but each word consistently uses only one
This dataset is released under the Creative Commons Zero (CC-0) licence. By downloading this data you agree to not determine the identity of speakers in the dataset.
For a full list of age, gender, and accent options, see the demographics spec. These will only be reported if the speaker opted in to provide that information. ↩ ↩2