Datasets | Mozilla Data Collective

Archivos adjuntos de solicitudes de información pública (PNT) — Sinaloa. 5,107 folios · 2019–2024.

Adjuntos Solicitudes Información — Sinaloa

License: CC0-1.0

Locale: es-MX

Task: NLP

Format: PDF, DOC, DOCX, XLSX, XLS

Size: 8.60 GB

Archivos adjuntos de solicitudes de información pública (PNT) — San Luis Potosí. 3,320 folios · 2018–2024.

Adjuntos Solicitudes Información — San Luis Potosí

License: CC0-1.0

Locale: es-MX

Task: NLP

Format: PDF, DOC, DOCX, XLSX, XLS

Size: 7.05 GB

Archivos adjuntos de solicitudes de información pública (PNT) — Quintana Roo. 3,485 folios · 2018–2024.

Adjuntos Solicitudes Información — Quintana Roo

License: CC0-1.0

Locale: es-MX

Task: NLP

Format: PDF, DOC, DOCX, XLSX, XLS

Size: 3.70 GB

Archivos adjuntos de solicitudes de información pública (PNT) — Querétaro. 2,512 folios · 2018–2024.

Adjuntos Solicitudes Información — Querétaro

License: CC0-1.0

Locale: es-MX

Task: NLP

Format: PDF, DOC, DOCX, XLSX, XLS

Size: 3.12 GB

Archivos adjuntos de solicitudes de información pública (PNT) — Puebla. 17,741 folios · 2017–2024.

Adjuntos Solicitudes Información — Puebla

License: CC0-1.0

Locale: es-MX

Task: NLP

Format: PDF, DOC, DOCX, XLSX, XLS

Size: 25.24 GB

Archivos adjuntos de solicitudes de información pública (PNT) — Oaxaca. 4,376 folios · 2018–2024.

Adjuntos Solicitudes Información — Oaxaca

License: CC0-1.0

Locale: es-MX

Task: NLP

Format: PDF, DOC, DOCX, XLSX, XLS

Size: 8.60 GB

Archivos adjuntos de solicitudes de información pública (PNT) — Estado de México. 4,461 folios · 2022–2024.

Adjuntos Solicitudes Información — Estado de México

License: CC0-1.0

Locale: es-MX

Task: NLP

Format: PDF, DOC, DOCX, XLSX, XLS

Size: 51.64 MB

A British-Isles-accent subset of Mozilla Common Voice Scripted Speech 26.0 (English, validated). MP3 audio + TSV metadata.

Common Voice Scripted Speech 26.0 - British English

License: CC0-1.0

Locale: en-GB

Task: ASR

Format: TSV, MP3

Size: 6.97 GB

A closed-form Scottish-English-accent subset of Mozilla Common Voice Scripted Speech 26.0 (English, validated). MP3 audio + TSV metadata.

Common Voice Scripted Speech 26.0 - Scottish English

License: CC0-1.0

Locale: en

Task: ASR

Format: TSV, MP3

Size: 770.74 MB

A closed-form American-English, male-speaker subset of Mozilla Common Voice Scripted Speech 26.0 (English, validated). MP3 audio + TSV metadata.

Common Voice Scripted Speech 26.0 - American English (Male)

License: CC0-1.0

Locale: en-US

Task: ASR

Format: TSV, MP3

Size: 9.68 GB

MirasAI

Kannada Text Corpus

A curated Kannada text corpus containing diverse written content for natural language processing, linguistic research, and language technology development.

License: CC-BY-NC-SA-4.0

Locale: kan

Task: NLP

Format: TXT

Size: 2.61 MB

A closed-form United-States-English-accent, female-gender subset of Mozilla Common Voice Scripted Speech 26.0 (English, validated). MP3 audio + TSV metadata.

Common Voice Scripted Speech 26.0 - American English (Female)

License: CC0-1.0

Locale: en-US

Task: ASR

Format: TSV, MP3

Size: 4.00 GB

Archivos adjuntos de solicitudes de información pública (PNT) — Aguascalientes. 3,290 folios · 2020–2024.

Adjuntos Solicitudes Información — Aguascalientes

License: CC0-1.0

Locale: es-MX

Task: NLP

Format: PDF, DOC, DOCX, XLSX, XLS

Size: 6.35 GB

Institute of African Digital Humanities

Tupuri-Bango_TTS-Dataset (female voice)

Tupuri-Bango (tui) scripted TTS dataset: 2,034 clips (3h 53m 42s), single female speaker, AGLC orthography. Female-voice complement to the male-voice dataset.

License: NOODL-1.0

Locale: tui

Task: TTS

Format: MP3, TSV

Size: 169.22 MB

Institute of African Digital Humanities

Eton-TTS-Dataset

Eton (eto) single-speaker TTS dataset: 1,802 clips (~4h15m) by one female speaker, AGLC orthography with full tone marking.

License: NOODL-1.0

Locale: eto

Task: TTS

Format: WAV, TSV

Size: 1.04 GB

Institute of African Digital Humanities

Baka-ALCAM-MultimodalDataset

Multimodal dataset for Baka (bkc): lexical datasheet, audio recordings, and audio-sentence mapping files for Baka lexicon and grammar.

License: NOODL-1.0

Locale: bkc

Task: NLP

Format: WAV, TSV

Size: 63.15 MB

Community

TTS Sundanese - Sunda Priangan Timur (SPRINT)

The dataset is developed using the East Priangan dialect of Sundanese, specifically the variety spoken in Garut Regency, West Java, Indonesia.

License: CC-BY-SA-4.0

Locale: sun

Task: TTS

Format: WEBM, TSV

Size: 297.19 MB

Community

Sindhi Corpus

SdCorpus is a large scale monolingual Sindhi text corpus collected from publicly available web sources for NLP and language model development.

License: CC-BY-NC-4.0

Locale: snd

Task: LM

Format: TXT

Size: 321.00 MB

FAIR at Meta

BOUQuET

BOUQuET is a multidomain benchmark for machine translation quality. It contains 1358 sentences (318 paragraphs), fully parallel in 275 language varieties.

License: CC-BY-4.0

Locale: mul

Task: MT

Format: TSV

Size: 50.65 MB

Common Voice scripted speech 26.0 segment of Rioplatense accents.

Common Voice Scripted Speech 26.0 - Rioplatense Spanish

License: CC0-1.0

Locale: es

Task: ASR

Format: MP3, TSV

Size: 426.64 MB

Spanish Mozilla Common Voice Scripted Speech 26.0 dataset segment of validated clips from speakers of Mexican Spanish who self-identify as female.

Common Voice Scripted Speech 26.0 - Mexican Spanish (Female)

License: CC0-1.0

Locale: es-MX

Task: ASR

Format: MP3, TSV

Size: 1.65 GB

A subset of the Spanish Mozilla Common Voice Scripted Speech 26.0 dataset, containing only validated samples from Mexican speakers who self-identify as male.

Common Voice Scripted Speech 26.0 - Mexican Spanish (Male)

License: CC0-1.0

Locale: es-MX

Task: ASR

Format: MP3, TSV

Size: 2.02 GB