Task: NLP
Release Date: 5/16/2026
Format: TXT
Size: 18.93 MB
Share
This dataset consists of a collection of Gujarati news articles and blog posts gathered from various online sources. It covers a wide range of topics, including current affairs, politics, lifestyle, culture, and general interest content, providing diverse linguistic patterns and writing styles. The dataset has been compiled to support research and development in natural language processing (NLP) for low-resource languages, particularly Gujarati. It can be used for tasks such as text classification, sentiment analysis, summarization, and language modeling. The data may include variations in tone, formality, and structure, reflecting both journalistic and informal writing. Basic preprocessing may have been applied, such as text cleaning and normalization, though users are encouraged to perform task-specific preprocessing as needed.
Licensing
Creative Commons Attribution Non Commercial 4.0 International (CC-BY-NC-4.0)
https://spdx.org/licenses/CC-BY-NC-4.0.htmlRestrictions/Special Constraints
This dataset is intended for research and educational purposes only. Users must ensure compliance with applicable laws and respect the rights of original content creators. Redistribution or commercial use may be subject to additional permissions.
Forbidden Usage
Users must not attempt to identify individuals or original authors from the dataset. The dataset must not be used to generate harmful, misleading, or unlawful content, including misinformation or abusive material. Any use that violates privacy, copyright, or applicable laws is strictly prohibited.
Intended Use
This dataset is intended for use in natural language processing tasks such as text classification, sentiment analysis, and language modeling for Gujarati.
Gujarati (เชเซเชเชฐเชพเชคเซ) is an Indo-Aryan language of the Indo-European language family, belonging to the Indo-Aryan branch. It is the official language of the Indian state of Gujarat and is widely spoken in Dadra and Nagar Haveli, Daman and Diu, and among large diaspora communities in the United Kingdom, United States, East Africa, and Canada. According to Glottolog, it belongs to the Western Indo-Aryan group alongside Rajasthani and Sindhi. Gujarati holds a rich literary tradition spanning several centuries, with notable contributions in poetry, prose, and philosophical writing. Most speakers are bilingual in Hindi or English depending on their region and level of education.
Gujarati Script
เช , เช, เช, เช, เช, เช, เช, เช, เช, เช, เช, เช เช, เช เช, เช, เช, เช, เช, เช, เช, เช, เช, เช, เช, เช, เช , เชก, เชข, เชฃ, เชค, เชฅ, เชฆ, เชง, เชจ, เชช, เชซ, เชฌ, เชญ, เชฎ, เชฏ, เชฐ, เชฒ, เชต, เชถ, เชท, เชธ, เชน, เชณ, เชเซเชท, เชเซเช, เช, เช, เช
Literature Article Blog: Long-form literary articles and reflective writing rooted in Gujarati cultural and artistic traditions.
Travel & Article Blog: Personal travel narratives combined with informational articles covering destinations, experiences, and observations.
Travel & Literature Blog: A blend of travel writing and literary commentary, capturing journeys through both geography and culture.
Literary and Reflective Article Blog: Thoughtful, introspective writing exploring themes of life, identity, and the human condition through a literary lens.
Literature and Personal Blog: Personal narratives interwoven with literary references, memoirs, and everyday reflections.
Reflective Literature & Article Blog: Articles combining philosophical reflection with literary analysis and general commentary.
Article and Literature Blog: General-purpose articles enriched with literary insight and cultural depth.
Inspirational Article Blog: Motivational and uplifting writing drawing from personal experience, philosophy, and Gujarati values.
Literature and Culture Magazine: Curated magazine-style content covering Gujarati literature, arts, heritage, and cultural commentary.
The dataset is organized by author and source, each containing domain-specific sub-collections:
Gujarati News & Blogs Corpus/
โ
โโโ Bakul Shah/
โ โโโ Literature Article Blog/
โ
โโโ Capt Narendra/
โ โโโ Article/
โ โโโ Travel & Article Blog/
โ โโโ Travel & Literature Blog/
โ
โโโ Saryu Parikh/
โ โโโ Literary and Reflective Article Blog/
โ โโโ Literature and Personal Blog/
โ
โโโ Suresh Jani/
โ โโโ Reflective Literature & Article Blog/
โ
โโโ Vikas Nayak/
โ โโโ Article and Literature Blog/
โ โโโ Inspirational Article Blog/
โ
โโโ Webgujari/
โโโ Literature and Culture Magazine/
Bakul Shah โ Literature Article Blog
Capt Narendra โ Article, Travel & Article Blog, Travel & Literature Blog
Saryu Parikh โ Literary and Reflective Article Blog, Literature and Personal Blog
Suresh Jani โ Reflective Literature & Article Blog
Vikas Nayak โ Article and Literature Blog, Inspirational Article Blog
Webgujari (Website) โ Literature and Culture Magazine
| Field | Details |
|---|---|
| Dataset Name | Gujarati News & Blogs Corpus |
| Language | Gujarati (เชเซเชเชฐเชพเชคเซ) |
| Language Family | Indo-European โ Indo-Aryan Branch |
| Script | Gujarati Script (Unicode) |
| Number of Authors | 5 Authors + 1 Website Source |
| Number of Domains | 9 |
| File Format | Plain Text (.txt) |
| Annotation | Unannotated โ raw natural text |
Format: Plain Text (.txt)
Naming Convention: [##]-Gujarati [Domain] Collection.txt
"เชเชจเซเชนเซเช เชจเชพ เชญเซเชฒเชพเชจเชพ..." โ เชธเซเชฎเซเชคเซเชจเซ เชเซเชชเชฎเชพเช เชฐเชนเซเชคเชพ เชฎเซเชคเซ เชชเชฐเชฎเชพเชคเซเชฎเชพเชจเซเช เช เชฆเซเชญเซเชค เชธเชฐเซเชเชจ เชเซ. เชฎเชจเชจเชพ เชเชฏเชพ เชชเชกเชฎเชพเช เชคเซ เชเซเชตเซ เชฐเซเชคเซ เชฐเชนเซ เชเซ เชคเซเชจเซ เช เชเชฆเชพเช เชเซเชฃ เชเชชเซ เชถเชเซ!
เชเช เชฆเชฟเชตเชธ เชเชตเซ เช เชฐเซเชคเซ เชเช เชถเชฌเซเชฆเชฒเชนเชฐเซ cyber-เชเชเชคเชฎเชพเชเชฅเซ เชเชตเซ. เชชเซเชฐเซเชทเช เชนเชคเชพ เชเชชเชฃเชพ เชชเชคเซเชฐเชเชพเชฐ เชธเซเชจเซเชนเซ เชคเซเชทเชพเชฐเชญเชพเช เชญเชเซเช.
เชชเชนเซเชฒเซ เชตเชพเชฐ เช เชเซเชค เชธเชพเชเชญเชณเซเชฏเซเช เชคเซเชฏเชพเชฐเซ เชนเซเช เชเชพเชฐ เชเซ เชชเชพเชเช เชตเชฐเซเชทเชจเซ เชนเชคเซ. เชชเชเชเชเชฆเชพ'เชจเชพ เช เชตเชพเชเชฎเชพเช เชถเซ เชฎเซเชนเชฟเชจเซ เชนเชคเซ.
"เชเชฏเซ เชฌเชนเชพเชฐ! เชเชฏเซ เชฌเชนเชพเชฐ เชเช/เชเซเชฒเชถเชจเชฎเซเช, เชฒเชฟเชฏเซ เชซเซเชฒเซเช เชเซ เชนเชพเชฐ....!"
"เชฏเซ เชฐเชพเชคเซเช, เชฏเซ เชฎเซเชธเชฎ, เชฏเซ เชนเชเชธเชจเชพ, เชนเชเชธเชพเชจเชพ/เชฎเซเชเซ เชญเซเชฒ เชเชพเชจเชพ, เชเชจเซเชนเซเช เชจเชพ เชญเซเชฒเชพเชจเชพ..."