The Daily Jugantor Bengali Language Corpus
License:
CC-BY-NC-SA-4.0
Steward:
Jamuna Printing and Publishing Ltd.Task: NLP
Release Date: 4/13/2026
Format: DOCX
Size: 40.49 MB
Share
Description
The Daily Jugantor Bengali Language Corpus is a monolingual Bengali text collection containing approximately 10.6 million words sourced from Daily Jugantor, a widely read Bengali news publication. The corpus reflects contemporary written Bengali as used in journalistic reporting and public communication. It covers a wide range of topics such as national affairs, politics, society, economy, culture, and current events, making it valuable for research in Bengali natural language processing, corpus linguistics, text analysis, and digital humanities. The dataset can support language modeling, text classification, information retrieval, and broader computational research on Bengali.
Specifics
Licensing
Creative Commons Attribution Non Commercial Share Alike 4.0 International (CC-BY-NC-SA-4.0)
https://spdx.org/licenses/CC-BY-NC-SA-4.0.htmlConsiderations
Restrictions/Special Constraints
Use of this dataset requires proper attribution, is limited to non-commercial purposes, and any shared adaptations must be released under CC-BY-NC-SA-4.0.
Forbidden Usage
Commercial use of this dataset is forbidden, and any use that removes attribution or redistributes adapted versions under a different license is not permitted.
Metadata
Language
Bengali is an Indo-Aryan language primarily spoken in Bangladesh and India, and written in the Bengali script. It is one of the most widely spoken languages in the world and is used in literature, media, education, administration, and daily communication.
Script
অ আ ই ঈ উ ঊ ঋ এ ঐ ও ঔ ক খ গ ঘ ঙ চ ছ জ ঝ ঞ ট ঠ ড ঢ ণ ত থ দ ধ ন প ফ ব ভ ম য র ল শ ষ স হড় ঢ় য় ৎ ং ঃ ঁ
Domains
National affairs
Politics
Society
Economy
Culture
Public discourse
Current events
Recommended Processing
Normalize text encoding to UTF-8
Standardize Bengali Unicode characters and punctuation
Remove HTML, formatting artifacts, and non-text noise
Clean extra spaces, line breaks, and duplicated content
Segment text into documents, paragraphs, or sentences
Apply Bengali-aware tokenization and normalization
Detect and remove boilerplate or repeated news templates
Preserve source and file-level metadata for analysis
Sample
কুল দ্বিতীয় বিভাগ ফুটবল লীগে জিতেছে কারওয়ানবাজার প্রগতি সংঘ। শনিবার কমলাপুর বীরশ্রেষ্ঠ শহীদ সিপাহী মোস্তফা কামাল স্টেডিয়ামে অনুষ্ঠিত ম্যাচে তারা ২-০ গোলে হারায় পূর্বাচল পরিষদকে। কারওয়ানবাজারের শেখ আশা এবং আজিজ রুবেল গোল করেন। বিজি প্রেস ও সাধারণ বীমা ক্রীড়া চক্রের মধ্যে দিনের অপর ম্যাচ গোলশূন্য ড্র হয়। সোমবার একই মাঠে বাংলাদেশ পুলিশ ও ইস্ট এন্ড ক্লাব এবং লিটল ফ্রেন্ডস ও শান্তিনগর ক্লাব প্রতিদ্বন্দ্বিতা করবে। *