License:
CC-BY-NC-SA-4.0
Steward:
Jamuna Printing and Publishing Ltd.Dataset ID:
cmnx6375n031gnn07sm6juaz4
Task: NLP
Release Date: 4/13/2026
Format: DOCX
Size: 40.49 MB
Share
The Daily Jugantor Bengali Language Corpus is a monolingual Bengali text collection containing approximately 10.6 million words sourced from Daily Jugantor, a widely read Bengali news publication. The corpus reflects contemporary written Bengali as used in journalistic reporting and public communication. It covers a wide range of topics such as national affairs, politics, society, economy, culture, and current events, making it valuable for research in Bengali natural language processing, corpus linguistics, text analysis, and digital humanities. The dataset can support language modeling, text classification, information retrieval, and broader computational research on Bengali.
Licensing
Creative Commons Attribution Non Commercial Share Alike 4.0 International (CC-BY-NC-SA-4.0)
https://spdx.org/licenses/CC-BY-NC-SA-4.0.htmlRestrictions/Special Constraints
Use of this dataset requires proper attribution, is limited to non-commercial purposes, and any shared adaptations must be released under CC-BY-NC-SA-4.0.
Forbidden Usage
Commercial use of this dataset is forbidden, and any use that removes attribution or redistributes adapted versions under a different license is not permitted.
Bengali is an Indo-Aryan language primarily spoken in Bangladesh and India, and written in the Bengali script. It is one of the most widely spoken languages in the world and is used in literature, media, education, administration, and daily communication.
অ আ ই ঈ উ ঊ ঋ এ ঐ ও ঔ ক খ গ ঘ ঙ চ ছ জ ঝ ঞ ট ঠ ড ঢ ণ ত থ দ ধ ন প ফ ব ভ ম য র ল শ ষ স হড় ঢ় য় ৎ ং ঃ ঁ
National affairs
Politics
Society
Economy
Culture
Public discourse
Current events
Normalize text encoding to UTF-8
Standardize Bengali Unicode characters and punctuation
Remove HTML, formatting artifacts, and non-text noise
Clean extra spaces, line breaks, and duplicated content
Segment text into documents, paragraphs, or sentences
Apply Bengali-aware tokenization and normalization
Detect and remove boilerplate or repeated news templates
Preserve source and file-level metadata for analysis
কুল দ্বিতীয় বিভাগ ফুটবল লীগে জিতেছে কারওয়ানবাজার প্রগতি সংঘ। শনিবার কমলাপুর বীরশ্রেষ্ঠ শহীদ সিপাহী মোস্তফা কামাল স্টেডিয়ামে অনুষ্ঠিত ম্যাচে তারা ২-০ গোলে হারায় পূর্বাচল পরিষদকে। কারওয়ানবাজারের শেখ আশা এবং আজিজ রুবেল গোল করেন। বিজি প্রেস ও সাধারণ বীমা ক্রীড়া চক্রের মধ্যে দিনের অপর ম্যাচ গোলশূন্য ড্র হয়। সোমবার একই মাঠে বাংলাদেশ পুলিশ ও ইস্ট এন্ড ক্লাব এবং লিটল ফ্রেন্ডস ও শান্তিনগর ক্লাব প্রতিদ্বন্দ্বিতা করবে। *