The Daily Jugantor Bengali Language Corpus

Task: NLP

Release Date: 4/13/2026

Format: DOCX

Size: 40.49 MB


Share

Description

The Daily Jugantor Bengali Language Corpus is a monolingual Bengali text collection containing approximately 10.6 million words sourced from Daily Jugantor, a widely read Bengali news publication. The corpus reflects contemporary written Bengali as used in journalistic reporting and public communication. It covers a wide range of topics such as national affairs, politics, society, economy, culture, and current events, making it valuable for research in Bengali natural language processing, corpus linguistics, text analysis, and digital humanities. The dataset can support language modeling, text classification, information retrieval, and broader computational research on Bengali.

Specifics

Licensing

Creative Commons Attribution Non Commercial Share Alike 4.0 International (CC-BY-NC-SA-4.0)

https://spdx.org/licenses/CC-BY-NC-SA-4.0.html

Considerations

Restrictions/Special Constraints

Use of this dataset requires proper attribution, is limited to non-commercial purposes, and any shared adaptations must be released under CC-BY-NC-SA-4.0.

Forbidden Usage

Commercial use of this dataset is forbidden, and any use that removes attribution or redistributes adapted versions under a different license is not permitted.

Metadata

Language

Bengali is an Indo-Aryan language primarily spoken in Bangladesh and India, and written in the Bengali script. It is one of the most widely spoken languages in the world and is used in literature, media, education, administration, and daily communication.

Script

অ আ ই ঈ উ ঊ ঋ এ ঐ ও ঔ ক খ গ ঘ ঙ চ ছ জ ঝ ঞ ট ঠ ড ঢ ণ ত থ দ ধ ন প ফ ব ভ ম য র ল শ ষ স হড় ঢ় য় ৎ ং ঃ ঁ

Domains

  • National affairs

  • Politics

  • Society

  • Economy

  • Culture

  • Public discourse

  • Current events

Recommended Processing

  • Normalize text encoding to UTF-8

  • Standardize Bengali Unicode characters and punctuation

  • Remove HTML, formatting artifacts, and non-text noise

  • Clean extra spaces, line breaks, and duplicated content

  • Segment text into documents, paragraphs, or sentences

  • Apply Bengali-aware tokenization and normalization

  • Detect and remove boilerplate or repeated news templates

  • Preserve source and file-level metadata for analysis

Sample

  • কুল দ্বিতীয় বিভাগ ফুটবল লীগে জিতেছে কারওয়ানবাজার প্রগতি সংঘ। শনিবার কমলাপুর বীরশ্রেষ্ঠ শহীদ সিপাহী মোস্তফা কামাল স্টেডিয়ামে অনুষ্ঠিত ম্যাচে তারা ২-০ গোলে হারায় পূর্বাচল পরিষদকে। কারওয়ানবাজারের শেখ আশা এবং আজিজ রুবেল গোল করেন। বিজি প্রেস ও সাধারণ বীমা ক্রীড়া চক্রের মধ্যে দিনের অপর ম্যাচ গোলশূন্য ড্র হয়। সোমবার একই মাঠে বাংলাদেশ পুলিশ ও ইস্ট এন্ড ক্লাব এবং লিটল ফ্রেন্ডস ও শান্তিনগর ক্লাব প্রতিদ্বন্দ্বিতা করবে। *