Prothom Alo Bengali Newspaper Corpus
License:
CC-BY-NC-4.0
Steward:
Protham AloTask: NLP
Release Date: 4/13/2026
Format: DOCX
Size: 42.36 MB
Share
Description
The Prothom Alo Bengali Newspaper Corpus is a large-scale text dataset containing over 10 million tokens from the archives of Prothom Alo, one of Bangladesh’s most widely read newspapers. It represents modern Bengali journalistic writing across domains such as national and international news, social issues, culture, and literary content.
Specifics
Licensing
Creative Commons Attribution Non Commercial 4.0 International (CC-BY-NC-4.0)
https://spdx.org/licenses/CC-BY-NC-4.0.htmlConsiderations
Restrictions/Special Constraints
This dataset is intended for research, educational, and non-commercial use only.
Forbidden Usage
This dataset is not for commercial purposes and is only for research and educational purposes.
Processes
Ethical Review
Data was ethically sourced from public journalistic archives for linguistic research purposes.
Intended Use
This dataset is intended for Natural Language Processing (NLP) of the Bengali language.
Metadata
Language
Bengali (বাংলা), also known as Bangla, is a classical Indo-Aryan language primarily spoken in the Bengal region of South Asia. With over 242 million native speakers as of 2025, it ranks as the sixth most spoken native language in the world. It is the official and national language of Bangladesh and an official language in the Indian states of West Bengal, Tripura, and the Barak Valley of Assam. Bengali was officially accorded the status of a classical language in 2024, honoring its millennium-old literary tradition and rich history.
Bengali Alphabets
অ আ ই ঈ উ ঊ ঋ এ ঐ ও ঔ ক খ গ ঘ ঙ চ ছ জ ঝ ঞ ট ঠ ড ঢ ণ ত থ দ ধ ন প ফ ব ভ ম য র ল শ ষ স হ ড় ঢ় য়ৎ ং ঃ ঁ
Domains of the Text
Literature (News reports)
Poetry (Aesthetic / cultural expression)
Folklore & Oral Tradition (Textual form)
Everyday Social Themes (As reflected in texts)
Cultural Knowledge & Heritage
News reports (National & International)
Articles (Aesthetic / cultural expression)
Dataset Structure
The dataset consists of 28 Microsoft Word (.docx) files.
Each file serves as a separate genre/domain container for the corpus.
Total token count: 10+ million.
File-Level Metadata
prothomalo_part_1-385000
prothomalo_part_2-380000
prothomalo_part_3-367000
prothomalo_part_4-375000
prothomalo_part_5-357000
prothomalo_part_6-363000
prothomalo_part_7-353000
prothomalo_part_8-366000
prothomalo_part_9-374000
prothomalo_part_10-370000
prothomalo_part_11-388000
prothomalo_part_12-371000
prothomalo_part_13-370000
prothomalo_part_14-345000
prothomalo_part_15-347000
prothomalo_part_16-372000
prothomalo_part_17-360000
prothomalo_part_18-346000
prothomalo_part_19-381000
prothomalo_part_20-368000
prothomalo_part_21-365000
prothomalo_part_22-355000
prothomalo_part_23-336000
prothomalo_part_24-337000
prothomalo_part_25-340000
prothomalo_part_26-374000
prothomalo_part_27-364000
prothomalo_part_28-364000
Recommended Processing
File Format: The data is provided in Microsoft Word (.docx) format.
Extraction: Users are advised to perform UTF-8 extraction and Unicode normalization to ensure script consistency.
Preprocessing: Recommended steps include white-space cleanup and removal of any remaining formatting artifacts from the Word documents.
Sample Text
মিয়ানমারের উত্তর-পশ্চিমে সেনাবাহিনীর এক অভিযানে অন্তত তিন শিক্ষার্থী নিহত হয়েছেন। আজ শুক্রবার ভোরে এ অভিযান চালানো হয় বলে জানিয়েছে শিক্ষার্থীদের একটি ইউনিয়ন।
ফিল্ম আর্কাইভের ওয়েবসাইটে থাকা তথ্যানুসারে, প্রকল্পের প্রাক্কলিত ব্যয় ৬২ কোটি ৬৭ লাখ ৯০ হাজার টাকা। প্রকল্পের বাস্তবায়নকাল ২০২১ সালের ১ জুলাই থেকে ২০২৪ সালের ৩০ জুন।
বিশ্ব স্বাস্থ্য সংস্থা ৭ আগস্ট জানায়, আফ্রিকার দেশ রুয়ান্ডায় চারজনের এমপক্স শনাক্ত হওয়ার খবর জানায়। তবে দেশটিতে এ রোগে কেউ মারা যাননি।
গ্রাহকদের সাময়িক অসুবিধার জন্য দুঃখ প্রকাশ করেছে তিতাস গ্যাস।
আবেদনের বয়সসীমা: সর্বোচ্চ ৫০ বছরপদসংখ্যা: ০১টিবেতন: আলোচনা সাপেক্ষেঅভিজ্ঞতা: কমপক্ষে ১২ বছর