Prothom Alo Bengali Newspaper Corpus

License icon

License:

CC-BY-NC-4.0

Shield icon

Steward:

Protham Alo

Task: NLP

Release Date: 4/13/2026

Format: DOCX

Size: 42.36 MB


Share

Description

The Prothom Alo Bengali Newspaper Corpus is a large-scale text dataset containing over 10 million tokens from the archives of Prothom Alo, one of Bangladesh’s most widely read newspapers. It represents modern Bengali journalistic writing across domains such as national and international news, social issues, culture, and literary content.

Specifics

Licensing

Creative Commons Attribution Non Commercial 4.0 International (CC-BY-NC-4.0)

https://spdx.org/licenses/CC-BY-NC-4.0.html

Considerations

Restrictions/Special Constraints

This dataset is intended for research, educational, and non-commercial use only.

Forbidden Usage

This dataset is not for commercial purposes and is only for research and educational purposes.

Processes

Ethical Review

Data was ethically sourced from public journalistic archives for linguistic research purposes.

Intended Use

This dataset is intended for Natural Language Processing (NLP) of the Bengali language.

Metadata

Language

Bengali (বাংলা), also known as Bangla, is a classical Indo-Aryan language primarily spoken in the Bengal region of South Asia. With over 242 million native speakers as of 2025, it ranks as the sixth most spoken native language in the world. It is the official and national language of Bangladesh and an official language in the Indian states of West Bengal, Tripura, and the Barak Valley of Assam. Bengali was officially accorded the status of a classical language in 2024, honoring its millennium-old literary tradition and rich history.

Bengali Alphabets

অ আ ই ঈ উ ঊ ঋ এ ঐ ও ঔ ক খ গ ঘ ঙ চ ছ জ ঝ ঞ ট ঠ ড ঢ ণ ত থ দ ধ ন প ফ ব ভ ম য র ল শ ষ স হ ড় ঢ় য়ৎ ং ঃ ঁ

Domains of the Text

  • Literature (News reports)

  • Poetry (Aesthetic / cultural expression)

  • Folklore & Oral Tradition (Textual form)

  • Everyday Social Themes (As reflected in texts)

  • Cultural Knowledge & Heritage

  • News reports (National & International)

  • Articles (Aesthetic / cultural expression)

Dataset Structure

  • The dataset consists of 28 Microsoft Word (.docx) files.

  • Each file serves as a separate genre/domain container for the corpus.

  • Total token count: 10+ million.

File-Level Metadata

  • prothomalo_part_1-385000

  • prothomalo_part_2-380000

  • prothomalo_part_3-367000

  • prothomalo_part_4-375000

  • prothomalo_part_5-357000

  • prothomalo_part_6-363000

  • prothomalo_part_7-353000

  • prothomalo_part_8-366000

  • prothomalo_part_9-374000

  • prothomalo_part_10-370000

  • prothomalo_part_11-388000

  • prothomalo_part_12-371000

  • prothomalo_part_13-370000

  • prothomalo_part_14-345000

  • prothomalo_part_15-347000

  • prothomalo_part_16-372000

  • prothomalo_part_17-360000

  • prothomalo_part_18-346000

  • prothomalo_part_19-381000

  • prothomalo_part_20-368000

  • prothomalo_part_21-365000

  • prothomalo_part_22-355000

  • prothomalo_part_23-336000

  • prothomalo_part_24-337000

  • prothomalo_part_25-340000

  • prothomalo_part_26-374000

  • prothomalo_part_27-364000

  • prothomalo_part_28-364000

Recommended Processing

  • File Format: The data is provided in Microsoft Word (.docx) format.

  • Extraction: Users are advised to perform UTF-8 extraction and Unicode normalization to ensure script consistency.

  • Preprocessing: Recommended steps include white-space cleanup and removal of any remaining formatting artifacts from the Word documents.

Sample Text

  • মিয়ানমারের উত্তর-পশ্চিমে সেনাবাহিনীর এক অভিযানে অন্তত তিন শিক্ষার্থী নিহত হয়েছেন। আজ শুক্রবার ভোরে এ অভিযান চালানো হয় বলে জানিয়েছে শিক্ষার্থীদের একটি ইউনিয়ন।

  • ফিল্ম আর্কাইভের ওয়েবসাইটে থাকা তথ্যানুসারে, প্রকল্পের প্রাক্কলিত ব্যয় ৬২ কোটি ৬৭ লাখ ৯০ হাজার টাকা। প্রকল্পের বাস্তবায়নকাল ২০২১ সালের ১ জুলাই থেকে ২০২৪ সালের ৩০ জুন।

  • বিশ্ব স্বাস্থ্য সংস্থা ৭ আগস্ট জানায়, আফ্রিকার দেশ রুয়ান্ডায় চারজনের এমপক্স শনাক্ত হওয়ার খবর জানায়। তবে দেশটিতে এ রোগে কেউ মারা যাননি।

  • গ্রাহকদের সাময়িক অসুবিধার জন্য দুঃখ প্রকাশ করেছে তিতাস গ্যাস।

  • আবেদনের বয়সসীমা: সর্বোচ্চ ৫০ বছরপদসংখ্যা: ০১টিবেতন: আলোচনা সাপেক্ষেঅভিজ্ঞতা: কমপক্ষে ১২ বছর