Sindhi Word Segmentation (SdSEG)

Sindhi Word Segmentation (SdSEG) Dataset

Language

Sindhi (سنڌي) is an Indo-Aryan language spoken primarily in Pakistan and India. Despite its rich literary heritage, it remains a low-resource language in NLP, particularly for word segmentation and sequence labeling tasks.

Script

Perso-Arabic Script (Sindhi)

ا، ب، ٻ، ڀ، پ، ت، ٿ، ٽ، ٺ، ث، ج، ڄ، جھ، ڃ، چ، ڇ، ح، خ، د، ڌ، ڏ، ڊ، ڍ، ذ، ر، ڙ، ز، س، ش، ص، ض، ط، ظ، ع، غ، ف، ڦ، ق، ڪ، ک، گ، ڳ، ڱ، ل، م، ن، ڻ، و، ھ، ء، ي، ه

Dataset Structure

Sindhi-Word-Segmentation/
│
├── labelled_dataset.json
├── labelled_sentences.txt
└── sd_seqlabelling.txt
└── README.md

Metadata

Field	Details
Dataset Name	Sindhi Word Segmentation Dataset (SdSEG)
Language	Sindhi (سنڌي)
Language Family	Indo-European — Indo-Aryan Branch
ISO 639-1 / 639-3	`sd` / `snd`
Script	Perso-Arabic Script (Sindhi, Unicode)
Domain	Natural Language Processing
Task Type	Sequence Labeling / Word Segmentation
Encoding	UTF-8
Format	Sentence + Label Sequence

Sample Text

{
  "sentence": "متاثر علائقن ۾ رينجرز مقرر ڪرڻ جي گهر، آبادگارن کي تباهه ڪري ڇڏيو اٿئون:",
       {
  "sentence": "متاثر علائقن ۾ رينجرز مقرر ڪرڻ جي گهر، آبادگارن کي تباهه ڪري ڇڏيو اٿئون:",
  "labels": ["E", "I", "I", "I", "B", "X", "E", "I", "I", "I", "I", "B", "X", "S", "..."]
}

{
  "sentence": "فهميده مرزا. فنڊز ۾ گهوٻيون، واهن۽شاخن جي کاٽي نه ٿيڻ ڪري بدين، جوهي ۽ ميرپور خاص۾پاڻي کوٽ آهي.",
  "labels": ["E", "I", "I", "I", "I", "B", "X", "E", "I", "I", "B", "S", "X", "E", "I", "..."]
}

Description

Specifics

Considerations

Processes

Metadata

Sindhi Word Segmentation (SdSEG) Dataset

Language

Script

Dataset Structure

Metadata

Sample Text