XLM-RoBERTa fine-tuned for Tajik POS tagging (no examples field used)

Author: Arabov, Mullosharaf Kurbonovich
Organisation: TajikNLPWorld

Model Description

Fine-tuned from xlm-roberta-base for Tajik POS tagging using only tajik and persian fields (no examples).
Input format: "tajik: слово [SEP] persian: ترجمه" (empty Persian allowed).

Evaluation (mean ± std over 3 seeds)

Metric	Value
Accuracy	0.764 ± 0.001
F1‑weighted	0.749 ± 0.003
F1‑macro	0.245 ± 0.026

How to Use

from transformers import AutoTokenizer, AutoModelForSequenceClassification, pipeline
model = AutoModelForSequenceClassification.from_pretrained("TajikNLPWorld/xlm-roberta-tajik-pos")
tokenizer = AutoTokenizer.from_pretrained("TajikNLPWorld/xlm-roberta-tajik-pos")
pipe = pipeline("text-classification", model=model, tokenizer=tokenizer)
pipe("tajik: китоб [SEP] persian: کتاب")

Citation

@inproceedings{arabov2026xlmr,
  title = {XLM-RoBERTa fine-tuned for Tajik POS tagging (no examples field used)},
  author = {Arabov, Mullosharaf Kurbonovich and TajikNLPWorld},
  booktitle = {To appear},
  year = {2026},
  url = {https://huggingface.co/TajikNLPWorld/xlm-roberta-tajik-pos}
}

Downloads last month: 4

Safetensors

Model size

0.3B params

Tensor type

F32

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

TajikNLPWorld
/

xlm-roberta-tajik-pos

XLM-RoBERTa fine-tuned for Tajik POS tagging (no examples field used)

Model Description

Evaluation (mean ± std over 3 seeds)

How to Use

Citation

Dataset used to train TajikNLPWorld/xlm-roberta-tajik-pos