رفتن به محتوای اصلی
x

پردازش زبان فارسی

ابزارها و منابع فارسی

ابزار

کاربرد

Hazm

نرمال‌سازی، توکن‌سازی، ریشه‌یابی

Parsivar

تحلیل صرفی و نحوی

ParsBERT

مدل ترنسفورمر فارسی

FaNER

داده‌های تشخیص موجودیت نام‌دار

PEYMA

پیکره‌ی برچسب‌گذاری‌شده برای NER

چالش‌های زبان فارسی

  1. غنای صرفی بالا (پسوندها، پیشوندها

  2. نبود جدایی دقیق بین واژه‌ها (نیم‌فاصله)

  3. ترتیب واژگان نسبتاً آزاد

  4. کمبود داده‌های باکیفیت