ابزارها و منابع فارسی
ابزار | کاربرد |
Hazm | نرمالسازی، توکنسازی، ریشهیابی |
Parsivar | تحلیل صرفی و نحوی |
ParsBERT | مدل ترنسفورمر فارسی |
FaNER | دادههای تشخیص موجودیت نامدار |
PEYMA | پیکرهی برچسبگذاریشده برای NER |
چالشهای زبان فارسی
غنای صرفی بالا (پسوندها، پیشوندها
نبود جدایی دقیق بین واژهها (نیمفاصله)
ترتیب واژگان نسبتاً آزاد
کمبود دادههای باکیفیت