چرا به مدل زبانی نیاز داریم؟ یک مدل زبانی (Language Model) وظیفه دارد احتمال رخداد توالیای از کلمات را تخمین بزند. در زبان طبیعی، مشکل کمبود دادهداریم ، بسیاری از توالیهای ممکن از کلمات در دادههای آموزشی اصلاً دیده نمیشوند. در نتیجه مدل احتمال آنها را صفر میگیرد، در حالی که در زبان واقعی ممکناند.
کاربردهای اصلی مدلهای زبانی آماری:
کاربرد | توضیح |
تشخیص گفتار | محاسبهی احتمال جمله برای انتخاب تفسیر درست از سیگنال صوتی |
ترجمه ماشینی | رتبهبندی جملههای ترجمهشده بر اساس روانی زبانی |
تکمیل خودکار (Autocomplete) | پیشبینی واژهی بعدی |
تولید متن | انتخاب واژهها با بیشترین احتمال شرطی |
تصحیح املایی | استفاده از احتمال توالی برای تشخیص جملهی درست |
مدلهای n-gram محدود به حافظهی کوتاه هستند فقط( n−1) واژهی قبلی را میبینند. مدلهای مدرنتر مانند RNNو Transformer میتوانند وابستگیهای طولانی را نیز یاد بگیرند. بهعبارتی، شبکههای عصبی نسخهی پیوسته و تعمیمیافتهی مدلهای زبانی آماریاند.