مدل زبانی ، سیستم آماری یا یادگیرمحوری است که احتمال وقوع توالی کلمات را پیشبینی میکند. در دو دههی اخیر، پردازش زبان طبیعی از مدلهای آماری ساده مانندn-gram به سمت مدلهای عصبی عمیق حرکت کرده است و تحولی در فهم زبان توسط ماشینها ایجاد نمود. از مدلهای n-gram به RNN، سپس LSTM و در نهایت نقطهی عطف این تحول، معرفی معماری Transformer در سال ۲۰۱۷ بود. مدلهای زبانی بزرگ شبکههای عصبی هستند که برای درک و تولید زبان طبیعی طراحی شدهاند مدلهای زبانی بزرگ مبتنی بر یادگیری عمیق هستند.
تعریف مدل های زبانی بزرگ : مدلهای زبانی بزرگ (Large Language Models) زیرمجموعهای از هوش مصنوعی که با استفاده از یادگیری عمیق ، زبان انسان را درک، تولید و تحلیل میکنند. نمونههای مشهور شامل GPT (OpenAI)، PaLM (Google)، LLaMA (Meta) و Gemini هستند. این مدل ها با آموزش بر روی مجموعهدادههای بسیار گسترده، میتوانند درک، تولید و استدلال زبانی انجام دهند. آنها قادر به تولید متن ، ترجمه متن، پاسخ به پرسش ها و بسیاری از وظایف NLP هستند.
معماری Transformer : مدلهای زبانی بزرگ بر اساس شبکههای عصبی ترنسفورمر ساخته شدهاند و با میلیونها تا میلیاردها پارامتر آموزش میبینند . معماری Transformer پایهی شکلگیری مدلهایی مانند GPT, BERT, T5 PaLM, LLaMA, و Gemini شد. ویژگی کلیدی این معماری، مکانیزم توجه (Attention Mechanism ) است که به مدل اجازه میدهد وابستگی بین واژهها را در فواصل دورتر تشخیص دهد.
اجزای کلیدی Transformer : Multi-head Attention ، Position Encoding ، Layer Normalization ، Residual Connections