رفتن به محتوای اصلی
x

تعریف مدل های زبانی بزرگ

مدل زبانی ، سیستم آماری یا یادگیر‌محوری است که احتمال وقوع توالی کلمات را پیش‌بینی می‌کند. در دو دهه‌ی اخیر، پردازش زبان طبیعی از مدل‌های آماری ساده مانندn-gram  به سمت مدل‌های عصبی عمیق حرکت کرده است و تحولی در فهم زبان توسط ماشین‌ها ایجاد نمود. از مدل‌های n-gram به RNN، سپس LSTM و در نهایت نقطه‌ی عطف این تحول، معرفی معماری Transformer در سال ۲۰۱۷ بود. مدل‌های زبانی بزرگ شبکه‌های عصبی هستند که برای درک و تولید زبان طبیعی طراحی شده‌اند مدل‌های زبانی بزرگ مبتنی بر یادگیری عمیق هستند.

تعریف مدل های زبانی بزرگ :  مدل‌های زبانی بزرگ (Large Language Models) زیرمجموعه‌ای از هوش مصنوعی که با استفاده از یادگیری عمیق ، زبان انسان را درک، تولید و تحلیل می‌کنند. نمونه‌های مشهور شامل GPT (OpenAI)، PaLM (Google)، LLaMA (Meta) و Gemini هستند. این مدل ها با آموزش بر روی مجموعه‌داده‌های بسیار گسترده، می‌توانند درک، تولید و استدلال زبانی انجام دهند. آنها قادر به تولید متن ، ترجمه متن، پاسخ به پرسش ها و بسیاری از وظایف NLP هستند.

معماری Transformer : مدل‌های زبانی بزرگ بر اساس شبکه‌های عصبی ترنسفورمر ساخته شده‌اند و با میلیون‌ها تا میلیاردها پارامتر آموزش می‌بینند . معماری Transformer پایه‌ی شکل‌گیری مدل‌هایی مانند GPT, BERT, T5 PaLM, LLaMA, و Gemini شد. ویژگی کلیدی این معماری، مکانیزم توجه (Attention Mechanism  ) است که به مدل اجازه می‌دهد وابستگی بین واژه‌ها را در فواصل دورتر تشخیص دهد.

    اجزای کلیدی Transformer : Multi-head Attention ، Position Encoding ، Layer Normalization ، Residual Connections