زبانشناسی محاسباتی (Computational Linguistics) شاخهای میانرشتهای است که از روشهای محاسباتی برای مدلسازی ساختار و معنای زبان انسانی استفاده میکند.در واقع، NLP بدون تکیه بر مفاهیم زبانشناسی، قادر به درک عمیق از زبان نیست. زبان انسانی را میتوان در چند سطح مورد بررسی قرار داد؛ از واحدهای کوچک مانند واژه تا ساختارهای بزرگ گفتمانی.
سطوح تحلیل زبان طبیعی:
تحلیل صرفی( Morphological Analyzers) : در پردازش خودکار، برای انجام تحلیل صرفی از واژهپردازهای خودکار یا مدلهای یادگیری استفاده میشود. در فارسی ابزار معروف Hazmمیتواند ریشه و نقش دستوری را استخراج کند.
تحلیل نحوی (Syntactic Analysis) : تحلیل نحوی به دنبال تشخیص ساختار جمله و روابط بین اجزای آن است. در NLP، این کار معمولاً با استفاده از گرامرهای صوری (Formal Grammars) انجام میشود.
تحلیل وابستگی (Dependency Parsing) : رویکرد دیگر در تحلیل نحوی، تمرکز بر وابستگی بین واژگان است، نه گروهبندی آنها. مدلهای وابستگی برای زبان فارسی مناسبترند چون ساختار جمله میتواند انعطافپذیر باشد.
تحلیل معنایی (Semantics Analysis) : معناشناسی مرحلهای است که مدل باید بتواند معنای جمله را از ساختار نحوی استخراج کند. معنای یک جمله از معنای اجزای آن و نحوهی ترکیب آنها ناشی میشود.
معناشناسی توزیعی (Distributional Semantics) : معنای یک واژه را میتوان از زمینههای وقوعش استنباط کرد.به بیان ساده، دو واژه که در بافتهای مشابه بهکار میروند، معنای مشابهی دارند.
گفتمان و انسجام معنایی (Discourse and Pragmatics) : در سطح گفتمان، هدف این است که مدل بتواند ارتباط بین جملهها را درک کند ، مدلهای مدرن مانند GPT از این نوع تحلیل برای حفظ تداوم در گفتوگو استفاده میکنند.