زبان طبیعی برخلاف دادههای عددی، دارای ابهام، چندمعنایی، و تنوع ساختاری است.
چالشهای اصلی در NLPعبارتند از :
- ابهام واژگانی (Lexical Ambiguity): : واژهی «شیر» میتواند به حیوان، نوشیدنی، یا وسیلهی آب اشاره کند.
- چندمعنایی نحوی (Syntactic Ambiguity): : جملهی «او با دوستش صحبت کرد با تلفن» دو تفسیر دارد.
- ارجاع و هممرجعیت (Coreference): : در جملهی «علی کتابش را خواند»، «ش» به علی بازمیگردد.
- وابستگی بلندمدت: جملهی «کسی که گفت میروم، نیامد» شامل روابط وابستگی غیرمحلی است.
- غنای صرفی و اشتقاقی زبان فارسی: وجود پیشوندها و پسوندهای متنوع و ساختارهای مرکب باعث دشواری پردازش خودکار فارسی میشود.