پردازش زبانهای طبیعی
پردازش زبانهای طبیعی یکی از زیرشاخههای بااهمیت در حوزهٔ گستردهٔ علوم رایانه، هوش مصنوعی، که به تعامل بین کامپیوتر و زبانهای (طبیعی) انسانی میپردازد؛ بنا بر این پردازش زبانهای طبیعی بر ارتباط انسان و رایانه، متمرکز است. پس چالش اصلی و عمده در این زمینه درک زبان طبیعی و ماشینی کردن فرایند درک و برداشت مفاهیم بیانشده با یک زبان طبیعیِ انسانی است. به تعریف دقیقتر، پردازش زبانهای طبیعی عبارت است از استفاده از رایانه برای پردازش زبان گفتاری و زبان نوشتاری. بدین معنی که رایانهها را قادر سازیم که گفتار یا نوشتار تولید شده در قالب و ساختار یک زبان طبیعی را تحلیل و درک نموده یا آن را تولید نمایند. در این صورت، با استفاده از آن میتوان به ترجمهٔ زبانها پرداخت، از صفحات وب و بانکهای اطلاعاتیِ نوشتاری جهت پاسخ دادن به پرسشها استفاده کرد، یا با دستگاهها، مثلاً برای مشورت گرفتن به گفتوگو پرداخت. اینها تنها مثالهایی از کاربردهای متنوع پردازش زبانهای طبیعی هستند.
هدف اصلی در پردازش زبان طبیعی، ایجاد تئوریهایی محاسباتی از زبان، با استفاده از الگوریتمها و ساختارهای دادهای موجود در علوم رایانه است. بدیهی است که در راستای تحقق این هدف، نیاز به دانشی وسیع از زبان است و علاوه بر محققان علوم رایانه، نیاز به دانش زبان شناسان نیز در این حوزه میباشد. با پردازش اطلاعات زبانی میتوان آمار مورد نیاز برای کار با زبان طبیعی را استخراج کرد. کاربردهای پردازش زبان طبیعی به دو دسته کلی قابل تقسیم است: کاربردهای نوشتاری و کاربردهای گفتاری. از کاربردهای نوشتاری آن میتوان به استخراج اطلاعاتی خاص از یک متن، ترجمه یک متن به زبانی دیگر یا یافتن مستنداتی خاص در یک پایگاه داده نوشتاری (مثلاً یافتن کتابهای مرتبط به هم در یک کتابخانه) اشاره کرد. نمونههایی از کاربردهای گفتاری پردازش زبان عبارتند از: سیستمهای پرسش و پاسخ انسان با رایانه، سرویسهای اتوماتیک ارتباط با مشتری از طریق تلفن، سیستمهای آموزش به فراگیران یا سیستمهای کنترلی توسط صدا. در سالهای اخیر این حوزه تحقیقاتی توجه دانشمندان را به خود جلب کردهاست و تحقیقات قابل ملاحظهای در این زمینه صورت گرفتهاست.
تاریخچه
بهطور کلی تاریخچه پردازش زبان طبیعی از دهه ۱۹۵۰ میلادی شروع میشود. در ۱۹۵۰ آلن تورینگ مقاله معروف خود را دربارهٔ آزمایش تورینگ که امروزه به عنوان ملاک هوشمندی شناخته میشود، منتشر ساخت.
نخستین تلاشها برای ترجمه توسط رایانه ناموفق بودند، بهطوریکه ناامیدی بنگاههای تأمین بودجهٔ پژوهش از این حوزه را نیز در پی داشتند. پس از اولین تلاشها آشکار شد که پیچیدگی زبان بسیار بیشتر از چیزیست که پژوهشگران در ابتدا پنداشتهبودند. بیگمان حوزهای که پس از آن برای استعانت مورد توجه قرار گرفت زبانشناسی بود. اما در آن دوران نظریهٔ زبانشناسی وجود نداشت که بتواند کمک شایانی به پردازش زبانها بکند. در سال ۱۹۵۷ کتاب ساختارهای نحوی اثر نوام چامسکی زبانشناس جوان آمریکایی که از آن پس به شناختهشدهترین چهرهٔ زبانشناسی نظری تبدیل شد به چاپ رسید. از آن پس پردازش زبان با حرکتهای تازهای دنبال شد اما هرگز قادر به حل کلی مسئله نشد.
محدودیتها
پردازش زبانهای طبیعی رهیافت بسیار جذابی برای ارتباط بین انسان و ماشین محسوب میشود و در صورت عملی شدنش بهطور کامل میتواند تحولات شگفتانگیزی را در پی داشتهباشد. سیستمهای قدیمی محدودی مانند SHRDLU که با واژههای محدود و مشخصی سر و کار داشتند، بسیار عالی عمل میکردند، بهطوریکه پژوهشگران را به شدت نسبت به این حوزه امیدوار کردهبودند. اما در تقابل با چالشهای جدیتر زبانی و پیچیدگیها و ابهامهای زبانها، این امیدها کمرنگ شدند. مسئلهٔ پردازش زبانهای طبیعی معمولاً یک مسئلهٔ AI-Complete محسوب میشود، چرا که محقق شدن آن بهطور کامل مستلزم سطح بالایی از درک جهان خارج و حالات انسان برای ماشین است.
موانع اساسی
- نیاز به درک معانی: رایانه برای آن که بتواند برداشت درستی از جملهای داشته باشد و اطلاعات نهفته در آن جمله را درک کند، گاهی لازم است که برداشتی از معنای کلمات موجود در جمله داشته باشد و تنها آشنایی با دستور زبان کافی نباشد. مثلاً جمله حسن سیب را نخورد برای اینکه کال بود. و جملهٔ حسن سیب را نخورد برای اینکه سیر بود. ساختار دستوریِ کاملاً یکسانی دارند و تشخیص اینکه کلمات «کال» و «سیر» به «حسن» برمیگردند یا به «سیب»، بدون داشتن اطلاعات قبلی دربارهٔ ماهیت «حسن» و «سیب» ممکن نیست.
- دقیق نبودن دستور زبانها: دستورِ هیچ زبانی آنقدر دقیق نیست که با استفاده از قواعد دستوری همیشه بتوان به نقش هریک از اجزای جملههای آن زبان پی برد.
پردازش زبانهای طبیعی آمارگرا
پردازش زبانهای طبیعی بهشکل آمارگرا عبارت است از استفاده از روشهای تصادفی، احتمالاتی و آماری برای حل مسائلی مانند آنچه در بالا ذکر شد. بهویژه از این روشها برای حل مسائلی استفاده میکنند که ناشی از طولانی بودن جملات و زیاد بودن تعداد حالات ممکن برای نقش کلمات هستند. این روشها معمولاً مبتنی بر نمونههای متنی و مدلهای مارکف هستند.
کارکردهای مهم پردازش زبانهای طبیعی
جستارهای وابسته
منابع
- ↑ «Sheffield University». بایگانیشده از اصلی در ۱۴ مه ۲۰۲۱. دریافتشده در ۳۰ ژوئن ۲۰۰۸.
- ↑ «Birmingham University».
پیوند به بیرون
- مرجع دادگان زبان فارسی پیکرههای مورد استفاده در پردازش رایانهای زبان فارسی
- مرکز مطالعات زبان و اطلاعات، استانفورد
- تهیهٔ بانک پرحجم واژگان برای کاربرد در نظامهای متنسازی و سازهیابی و بازیابی اطلاعات، ترجمهٔ سید مهدی سمائی، مرکز اطلاعات و مدارک علمی ایران
- کتاب زبان، پیوستگی و صورت