مشکل لهجه در بازشناسی گفتار
لهجه ترکیبی از سه مؤلفه اصلی: آهنگ، اتصال کلمات و طرز تلفظ واجهاست . تحلیلهای مبتنی بر ابزارهای آماری چند متغیره مانند PCA و ICA نشان میدهند که لهجه یکی از عوامل کلیدی در ایجاد تمایز میان گویندگان مختلف است. مشکلات ناشی از تنوع لهجه به اندازه تنوع جنسیت میتواند تأثیرگذار باشد. بنابراین، نیاز به سیستمی که بتواند به خوبی لهجهها را شناسایی و از هم تفکیک نماید بشدت احساس میشود. دو فاز بسیار مهم که به منظور تعدیل اثر لهجه به سامانه بازشناسی گفتار اضافه میشوند عبارتند از فاز تطبیق مدل آکوستیکی با لهجه و فاز شناسایی لهجه . در فاز تطبیق مدل آکوستیکی با لهجه، سعی میکنیم به تعداد لهجههای موجود در دادگان، مدل آکوستیکی تطبیق یافته برای آن لهجهها تولید نماییم و در فاز شناسایی لهجه، به تعیین لهجه یک جمله یا یک گوینده میپردازیم تا در مرحله بازشناسی بتوانیم مدل آکوستیکی تطبیق یافته مناسب را برای آن نمونه انتخاب کنیم.
تطبیق مدل آکوستیکی با لهجه
منظور از تطبیق مدل، استفاده از مقدار کمی دادگان تطبیقی به منظور ایجاد تغییراتی در سیستم بازشناسی گفتار است به گونهای که بتواند تا حد ممکن اطلاعات مربوط به داده جدید را مدل کند .عدم وجود دادگان کافی برای ساخت مدلهای وابسته به لهجه و گوینده چالشی است که سازندگان مدلهای آکوستیکی با آن مواجه هستند. پر واضح است که مدلهای وابسته به گوینده و وابسته به لهجه دقت بالاتری دارند اما ساخت چنین مدلهایی نیازمند دادگان گفتاری کافی از هر لهجه یا گوینده است. آزمایشها نشان میدهند که استفاده از مدلهای واجی وابسته به لهجه که با تعداد کمی داده آموزش دیدهاند بهمراتب دقت کمتری نسبت به مدلهایی دارند که به صورت مستقل از لهجه و با دادگان زیاد آموزش دیدهاند. این بدان معناست که اگر مجموعه دادگان گفتاری دارای چندین لهجه مختلف با تعداد داده کم در هر لهجه است، بهتر است به جای ساخت چند مدل مجزا برای هر لهجه، یک مدل جامع با تمام دادگان تمام لهجهها بسازیم. این مدل جامع که با ترکیبی از دادگان لهجههای مختلف آموزش دیده است را مدل مرجع مینامیم. حال اگر این مدل مرجع به نوعی با دادگان خاص هر لهجه تطبیق داده شود انتظار میرود نتایج بهتری بدست آید. در این حالت پس از ساخت مدل مرجع، با استفاده از دادگان تطبیق هر لهجه و اعمال آن به مدل مرجع، فضای پارامتری مدل مرجع را به سمت فضای لهجه مورد نظر سوق میدهیم. مسئله تطبیق مدل با لهجه به اندازه تطبیق گوینده مورد توجه محققان نبودهاست. بنابراین، بدیهی است که تعداد روشهای مطرح شده برای تطبیق مدل با لهجه بسیار کمتر از روشهای تطبیق گوینده است. استفاده از روشهای تطبیق پایه مانند MAP و MLLR و روشهای پیچیدهتر مانند فضای ویژه در تطبیق گوینده بسیار مرسوم است. با این حال در سالهای اخیر مسئله تطبیق مدل آکوستیکی با لهجه، توجه بسیاری را بخود جلب کردهاست. برخی مقالات اهمیت مسئله تنوع لهجه را هم سنگ با تنوع جنسیت دانستهاند.
دسته بندی روشهای تطبیق
در یک دسته بندی، روشهای تطبیق را به دو دسته تقسیم میکنند:
- روشهای تطبیق ایستا: که در آن دادگان تطبیق از ابتدا موجود هستند و اندازهشان ثابت است.
- روشهای تطبیق افزایشی: که در آن دادگان تطبیق در طی زمان اجرا در دسترس قرار میگیرند. مانند حالتی که قرار است یک مدل مرجع با بخش کوتاهی از گفتار گوینده تستی تطبیق داده شود .
با توجه به نحوه اجرای فاز آزمون، روشهای تطبیق را به دو دسته دیگر تقسیم میکنند:
- روشهای تطبیق با ناظر: که در آن دادگان آزمون دارای برچسب لهجه هستند و نیازی به شناسایی لهجه نیست.
- و روشهای تطبیق بدون ناظر: که در آن دادگان آزمون دارای برچسب لهجه نیستند و میبایست از یک ردهبند لهجه نیز استفاده گردد.
رده بندی لهجه
مسئله شناسایی لهجه یا ردهبندی لهجه موضوع جدیدیست که اخیراً توجه بسیاری از محققان را بخود جلب کردهاست. این در حالیست که مسئله شناسایی زبان موضوعی است که سالها دانشمندان بر روی آن کار کردهاند و به دستاوردهای مفیدی رسیدهاند. از آنجایی که این دو مسئله تا حد زیادی بهم شبیه هستند، بسیاری از افراد تلاش کردهاند از روشهای پیشنهاد شده برای شناسایی زبان در مورد شناسایی لهجه استفاده نمایند. در برخی موارد نیز نتایج خوبی بدست آمدهاست اما در حقیقت زبان و لهجه تفاوتهای اساسی با یکدیگر دارند. در زبانهای مختلف، مجموعه واجهای متفاوت و مجموعه کلمات متفاوتی وجود دارند که این خود یکی از پارامترهای مهم برای شناسایی و تفکیک زبانهای مختلف از یکدیگر است. با توجه به این موضوع، استفاده از مدلهای زبانی در روشهای مختلف شناسایی زبان، جزئی جدایی ناپذیر در این حوزه میباشد. از این جنبه، مسئله شناسایی لهجه را میتوان به دو دسته مجزا تفکیک کرد: یکی مسئله شناسایی لهجههای غیر بومی که بسیار شبیه به شناسایی زبان است زیرا در هر دو واج آرایی در یک جمله مهمترین پارامتر برای تفکیک کلاسهای مختلف از یکدیگر است و دیگری مسئله شناسایی لهجههای محلی که در آن ویژگیهای آکوستیکی نقش مهمی ایفا میکنند ؛ چرا که اغلب، مجموعه واجها در لهجههای محلی یک زبان، یکسان هستند. اگرچه لهجههای مختلف ممکن است از لحاظ ریختشناسی و تحولات لغوی، واژه نامه، صرف و نحو، واجآرایی و واجشناسی تا حدی با یکدیگر متفاوت باشند اما برجسته نمودن این تفاوتها در حیطه لهجه بسیار دشوارتر از زبان است. بنابراین، بنظر میرسد موضوع شناسایی لهجه بسیار دشوارتر از شناسایی زبان باشد. در ادامه تعدادی از روشهای پیشنهاد شده برای شناسایی لهجه را معرفی خواهیم نمود.
روشهای رده بندی لهجه
ساخت مدل هر لهجه و تعیین نزدیکترین مدل به یک نمونه تستی با استفاده از الگوریتم بیشترین درستنمایی ، یکی از روشهای پایه در این زمینه است. در مرجع با در نظر گرفتن دو حالت مختلف، روشهایی برای مقاومسازی در برابر لهجه پیشنهاد شدهاست. در حالت اول، اگر برای هر لهجه دادگان کافی در اختیار باشد، میتوان با ساخت مدلهای وابسته به لهجه و اعمال الگوریتم بیشترین درستنمایی، گفتار لهجهدار را بازشناسی نمود. در حالت دوم، اگر دادگان کمی برای هر لهجه در اختیار داشته باشیم، با ساخت یک مدل مستقل از لهجه و بکارگیری تکنیکهای تطبیق در سطح آوانویسی و ترکیب آن با روشهای تطبیق MLLR به بازشناسی گفتار لهجهدار میپردازیم. تحقیقات نشان میدهند که ویژگیهای پروزودیک میتوانند به خوبی خصوصیات یک لهجه را نشان دهند. استخراج این ویژگیها در کنار سایر ویژگیهای آکوستیکی مانند MFCC و PLP، میتوانند در شناسایی لهجههای مختلف مفید باشند. در همین راستا در مرجع روشی جامع برای استخراج ویژگیهای پروزودیک مانند زیر و بمی، فرکانس فرمانت، انرژی و غیره ارائه نمودهاست. علاوه بر این، ویژگیهای بلند مدت نظیر SDC نیز در کنار ویژگیهای پروزودیک نتایج خوبی در شناسایی لهجه و شناسایی زبان داشتند . از ویژگیهای SDC در کنار ویژگیهای دیگر برای آموزش مدل مخلوط گاوسی برای هر زبان یا لهجه استفاده میشود. استفاده از تکنیکهای متمایزساز مانند تحلیل متمایزساز خطی (LDA) و تحلیل متمایز ساز خطی ناهمگون (HLDA) نیز میتوانند منجر به افزایش دقت ردهبندی شوند . از طرف دیگر، مدلهایی که اغلب به عنوان مدل لهجه بکار گرفته میشوند از نوع GMM یا HMM هستند. شبکه عصبی و ماشین بردار پشتیبان (SVM)، کمتر در این حیطه بکار گرفته میشوند. برای مثال، در مرجع از مدل مخلوط گاوسی برای شناسایی لهجه استفاده شدهاست. در مرجع با توجه به وجود مرزهای فازی بین کلاس واجها، از یک روش جدید مبتنی بر معیارهای فازی برای انتخاب مقادیر اولیه مخلوطهای گاوسی استفاده شدهاست. در این روش، ارزش عضویت در کلاسترها، با توجه به فاصلههای درون کلاستری و برون کلاستری محاسبه میشود. اگر بتوان بردار ویژگیها را بشکلی مناسب فراهم کرد، SVM و ANN نیز میتوانند در ردهبندی لهجه مفید واقع شوند. برای مثال، در مرجع پس از دریافت سیگنال گفتار، با کمک یک بازشناس واج گاوسی، دنباله واجهای آن سیگنال استخراج میشود. سپس به جای هر واج، ابر برداری شامل تمام میانگینهای تمام مؤلفههای گاوسی آن واج جایگزین میگردد و بدین وسیله، یک سری بردار ویژگی جدید حاصل میشود که برای آموزش یک ردهبند SVM بکار برده میشود. روشهای متنوع بسیاری برای ردهبندی و شناسایی لهجهها وجود دارد. یکی دیگر از این روشها که مرجع به آن اشاره کردهاند، روشی است که در آن با استفاده از یکسری تقطیعکنندههای مبتنی بر GMM، گفتار را به دنبالهای از نمادها تبدیل میکنند. این نمادها در واقع شماره مؤلفه گاوسی مربوط به هر فریم هستند. در این روشها ادعا میشود که ترتیب قرار گرفتن این نمادها در هر عبارت میتواند به شناسایی لهجه آن عبارت کمک کند.
منابع
- ↑ A. Cook, American Accent Training: A Guide to Speaking and Pronouncing American English for Everyone Who Speaks English as a second Language, Barrons; 2nd edition, 2000
- ↑ C. Huang, T. Chen, E. Chang, Accent Issues in Large Vocabulary Continuous Speech Recognition, In: International Journal of Speech Technology, vol.7, Issue: 2/3, pp. 141-153, 2004
- ↑ شهاب جلالوند، بهبود روشهای تطبیق مدل آکوستیکی به منظور استفاده در بازشناسی گفتار فارسی، پایاننامه کارشناسی ارشد، دانشگاه علم و صنعت ایران،اسفند 1390 نشانی= http://aspl.iust.ac.ir/index.php?option=com_content&view=article&id=23&Itemid=18
- ↑ L. I. Kuncheva, Combining Pattern Classification: Methods and Algorithms, John Wiley & Sons, Inc., Hoboken, New Jersey, 2004.
- ↑ C. H. Lee, J. L. Gauvain, Speaker Adaptation based on MAP Estimation of HMM Parameters, Acoustics, In: IEEE International Conference on Speech, and Signal Processing, ICASSP-93, vol.2, pp. 558-561, Apr. 1993.
- ↑ Z. Ansari, F. Almasganj, Implementing PCA-based Speaker Adaptation Methods in a Persian ASR System, In: 5th International Symposium on Telecommunications (IST), pp. 769 - 774, Dec. 2010 .
- ↑ B. K. Mak, R. W. Hsiao, S. K. Ho, J. T. Kwok, Embedded Kernel Eigenvoice Speaker Adaptation and its Implication to Reference Speaker Weighting, presented at IEEE Transactions on Audio, Speech & Language Processing, vol.14, pp.1267-1280, 2006.
- ↑ S. J. Young, G. Evermann, M. J. F. Gales, T. Hain, The HTK Book: HMM Adaptation, Cambridge University Engineering Department 2006.
- ↑ L. W. Kat, Fast Accent Classification and Adaptation, Master Thesis, The Hong Kong University of Science and Technology, 2000.
- ↑ T. Carrasquillo, A. Pedro, T. P. Gleason, D. A. Reynolds, Dialect Identification Using Gaussian Mixture Models, In Proc. the Speaker and Language Recognition Workshop (ODYS), pp. 297-300, 2004.
- ↑ R. Mohamed, S. Raviraj, Prosodic Feature Extraction for Regional Tamil Dialects, In: IEEE International Conference on Emerging Trends in Electrical and Computer Technology, vol.1, pp. 922-925, India, 2011.
- ↑ W. Q. Zhang, L. He, Y. Deng, J. Liu, M.T. Johnson, Time–Frequency Cepstral Features and Heteroscedastic Linear Discriminant Analysis for Language Recognition, In: IEEE Transactions on Audio, Speech, and Language Processing, pp. 266-276, Feb. 2011.
- ↑ L. Adde, B. Réveil, J. P. Martens, T. Svendsen, A Minimum Classification Error Approach to Pronunciation Variation Modeling of Non-native Proper Names, In INTERSPEECH-2010, pp. 2282-2285, 2010.
- ↑ F. Biadsy, J. Hirschberg, M. Collins,Dialect Recognition Using a Phone-GMM-Supervector-Based SVM Kernel, In INTERSPEECH-2010, vol.10, pp. 75-756, 2010.
- ↑ S. Ullah, F. Karray, Speaker Accent Classification System using Fuzzy Canonical Correlation-Based Gaussian Classifier, In IEEE International Conference on Signal Processing and Communications, ICSPC ,vol.12, pp. 792-795, Nov. 2007.
- ↑ F. Biadsy, J. Hirschberg, M. Collins, Dialect Recognition Using a Phone-GMM-Supervector-Based SVM Kernel, In INTERSPEECH-2010, vol.10, pp. 75-756, 2010.
- ↑ A. Hanani, M. Carey,M. J. Russell Improved language recognition using mixture components statistics, In INTERSPEECH-2010, pp. 741-744.