بیشبرازش
بیشبرازش (به انگلیسی: Overfitting) به پدیدهٔ نامطلوبی در آمار گفته میشود که در آن درجه آزادی مدل بسیار بیشتر از درجه آزادی واقعی انتخاب شده و در نتیجه اگرچه مدل روی داده استفاده شده برای یادگیری بسیار خوب نتیجه میدهد، اما بر روی داده جدید دارای خطای زیاد است. انتخاب درجه آزادی مناسب به کمک وارسی اعتبار (Cross-validation) و تنظیمکردن (Regularization) از راههای مقابله با این پدیدهاست.
احتمال بیش برازش به این دلیل وجود دارد که معیار برازش مدل با معیاری که برای ارزیابی آن به کار میرود یکسان نیست. به این مفهوم که معمولاً برای برازش مدل کارایی آن بر روی یک مجموعه نمونههای برازش بیشینه میشود. در صورتی که برای سنجش مؤثر بودن مدل نه تنها کارایی آن بر روی نمونههای برازش را می سنجند بلکه توانایی مدل بر روی نمونههایی دیده نشده نیز در نظر گرفته میشود. بیش برازش زمانی اتفاق می افتد که مدل در هنگام برازش به جای "یادگیری" دادهها شروع به "حفظ کردن" آنها میکند.
برای مثال در تحلیل رگرسیون هنگامی که تعداد درجه مدل از تعداد دادههای که سعی در یادگیری آن داریم بیشتر باشد معمولا بیشبرازش اتفاق میافتد.
در یادگیری ماشین
در یادگیری ماشین معمولا مدل روی دادگان آموزش٬ آموزش میبیند و هدف این است که بتواند روی دادگان آزمایشی عملکرد خوبی داشته باشیم. پدیدهی بیشبرازش باعث میشود روی دادگان آموزش عملکرد بسیار خوبی داشته باشد اما روی دادگان اعتبارسنجی و آزمایش عملکرد بسیار بدی داشته باشد. هنگامی که تعداد دادگان آموزش کم است و یا درجه آزادی مدل زیاد است احتمال این پدیده بیشتر میشود.
به عنوان یک مثال ساده یک دادگان از یک وبسایت سفارش آنلاین را در نظر بگیرید. این دادگان شامل نوع کالای خریده شده٬ ساعت خرید کالا و مشخصات کاربر است و هدف مدل پیشبینی کالای خریداری شده توسط یک کاربر است. یک مدل ممکن است با حفظ کردن ساعت خرید کالا و نوع آن بتواند روی دادگان آموزش دقت بالایی کسب کند. در صورتی که این مدل نمیتواند عملکرد خوبی روی دادهای بیرون از دادگان آمورش داده باشد زیرا هیچ یادگیریای روی مشخصات کاربر نداشتهاست و ساعت خرید و نوع کالا ویژگیهای مناسبی برای این دادگان نیستند.
مثال تحلیل رگرسیون
با بالا بردن درجهی مدل میتوان قدرت مدل را رگرسیون را بیشتر کرد. براحتی میتوان در تصویر زیر بیشبرازش را دید. خط قرمز یک چندجمله درجه ۵ و خط سیاه یک چندجمله از درجه ۱ یک است. مدل چندجمله درجه ۵ روی دادگان دچار پدیدهی بیشبرازش شده است. یک روش درست کردن این مشکل استفاده از تکنیک تنظیمکردن (Regularization) است.
مثال شبکه های عصبی
در شبکههای عصبی عمیق معمولا هنگامی که شبکه مدت زیادی آموزش میبینید دچار بیشبرازش میشود. یک روش برای حل این مشکل روشهایی مانند توقف زودهنگام (Early stopping) ٬ تنظیم کردن (Regularization) یا حذف تصادفی (dropout) است. یک روش دیگر این است که عمق یا پیچیدگی شبکه را کمتر کنیم تا قدرت کمتری داشته باشد.
جستارهای وابسته
منابع
- ↑ معادل فارسی برگرفته از «استفاده از رگرسیون منطقی برای شناسایی اثرات متقابل برخی از پلیمورفیسمهای ژنی و سایر عوامل خطر بر سطح پایین HDL: مطالعهٔ قند و لیپید تهران». غدد درونریز و متابولیسم ایران. پژوهشکده غدد درونریز و متابولیسم. ۱۴ (۴): ۳۵۲-۳۵۹. ۲۰۱۲.
- ↑ Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). The Elements of Statistical Learning (به انگلیسی). Springer. p. ۲۱۹.