تابع هزینه
تابع هزینه یا تابع زیان (به انگلیسی: Loss function) در علم آمار و بهینهسازی تابعی است که مقدار زیان را در یک پیشامد نشان میدهد. تابع هزینه همچنین در علم اقتصاد، کنترل بهینه و مدیریت ریسک کاربرد دارد. این ایده توسط آبراهام والد در اواسط قرن بیستم، همزمان با پیر سیمون لاپلاس مطرح شد.
در علم آمار معمولا تابع هزینه برای اینکه مشخص شود تخمین پارامترمان تا چه حد موفق بوده استفاده میشود و تابعی که برای سنجش میزان موفقیت تخمینگر از تخمین پارامتر نسبت به مقادیر واقعی از آن استفاده میشود که به تابع هزینه معروف است یک تابعی است که مقدار تفاوت بین مقادیر تخمین زده شده توسط تخمینگر و مقادیر واقعی یک متغیر موجود در دادگان را نمایش میدهد. در مسائل طبقهبندی تابع هزینه در اصل به نوعی تعداد طبقهبندی های اشتباه توسط تحمنگیر را نمایان میکند زیرا دیگر مانند مسائل رگرسیون با جوابهای عددی مواجه نیستیم که بتوانیم مقدار تفاوت از جواب واقعی و جواب تخمینگر را اندازه بگیریم ؛ از انواع توابع هزینه برای مسائل طبقهبندی آماری میتوان به تابع هزینه لاجستیک و تابع هزینه هینج اشاره کرد.
تعریف
برای تعریف تابع هزینه (به انگلیسی: Cost function)، از متغیر تصادفی X استفاده میشود و تابع هزینه به شکل
نمونههایی از توابع هزینه مشهور
خطای میانگین مربعات
در علم آمار، خطای میانگین مربعات یه تخمینگر مقدار میانگین خطای مربعات خطاها را اندازه میگیرد، به عبارت دیگر میانگین مربع فاصله مقادیر تخمین زده شده با مقادیر واقعی را به ما نشان میدهد. خطای میانگین مربعات کیفیت یک تخمینگر را اندازهگیری میکند؛ به خاطر ماهیت درجه دومی که دارد همواره مثبت است و در حالتی کاهش مییابد که خطای ما در حال کاهش یافتن باشد.
خطای میانگین مطلق
در علم آمار، خطای میانگین مطلق ، میانگین فاصله قدر مطلقی مقدار تخمین زده تا مقدار واقعی را نشان میدهد. خطای میانگین مطلق از همان مقیاسی که در دیتا اندازهگیری میشود استفاده میکند، برای همین به عنوان یک معیار مقیاس-آزاد برای اندازهگیری دقت معروف است.
انتخاب تابع هزینه مناسب
در مسائل آماری نیاز است که توابع هزینه با توجه به شرایط موجود در مسئله و کاربرد هر تابع هزینه در هر مسئله تعیین شوند؛پس مدلسازی مسئله به این وابسته است که هر تابع هزینه در شرایط متفاوت و خاص هر مسئله چه مقادیری را از خود نشان میدهد.
با در نظر گرفتن گزینه های موجود در الگوریتمهای بهینه سازی،SGD و ADAM(Adaptive Moment Estimation) روش هایی هستند که به طور گسترده ای در حال استفاده میباشند. انتخاب تابع هزینه به کاری که میخواهیم انجام دهیم بستگی دارد؛ ممکن است از تابع هزینه خطای میانگین مربعات برای یک مسئله رگرسیون خطی استفاده کنیم. خانواده توابع هزینههای مشابه آنتروپی متقاطع برای مسئله های طبقهبندی مناسب میباشند. در اکثر الگوریتمهای بهینه سازی مطلوب است که توابع هزینه همواره پیوسته و مشتقپذیر داشته باشیم.
ویلیام ادورادز دمینگ و نسیم نیکولاس طالب بحث میکنند که در واقعیت توابع هزینه دارای ویژگی های خوب ریاضیاتی محض مانند پیوستگی، مشتقپذیری و یا عدم تقارن نیستند و این توابع نباید پایه اصلی انتخاب توابع هزینه ما در مدل سازی مسائل باشند؛ برای مثال فردی که قبل ازز بسته شدن درب ورودی هواپیما به آن میرسد میتواند که سوار هواپیما شود و کسی که بعد از بسته شدن درب ورودی به هواپیما برسد از سوار شدن بازمیماند؛ یک ناپیوستگی که به شدت تابع هزینه را برای کسی که قبل یا بعد از بسته شدن درب هواپیما به آن رسیده تغییر میدهد. در عملیات تست دوز مناسب داروها معمولا مقدار بسیار کمی از دارو اثرگذار نخواهد بود و مقدار بسیار زیادی از آن ممکن است مرگآور باشد که مثال دیگری از عدم تقارن در توابع هزینه است.
منابع
Peter_J._Bickel Doksum, Kjell A. (2015). Mathematical Statistics: Basic Ideas and Selected Topics. Vol. I (Second ed.). p. 20
"2.5 Evaluating forecast accuracy | OTexts"
.Deming, W. Edwards (2000). Out of the Crisis. The MIT Press