یادگیری نیمهنظارتی
یادگیری نیمهنظارتی دستهای از روشهای یادگیری ماشین است که در آن از دادههای بدون برچسب و دادههای برچسبدار به صورت همزمان برای بهبود دقت یادگیری استفاده میشود.
انواع اصلی
روشهای یادگیری نیمهنظارتی را در یک دستهبندی کلی به دستههای زیر میتوان تقسیم کرد.
روشهای مولد
در روشهای مولد ابتدا یک مدل پارامتری برای تابع توزیع نقاط (مثلاً توزیع گاوسی) انتخاب میشود که آن را با
در مقابل روشهای مولد، روشهایی که بهطور مستقیم به یادگیری
روشهای مبتنی بر فرض جداسازی کمچگالی
همانطور که گفته شد، فرض خوشه با فرض جداسازی کم چگالی معادل است. با توجه به این نکته میتوان عبارتهای منظمسازی تعریف کرد که وجود مرز طبقهبندی در نقاط پرچگالی را جریمه میکنند. به این ترتیب الگوریتمهای زیادی برای یادگیری نیمهنظارتی مطرح میشوند. معروفترین الگوریتم در این دسته از روشها، الگوریتم TSVM است، که در سال ۱۹۹۸ توسط وپنیک ارائه شد. وپنیک از مفهوم ابعاد VC و قاعدهٔ SRM، برای طراحی یک مسئله بهینهسازی مشابه مسئلهٔ بهینهسازی SVM بهره گرفتهاست. مسئلهٔ بهینهسازی TSVM، مسئلهای پیچیدهاست و تاکنون الگوریتمی کارا برای یافتن جواب بهینهٔ عمومی آن ارائه نشدهاست. روشهای دیگری هم در حوزهٔ استفاده صرف از فرض خوشه استفاده شدهاند که شامل میشوند. همهٔ این روشها در دو خاصیت مشترکند، یکی اینکه برای طبقهبندی طراحی شدهاند و اینکه طراحی آنها حول مفهوم مرز جداساز و اندازه مرز بودهاست.
روشهای مبتنی بر گراف
این روشها در صورتی مؤثر هستند که فرض همواری نیمهنظارتی و فرض خمینه در حالت ضعیف، همزمان برقرار باشد. برای استفاده از فرض خمینه بهطور صریح، باید ساختار خمینه به نحوی بیان شود. یکی از راههای بیان کردن ساختار خمینه در فضای با بعد بالا، استفاده از گرافهای همسایگی است. در گراف همسایگی، رئوس همان نقاط هستند و میان نقاط نزدیک به هم روی خمینه یال با وزن متناسب قرار داده میشود.
در روشهای نیمهنظارتی مبتنی بر گراف، ابتدا گراف همسایگی روی نقاط ساخته میشود، سپس از روشی برای تعیین برچسب نقاط بدون برچسب استفاده میشود. به عبارت دیگر، هر الگوریتم نیمهنظارتی مبتنی بر گراف شامل گامهای کلی زیر است:
- پیشپردازش دادهها، که شامل استخراج ویژگیها، کاهش بعد، حذف نویز و موارد دیگر میباشد.
- ایجاد گراف همسایگی مناسب روی نقاط که معمولاً لازمهٔ آن محاسبهٔ فاصلهٔ بین نقاط است.
- استنتاج برچسب نقاط بدون برچسب با یکی از روشهای استنتاج برچسب.