توجه (یادگیری ماشین)
در زمینه شبکههای عصبی، توجه تکنیکی است که توجه شناختی را تقلید میکند
این اثر بخشهای مهم، دادههای ورودی را افزایش میدهد و بقیه موارد را محو میکند (این تصور وجود دارد که شبکه باید قدرت محاسباتی بیشتری را روی آن قسمت کوچک اما مهم داده اختصاص دهد)
اینکه کدام قسمت از دادهها از دیگران مهمتر است به این زمینه بستگی دارد و از طریق آموزش دادهها با نزول شیب آموخته میشود.
آنها در طیف گستردهای از مدلهای یادگیری ماشین، از جمله در پردازش زبان طبیعی و بینایی کامپیوتر، مورد استفاده قرار میگیرند.
شبکههای ترانسفورماتور (شبکه تبدیل کننده) برای دستیابی به قدرت بیان خود از مکانیسمهای توجه استفاده گسترده میکنند. سیستمهای بینایی رایانه مبتنی بر شبکههای عصبی کانولوشن نیز میتوانند از مکانیسمهای توجه بهرهمند شوند
دوتا از متداولترین روش توجه که استفاده میشوند توجه به محصول است که از محصول نقطه ای بین بردارها برای تعیین توجه و توجه چند سر استفاده میکند، که چندین مکانیزم توجه مختلف را برای هدایت توجه کلی یک شبکه یا شبکه فرعی ترکیب میکند
یک مثال ترجمه زبان
برای ساخت دستگاهی که انگلیسی را به فرانسوی ترجمه میکند (نمودار زیر را ببینید، و بارمز گداری و رمز گشایی و پیوند زدن واحدهای توجه شروع میشود. واحد توجه، یک شبکه عصبی کاملاً متصل است که از ترکیب وزنی رمزگذاری خروجیها به رمزگشایی ورودیها تغذیه میکند.
|
این جدول محاسبات را در هر مرحله نشان میدهد. برای شفافیت، از مقادیر و اشکال عددی خاص به جای حروف استفاده میشود. اشکال تو در تو ماهیت خلاصه h را نشان میدهد، جایی که هر h حاوی تاریخچه ای از کلمات قبل از آن است. در اینجا، امتیازات توجه ساخته شدهاست تا وزنهای مورد توجه را بدست آورید.
به عنوان یک ماتریس، وزنهای توجه نشان میدهند که چگونه شبکه تمرکز خود را متناسب با زمینه تنظیم میکند.
I | love | you | |
je | .۹۴ | .۰۲ | .۰۴ |
t' | .۱۱ | .۰۱ | .۸۸ |
aime | .۰۳ | .۹۵ | .۰۲ |
این دیدگاه به آدرس وزنهای توجه مسئله " توانایی توضیح دادن " که شبکههای عصبی مورد انتقاد قرار میگیرند، میپردازد. شبکههایی که ترجمه لفظی را بدون توجه به ترتیب کلمات انجام میدهند، اگر این اصطلاحات قابل تحلیل باشند، ماتریس غالب مورب دارند. تسلط خارج از مورب نشان میدهد که مکانیسم توجه از ظرافت بیشتری برخوردار است.
در اولین عبور از رمزگشایی، ۹۴٪ از وزن توجه به اولین کلمه انگلیسی "I" است، بنابراین شبکه کلمه "je" را ارائه میدهد. در قسمت دوم رمزگشایی، ۸۸٪ از وزن توجه به کلمه سوم انگلیسی "you" است، بنابراین "t" را ارائه میدهد. در آخرین قسمت، ۹۵٪ از وزن توجه به کلمه انگلیسی دوم "love" است، بنابراین "aime" را ارائه میدهد
پیوند به بیرون
- الکس گریوز (۴ مه ۲۰۲۰) ، توجه و حافظه در یادگیری عمیق (سخنرانی ویدیویی)، DeepMind / UCL، از طریق YouTube.
- تخته سفید الگوریتم رسا - توجه از طریق یوتیوب
منابع
- ↑ Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N.; Kaiser, Lukasz; Polosukhin, Illia (2017-12-05). "Attention Is All You Need". arXiv:1706.03762 [cs.CL].
- ↑ Ramachandran, Prajit; Parmar, Niki; Vaswani, Ashish; Bello, Irwan; Levskaya, Anselm; Shlens, Jonathon (2019-06-13). "Stand-Alone Self-Attention in Vision Models". arXiv:1906.05909 [cs.CV].