حساب کاربری
​
تغیر مسیر یافته از - دقت(یادگیری ماشین)
زمان تقریبی مطالعه: 5 دقیقه
لینک کوتاه

توجه (یادگیری ماشین)

در زمینه شبکه‌های عصبی، توجه تکنیکی است که توجه شناختی را تقلید می‌کند

این اثر بخشهای مهم، داده‌های ورودی را افزایش می‌دهد و بقیه موارد را محو می‌کند (این تصور وجود دارد که شبکه باید قدرت محاسباتی بیشتری را روی آن قسمت کوچک اما مهم داده اختصاص دهد)

اینکه کدام قسمت از داده‌ها از دیگران مهمتر است به این زمینه بستگی دارد و از طریق آموزش داده‌ها با نزول شیب آموخته می‌شود.

آنها در طیف گسترده‌ای از مدلهای یادگیری ماشین، از جمله در پردازش زبان طبیعی و بینایی کامپیوتر، مورد استفاده قرار می‌گیرند.

شبکه‌های ترانسفورماتور (شبکه تبدیل کننده) برای دستیابی به قدرت بیان خود از مکانیسم‌های توجه استفاده گسترده می‌کنند. سیستم‌های بینایی رایانه مبتنی بر شبکه‌های عصبی کانولوشن نیز می‌توانند از مکانیسم‌های توجه بهره‌مند شوند

دوتا از متداول‌ترین روش توجه که استفاده می‌شوند توجه به محصول است که از محصول نقطه ای بین بردارها برای تعیین توجه و توجه چند سر استفاده می‌کند، که چندین مکانیزم توجه مختلف را برای هدایت توجه کلی یک شبکه یا شبکه فرعی ترکیب می‌کند

یک مثال ترجمه زبان

برای ساخت دستگاهی که انگلیسی را به فرانسوی ترجمه می‌کند (نمودار زیر را ببینید، و بارمز گداری و رمز گشایی و پیوند زدن واحدهای توجه شروع می‌شود. واحد توجه، یک شبکه عصبی کاملاً متصل است که از ترکیب وزنی رمزگذاری خروجی‌ها به رمزگشایی ورودی‌ها تغذیه می‌کند.

افسانه
برچسب شرح
۱۰۰ حداکثر طول جمله
۳۰۰ اندازه تعیین شده (اندازه کلمه)
۵۰۰ طول بردار پنهان
10K سایز دیکشنری از ۱۰ هزار کلمه
x، y 10k یک بردار دیکشنری x → x به عنوان یک جدول جستجو به جای ضرب برداری اجرا شده‌است
x , y بردار تعبیه کلمه به طول ۳۰۰. بردارها معمولاً از پروژه‌های دیگر مانند Word2Vec. یا.Glove از قبل محاسبه می‌شوند
h ۵۰۰ بردار رمز گذاری پنهان و بلند در هر برهه از زمان، این بردار همه کلمات قبلی ما قبل از خود را خلاصه می‌کند. h نهایی را می‌توان به عنوان بردار "جمله" یا به گفته هینتون یک بردار اندیشه در نظر گرفت
s ۵۰۰رمزگشایی مخفی و طولانی نورون RNNرمزنگاری شده
E ۵۰۰ نورنRNNرمز گذاری شده ۳۰۰ + ۳۰۰ ورودی، ۵۰۰ خروجی
D ۲لایه رمزگشایی۱لایه با ۵۰۰ نورون و لایه ای با ۳۰۰ نورون
نمره ۱۰۰نمره تراز بندی
w ۱۰۰ بردار بلند، وزن توجه اینها وزنه‌های "نرم" ای هستند که در حین عبور رو به جلو تغییر می‌کنند، در مقابل وزن‌های عصبی "سخت" که در مرحله یادگیری تغییر می‌کنند.
A ماژول توجه - یک شبکه کاملاً متصل که خروجی آن نمره بلند از ۱۰۰ است
H ۵۰۰*۱۰۰٬۱۰۰ بردار پنهان h به یک ماتریس متصل شده‌اند
c ۵۰۰ متن بردار بلند= h*W.

C خطی ترکیبی از بردار H با اندازه W است

این جدول محاسبات را در هر مرحله نشان می‌دهد. برای شفافیت، از مقادیر و اشکال عددی خاص به جای حروف استفاده می‌شود. اشکال تو در تو ماهیت خلاصه h را نشان می‌دهد، جایی که هر h حاوی تاریخچه ای از کلمات قبل از آن است. در اینجا، امتیازات توجه ساخته شده‌است تا وزن‌های مورد توجه را بدست آورید.

مرحله
ایکس
h, H = خروجی رمزگذاری شده

اینها ۵۰۰ * ۱ بردار هستند که به صورت شکل نشان داده می‌شوند

y i-1 =
 رمزگشایی ورودی به توجه
نمره تراز بندی شده
w=وزن توجه
c = بردار متن نوشته = H * W
y = رمزگشایی خروجی
۱ I Icon-red-diamond.png</img> = بردار رمزگذاری برای"I" - - - - -
۲ love Icon-green-square.png</img> = بردار رمزگذاری برای"I love" - - - - -
۳ you Icon-blue-circle.png</img> = بردار رمزگذاری برای"I love you" - - - - -
۴ - -
Y1هنوز وجود ندارد بنابراین ما به جای آن از این استفاده می‌کنیم





{{سخ}}Icon-blue-circle.png</img>

[.۶۳ -۳٫۲ -۲٫۵ .۵ .۵. . .] [.۹۴ .۰۲ .۰۴ ۰ ۰. . .] .۹۴ *Icon-red-diamond.png</img> + .02 *Icon-green-square.png</img> + .04 *Icon-blue-circle.png</img> je
۵ - - y 1[-۱٫۵ -۳٫۹ .۵۷ .۵ .۵. . .] [.۱۱ .۰۱ .۸۸ ۰ ۰. . .] .۱۱ *Icon-red-diamond.png</img> + .01 *Icon-green-square.png</img> + .88 *Icon-blue-circle.png</img>
t'
۶ - - y 2[-۲٫۸ .۶۴ -۳٫۲ .۵ .۵. . .] [.۰۳ .۹۵ .۰۲ ۰ ۰. . .] .۰۳ *Icon-red-diamond.png</img> + .95 *Icon-green-square.png</img> + .02 *Icon-blue-circle.png</img> aime

به عنوان یک ماتریس، وزن‌های توجه نشان می‌دهند که چگونه شبکه تمرکز خود را متناسب با زمینه تنظیم می‌کند.

I love you
je .۹۴ .۰۲ .۰۴
t' .۱۱ .۰۱ .۸۸
aime .۰۳ .۹۵ .۰۲

این دیدگاه به آدرس وزن‌های توجه مسئله " توانایی توضیح دادن " که شبکه‌های عصبی مورد انتقاد قرار می‌گیرند، می‌پردازد. شبکه‌هایی که ترجمه لفظی را بدون توجه به ترتیب کلمات انجام می‌دهند، اگر این اصطلاحات قابل تحلیل باشند، ماتریس غالب مورب دارند. تسلط خارج از مورب نشان می‌دهد که مکانیسم توجه از ظرافت بیشتری برخوردار است.

در اولین عبور از رمزگشایی، ۹۴٪ از وزن توجه به اولین کلمه انگلیسی "I" است، بنابراین شبکه کلمه "je" را ارائه می‌دهد. در قسمت دوم رمزگشایی، ۸۸٪ از وزن توجه به کلمه سوم انگلیسی "you" است، بنابراین "t" را ارائه می‌دهد. در آخرین قسمت، ۹۵٪ از وزن توجه به کلمه انگلیسی دوم "love" است، بنابراین "aime" را ارائه می‌دهد

پیوند به بیرون

  • الکس گریوز (۴ مه ۲۰۲۰) ، توجه و حافظه در یادگیری عمیق (سخنرانی ویدیویی)، DeepMind / UCL، از طریق YouTube.
  • تخته سفید الگوریتم رسا - توجه از طریق یوتیوب

منابع

  1. ↑ Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N.; Kaiser, Lukasz; Polosukhin, Illia (2017-12-05). "Attention Is All You Need". arXiv:1706.03762 [cs.CL].
  2. ↑ Ramachandran, Prajit; Parmar, Niki; Vaswani, Ashish; Bello, Irwan; Levskaya, Anselm; Shlens, Jonathon (2019-06-13). "Stand-Alone Self-Attention in Vision Models". arXiv:1906.05909 [cs.CV].
آخرین نظرات
کلیه حقوق این تارنما متعلق به فرا دانشنامه ویکی بین است.