رگرسیون چندمتغیره
مدل خطی عمومی یک مدل خطی آماری است. به شکل زیر میتوان نوشت
که در آن Y یک ماتریس با ردیفهای اندازهگیریهای چند متغیره است، X یک ماتریس است که میتواند یک ماتریس طراحی باشد، B یک ماتریس شامل متغیرهایی است که معمولاً تخمین زده میشوند و U ماتریسی است که شامل خطاها و نویز است. خطاها معمولاً نسبت به اندازهگیریها و طبق یک توزیع معمولی چندمتغیره ناهمبسته فرض میشوند. اگر که خطاها مطابق با یک توزیع معمولی چند متغیره نباشند، مدل خطی تعمیمیافته برای منطقی تر کردن فرضها در مورد Y و U مورد استفاده قرار میگیرد.
مدل خطی عمومی تعدادی از مدلهای آماری مختلف را با هم مرتبط میکند: آنالیز واریانس، آنالیز کوواریانس، آنالیز چندمتغیره واریانس، آنالیز چندمتغیره کوواریانس، رگرسیون خطی معمولی، آزمون تی استیودنت و آزمون اف. مدل خطی عمومی تعمیم یافتهای از چند مدل رگرسیون خطی در مورد بیش از یک متغیر وابسته است. اگر Y، B و U بردارهای ستون باشند، معادله ماتریس بالا بیانگر چند رگرسیون خطی خواهد بود.
آزمونهای فرضی با مدل خطی عمومی را میتوان به دو روش انجام داد: چندمتغیره یا به شکل آزمونهای متعدد تک متغیره مستقل. در آزمونهای چندمتغیره ستونهای Y با هم مورد بررسی قرار میگیرند درحالیکه در آزمونهای تک متغیره ستونهای Y مستقلاً بررسی میشوند. بهطور مثال به عنوان آزمونهای تک متغیره با ماتریس طراحی یکسان.
رگرسیون چند خطی
ساختار ریاضی مسئله
رگرسیون چند خطی تعمیمی از رگرسیون خطی است با در نظر گرفتن بیش از یک متغیر مستقل و یک مورد خاص مدلهای خطی عمومی تشکیل شده با محدود کردن تعداد متغیرهای وابسته به یک. به عنوان مثال اگر فرض کنیم متغیر ما
تخمین پارامتر بهینه از روش کمترین مربعات
در این روش برای بدست آوردن
حال گرادیان این تابع را نسبت به
با برابر قرار دادن گرادیان با صفر پارامتر بهینه بدست میآید:
پس پارامتر بهینه ما برابر است با:
تخمین پارامتر بهینه از روش گرادیان کاهشی تصادفی (Stochastic Gradient Descent)
روش پارامتر تخمین پارامتر بهینه از طریق کمترین مربعات ممکن است چند اشکال اساسی داشته باشد. یکی آنکه محاسبه
تفسیر احتمالی از طریق درست نمایی بیشینه
برای بدست آوردن پارامتر بهینه
حال باید به دنبال پارامتری باشیم که این تابع بزرگنمایی را بیشینه کند. از آنجا که تابع لگاریتم مطلقاً صعودیست، بجای بیشینه کردن این تابع لگاریتمش را هم میشود بیشنه کرد و پارامتر بهینه را از آن طریق پیدا کرد:
پارامتر بهینه از این طریق برابر است با:
همانطور که دیدم پارامتری که
تنظیم مدل (Regularization)
پیچیدگی مدلهای پارامتری با تعداد پارامترهای مدل و مقادیر آنها سنجیده میشود. هرچه این پیچیدگی بیشتر باشد خطر بیشبرازش (Overfitting) برای مدل بیشتر است. پدیده بیشبرازش زمانی رخ میدهد که مدل بجای یادگیری الگوهای داده، داده را را حفظ میکند و در عمل یادگیری به خوبی انجام نمیشود. برای جلوگیری از بیشبرازش در مدلهای خطی مانند رگرسیون خطی یا رگرسیون لجستیک جریمهای به تابع هزینه اضافه میشود تا از افزایش زیاد پارامترها جلوگیری شود. به این کار تنظیم مدل یا Regularization گفته میشود. دو راه متداول تنظیم مدلهای خطی روشهای
در تنظیم مدل به روش
این روش تنظیم مدل که به روش لاسو (Lasso) نیز شهرت دارد باعث میشود که بسیاری از پارامترهای مدل نهائی صفر شوند و مدل به اصلاح خلوت (Sparse) شود.
در تنظیم مدل به روش
در روش تنظیم از طریق
کاربردها
یک کاربرد مدل خطی عمومی در تحلیل پویشهای مغزی متعدد در آزمایشهای علمی است که Y شامل اطلاعات رسیده از پویندههای مغز است، X شامل متغیرهای تجربی طراحی و اختلالها است. بهطور معمول به روش تک متغیره آزموده میگردد (معمولاً در این پیکربندی به یک تک متغیر جرم ارجاع داده میشود) و معمولاً به نقشهبرداری متغیری آماری معروف است.
جستارهای وابسته
منابع
- ترجمه از ویکیپدیا انگلیسی
- ↑ K. V. Mardia, J. T. Kent and J. M. Bibby (1979). Multivariate Analysis. Academic Press. ISBN 0-12-471252-5.
- ↑ Rencher, Alvin C.; Christensen, William F. (2012-08-15). Methods of Multivariate Analysis (به انگلیسی). John Wiley & Sons. p. 19.
- ↑ Yan, Xin (2009). Linear Regression Analysis: Theory and Computing (به انگلیسی). World Scientific.
- ↑ Rencher, Alvin C.; Christensen, William F. (2012-08-15). Methods of Multivariate Analysis (به انگلیسی). John Wiley & Sons. p. 155.
- ↑ Bühlmann, Peter; van de Geer, Sara (2011). "Statistics for High-Dimensional Data". Springer Series in Statistics (به انگلیسی). doi:10.1007/978-3-642-20192-9. ISSN 0172-7397.
- ↑ Bühlmann, Peter; van de Geer, Sara (2011). Theory for ℓ1/ℓ2-penalty procedures (به انگلیسی). Berlin, Heidelberg: Springer Berlin Heidelberg. pp. 249–291. doi:10.1007/978-3-642-20192-9_8.
- ↑ Natarajan, B. K. (1995). "Sparse Approximate Solutions to Linear Systems". SIAM Journal on Computing (به انگلیسی). 24 (2): 227–234. doi:10.1137/s0097539792240406. ISSN 0097-5397.
- ↑ K.J. Friston, A.P. Holmes, K.J. Worsley, J. -B. Poline, C.D. Frith and R.S.J. Frackowiak (1995). "Statistical Parametric Maps in functional imaging: A general linear approach". Human Brain Mapping. 2 (4): 189–210. doi:10.1002/hbm.460020402.