رگرسیون خطی

رگرسیون خطی یا تنازل خطی یا وایازی خطی یکی از روش‌های تحلیل رگرسیون است. رگرسیون یک نوع مدل آماری‌ست برای پیش‌بینی یک متغیر از روی یک یا چند متغیر دیگر. رگرسیون خطی نوعی تابع پیش‌بینی‌کننده خطی است که در آن متغیر وابسته — متغیری که قرار است پیش‌بینی شود — به صورت ترکیبی خطی از متغیرهای مستقل پیش‌بینی می‌شود، بدین معنی که هر کدام از متغیرهای مستقل در ضریبی که در فرایند تخمین برای آن متغیر به‌دست آمده ضرب می‌شود؛ جواب نهائی مجموع حاصل‌ضرب‌ها به علاوه یک مقدار ثابت خواهد بود که آن هم در فرایند تخمین به‌دست آمده‌است. ساده‌ترین نوع رگرسیون خطی، رگرسیون خطی ساده است که بر خلاف رگرسیون خطی چندگانه، تنها یک متغیر مستقل دارد. نوع دیگر رگرسیون خطی رگرسیون خطی چندمتغیره است که در آن به جای پیش‌بینی یک متغیر وابسته چندین متغیر وابسته پیش‌بینی می‌شود.

فرایند تخمین سعی می‌کند ضرایبِ مدل رگرسیون خطی را به گونه‌ای انتخاب کند که با داده‌های موجود همخوانی داشته باشد، یعنی پیش‌بینی‌ها به مقادیر رؤیت شده در داده‌ها نزدیک باشند و یکی از مهم‌ترین مسائل در رگرسیون خطی، به حداقل رساندن اختلاف بین این دو است. راه‌های مختلفی برای حل این مسئله وجود دارد. در روش‌های احتمالی، مدل‌های رگرسیون خطی سعی در برآورد توزیع احتمال شرطیِ متغیر وابسته (و نه توزیع احتمال توأم) دارند که از آن طریق آماره‌ای از متغیر وابسته را به عنوان پیش‌بینی نهایی به‌کار می‌برند. از متداول‌ترین آماره‌های مورد استفاده میانگین است، اگر چه سایر آماره‌ها نظیر میانه یا چندک‌ها نیز مورد استفاده قرار می‌گیرند.

یکی دیگر از روش‌های متداول تخمین، روش کمترین مربعات است که در آن مجموع مربع تفاضل پیش‌بینی‌ها و داده‌های وابسته کمینه می‌شود. این روش مستلزم پیدا کردن وارونه ضرب خارجی ماتریس تمام داده‌های مستقل با ماتریس ترانهادهٔ آن است، فرآیندی که می‌تواند به علت وارونه‌ناپذیری ماتریس نهائی و کمبود داده پرهزینه و ناکارا باشد. از این رو عموماً از روش‌های جایگزین مانند گرادیان کاهشی تصادفی استفاده می‌شود. با اینکه روش کمترین مربعات از متداول‌ترین روش‌های تخمین مدل رگرسیون خطی است اما روش‌های دیگری مانند کمترین قدرمطلق‌ها (که در آن مجموع قدرمطلق تفاضل پیش‌بینی و داده وابسته به عنوان تابع هزینه در نظرگرفته می‌شود) یا تخمین جریمه یافتهٔ کمترین مربعات (مانند جریمهٔ نُرمِ $L_{2}$

و جریمهٔ نُرمِ

L_{1}

) نیز مورد استفاده قرار می‌گیرد.

روش تخمین از طریق کمترین مربعات با روش تخمین میانگین از طریق اعمال برآورد درست‌نمایی بیشینه بر متغیر وابسته شرطی با در نظر گرفتن یک سری مفروضات معادل خواهد بود. این روش احتمالی برای محافظت مدل از بیش‌برازش نیز مورد استفاده قرار می‌گیرد، به این شکل که در تخمین مدل، احتمال پسین به جای تابع درست‌نمایی بیشینه می‌شود و احتمال پیشین به پارامترهایی که نُرمِ کمتری دارند احتمال بالاتری اختصاص می‌دهد. در نتیجه مدل نهائی پارامترهایی را فراخواهد گرفت که بزرگ نیستند و این به نوبهٔ خود باعث حفاظت مدل از بیش‌برازش می‌شود. روش استفادهٔ برآورد درست‌نمایی احتمال پسین معادل روش تخمین جریمه یافتهٔ کمترین مربعات است.

رگرسیون خطی به‌طور گسترده‌ای در علوم زیستی، رفتاری، اجتماعی، دارایی، اقتصاد و محیط زیست مورد استفاده قرار می‌گیرد. همچنین رگرسیون خطی و مشتقات آن یکی از ابزارهای شناخته شده و پرکاربرد در یادگیری ماشین هستند. با وجود کاربرد زیاد رگرسیون خطی در علوم مختلف، این روش محدودیت‌هایی هم دارد. بسیاری از مسائل پژوهشی در علوم اجتماعی در قالب مدلهای رگرسیون نمی‌گنجند و یک متغیر خروجی ندارند (مانند تجزیه و تحلیل خوشه‌ای برای آشکار ساختن گروه‌های منسجم در داده‌ها). همچنین رگرسیون خطی برای پیدا کردن علّیت بین متغیرهای مستقل و وابسته ابزار مناسبی نیست.

مفاهیم

رگرسیون خطی یک مدل آماری برای پیش‌بینی یک یا چند متغیر از روی یک یا چند متغیر دیگر است. به متغیرهایی که پیش‌بینی بر روی آن انجام می‌شود متغیر وابسته و به متغیرهایی که پیش‌بینی به کمک آن‌ها انجام می‌شود متغیرهای مستقل می‌گویند. متغیرهای وابسته را معمولاً با $y$

و متغیرهای مستقل را با

x

نمایش می‌دهند. اگر تنها یک متغیر مستقل وجود داشته باشد مدل رگرسیون خطی را ساده و در غیر این صورت چندگانه می‌نامند. همچنین اگر به جای پیش‌بینی یک متغیر وابسته چندین متغیر وابسته پیش‌بینی شود، مدل رگرسیون خطی را چندمتغیره می‌نامند. واژهٔ «رگرسیون» وام‌واژه‌ای از زبان فرانسوی است و به معنی «برگشت» یا «پس‌گرایی» است؛ این واژه اولین بار توسط فرانسیس گالتون برای توصیف رابطهٔ خطی بین قد فرزندان و والدین‌شان مورد استفاده قرار گرفت. به‌طور دقیق‌تر او از اصطلاح «برگشت (رگرسیون) به میانگین» برای توصیف این رابطه استفاده کرد.

اگر فرض کنیم که تنها یک متغیر وابسته و چندین متغیر مستقل وجود داشته باشند، برای سهولت کار همهٔ متغیرهای مستقل را در یک بردار ${\vec {x}}$

می‌گنجانیم. اگر متغیر وابسته مقادیر عددی بگیرد مسئلهٔ مدل‌سازی «رگرسیون» نام می‌گیرد، و در غیر این حالت (یعنی وقتی متغیر وابسته رسته‌ای باشد) به آن «دسته‌بندی آماری» گفته می‌شود.

تاریخچه

استفاده از رگرسیون خطی از قرن نوزدهم میلادی شروع شد. اولین بار رگرسیون خطی در قالب کمترین مربعات و در کارهای آدرین ماری لژاندر و کارل فریدریش گاوس ارائه شد. این دو مستقل از یکدیگر و با استفاده از رگرسیون خطی، حرکت سیارات و ستاره‌های دنباله‌دار را پیش‌بینی کردند. گاوس بعدها نظریهٔ کمترین مربعات و قضیه گاوس-مارکوف را در سال ۱۸۲۱ منتشر کرد. کارل پیرسون بعدتر روش گاوس را توسعه داد. او توزیع احتمال مشترک متغیر وابسته و متغیرهای مستقل را توزیع گاوسی فرض کرد. رانلد فیشر اما بعد از او نشان داد که توزیع احتمال شرطی متغیر وابسته به شرط متغیرهای مستقل باید توزیع گاوسی باشد و نه توزیع احتمال مشترک آنها.

استفاده از واژه رگرسیون به اواخر قرن نوزدهم بر می‌گردد. در آن زمان فرانسیس گالتون برای پیدا کردن رابطهٔ قد فرزندان و والدین از روش رگرسیون استفاده کرد. داده‌ها به او نشان دادند که والدین بلند قد معمولاً فرزندان کوتاه‌قدتری نسبت به خود دارند و بالعکس. او این رابطه را با یک خط نشان داد (که با یک شیب و یک عرض از مبدأ تعریف می‌شد). اگر چه این خط تمام داده‌ها را بر روی خود نمی‌گنجاند ولی میانگین قد فرزندان را بر حسب قد والدینی که قد یکسانی داشتند تخمین می‌زد. اصطلاح رگرسیون در ابتدا فقط برای روش تخمین قد فرزندان از روی قد والدین به کار می‌رفت ولی به تدریج عمومیت پیدا کرد و برای تخمین میانگین یک متغیر وابسته با استفاده از ترکیب خطی چندین متغیر مستقل به کار برده شد.

از لحاظ تاریخی رگرسیون خطی معمولاً از روش کمترین مربعات یا استنباط فراوانی گرایانه تخمین زده می‌شد ولی بعدها روشهای دیگری نیز مورد استفاده قرار گرفت. کاربرد اولیهٔ رگرسیون خطی در علوم پایه و علوم تجربی بود و آدولف کوتله استفاده از این روش را در علوم اجتماعی متداول کرد و گسترش داد.

در دهه‌های ۱۹۵۰ و ۱۹۶۰ اقتصاددانان از ماشین‌حساب الکترومکانیکی برای تخمین مدل رگرسیون خطی استفاده می‌کردند. قبل از دههٔ ۱۹۷۰، گاهی یک شبانه‌روز ساعت طول می‌کشد تا نتیجه یک رگرسیون دریافت شود.

پیش‌فرض‌ها

معمولاً چند پیش‌فرض برای استفاده از رگرسیون خطی در نظر گرفته می‌شود. اگر اختلاف بین متغیر وابسته و پیش‌بینی مدل را «خطا» یا «مانده» بنامیم، آنگاه مفروضات زیر باید در مدل‌سازی رگرسیون خطی برقرار باشند:

مانده‌ها از یک توزیع طبیعی پیروی می‌کنند. این پیش‌فرض به این معنی است که توزیع مشروط متغیرهای وابسته یک توزیع طبیعی است. این پیش‌فرض برای کمترین مربعات ضروری است ولی در رگرسیون چندک یا رگرسیون میانه می‌توان این پیش فرض را نقض کرد.
مانده‌ها از هم مستقل هستند. این پیش‌فرض متغیرهای مانده (و در نتیجه متغیرهای وابسته) را نسبت به هم مستقل می‌داند. برخی از روشها مانند کمترین مربعات تعمیم یافته قادر به کار با مانده‌های همبسته هستند، گرچه به‌طور معمول به داده‌های بیشتری برای این کار نیاز هست، مگر اینکه از تنظیم مدل استفاده شود. رگرسیون خطی بیز یک روش کلی برای حل این مشکل است.
واریانس مانده‌ها ثابت است. این پیش‌فرض مقادیر مانده‌ها (و در نتیجه متغیرهای وابسته) را دارای واریانس ثابت می‌داند. در عمل، این فرض معمولاً نامعتبر است و مانده‌ها ناهمگن هستند. در رگرسیون چندک می‌توان این فرض را نقض کرد.
بین متغیرهای مستقل هم‌خطی وجود ندارد. مفهوم این پیش‌فرض این است که ماتریس متغیرهای مستقل تمام رتبه باشد. اگر این شرط برقرار نباشد بعضی از متغیرهای مستقل ترکیبی خطی از یک یا چند متغیر خطی دیگر خواهند بود. تعداد کم داده می‌تواند این پیش‌فرض را نقض کند به خصوص زمانی که تعداد داده‌ها کمتر از تعداد پارامترهای مدل رگرسیون خطی (تعداد ضرایب رگرسیون خطی) باشد.
رابطه بین میانگین متغیر وابسته و متغیرهای مستقل خطی است. این پیش‌فرض بدان معنی است که میانگین متغیر وابسته، ترکیبی خطی از پارامترها (ضرایب رگرسیون) و متغیرهای مستقل است. این پیش‌فرض محدودیت زیادی ایجاد نمی‌کند زیرا خطی بودن فقط یک محدودیت برای پارامترها است. در رگرسیون خطی تعمیم یافته می‌توان چندین متغیر جدید را از ترکیب متغیرهای مستقل ایجاد کرد، یا در رگرسیون چند جمله‌ای ساده، متغیر وابسته را ترکیبی چند جمله‌ای از متغیر مستقل در نظر گرفت. معمولاً برای جلوگیری از بیش‌برازش و پیچیدگی مدل‌های رگرسیون خطی تعمیم یافته نیاز به تنظیم مدل هست.

تخمین پارامترها

فرق رگرسیون خطی با سایر مدل‌های رگرسیون در این است که در این مدل رابطهٔ بین متغیرهای مستقل و متغیر وابسته یک رابطهٔ خطی فرض می‌شود. رگرسیون خطی، که خود نوعی تابع پیش‌بینی‌کنندهٔ خطی است، پیش‌بینی متغیر وابسته را از حاصل‌جمع ضرب متغیرهای مستقل در یک سری ضرایب به‌دست می‌آورد. در رگرسیون خطی ساده که تنها یک متغیر مستقل وجود دارد، پیش‌بینی متغیر وابسته شکل یک خط مستقیم به خود می‌گیرد؛ در رگرسیون خطی با دو متغیر شکل پیش‌بینی یک صفحه خواهد بود، و در رگرسیون خطی با بیش از دو متغیر مستقل پیش‌بینی متغیر وابسته به صورت یک اَبَرصفحه خواهد بود.

رگرسیون خطی ساده

رگرسیون خطی ساده میزان اثر یک متغیر مستقل بر یک متغیر وابسته را می‌سنجد و همبستگی رابطهٔ بین آن‌ها را مورد سنجش قرار می‌دهد.

مثلاً تحلیل رگرسیونی سادهٔ زیر با $N$

نقطه، متغیر مستقل

x_{i}

و ضرایب

\beta _{0}

و

\beta _{1}

خطی است:

خط راست:

y_{i}=\beta _{0}+\beta _{1}x_{i}+\epsilon _{i},\quad i=1,\dots ,N\!

در عبارت پیشین $\epsilon _{i}$

مقدار خطاست و پانویس

i

شمارهٔ هر مشاهده (هر جفت

x_{i}

و

y_{i}

) را نشان می‌دهد. با داشتن مجموعه‌ای از این نقطه‌ها می‌توان مدل را به دست آورد:

$y_{i}={\widehat {\beta }}_{0}+{\widehat {\beta }}_{1}X_{i}+e_{i}$

عبارت $e_{i}$

«مانده» نام دارد و تخمینی است از اختلاف بین مقدار محاسبه شده و مقدار واقعی متغیر وابسته:

e_{i}=y_{i}-{\widehat {y}}_{i}

. برای تخمین این مدل رگرسیون باید سه پارامتر تخمین زده بشوند: دو ضریب

\beta _{0}

و

\beta _{1}

و مانده (

e_{i}

). روش رایج برای به‌دست‌آوردن پارامترها، روش کمترین مربعات است. در این روش پارامترها را با کمینه‌کردن مجموع مربعات خطا به دست می‌آورند:

$\mathrm {SSE} =\sum _{i=1}^{N}e_{i}^{2}$

در مورد رگرسیون ساده، پارامترها با این روش برابر خواهند بود با:

{\hat {\beta _{1}}}={\frac {\sum _{i=1}^{N}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{\sum _{i=1}^{N}(x_{i}-{\bar {x}})^{2}}}

{\hat {\beta _{0}}}={\bar {y}}-{\hat {\beta _{1}}}{\bar {x}}

که در آن ${\bar {x}}$

و

{\bar {y}}

میانگین

x

و

y

هستند.

تفاوت رگرسیون و همبستگی

معمولاً زمانی می‌توان از رگرسیون استفاده کرد که یک همبستگی بین متغیرهای مستقل و وابسته وجود داشته باشد. این همبستگی را می‌توان به عنوان مثال از ضریب همبستگی پیرسن که عددی در بازه $[-1,\,+1]$

است به‌دست‌آورد. ضریب همبستگی مثبت به این معنی است که با افزایش یک متغیر، متغیر دیگر هم افزایش می‌یابد و بالعکس، اما ضریب همبستگی منفی نشان‌دهنده رابطه معکوس بین دو متغیر است یعنی با افزایش یکی دیگری کاهش می‌یابد و بالعکس. ضریب صفر به این معنی است که هیچ رابطه‌ای بین دو متغیر نیست و دو متغیر نسبت به هم مستقلند.

هدف مدل‌های همبستگی بررسی میزان رابطهٔ دو یا چند متغیر است. رگرسیون اما به دنبال پیش‌بینی یک یا چند متغیر براساس یک یا چند متغیر دیگر است. به بیان دیگر، همبستگی میزان و شدت رابطهٔ متغیرها را نشان می‌دهد اما رگرسیون معادله‌ای را برای پیش‌بینی متغیرها ارائه می‌کند.

آنچه در خروجی نتایج رگرسیون و همبستگی باعث ایجاد تفاوت می‌شود آن است که در همبستگی همیشه اثرات متغیرها به صورت دو به دو مورد سنجش قرار می‌گیرد اما در یک مدل رگرسیون اثرات متغیرها به صورت همزمان بررسی می‌شود. یعنی در همبستگی رابطه متغیر $X$

با متغیر

Y

به وجود یا عدم وجود متغیر

Z

ارتباطی ندارد اما اما در رگرسیون تأثیر متغیر

X

بر متغیر

Y

به وجود یا عدم وجود متغیر

Z

بستگی دارد (به شرط آن که متغیر

Z

هم در مدل رگرسیون به کار گرفته شود؛ چنین مدل رگرسیون خطی را «چندگانه» می‌نامند).

رگرسیون خطی چندگانه

صورت مسئله

رگرسیون خطی در این شکل صفحه‌ای است که مجموع فواصل نقطه‌های قرمز تا صفحه را به حداقل می‌رساند.

در بسیاری از مسائل رایج رگرسیون، ورودی چندمتغیره است. اگر فرض کنیم متغیر ما $m$

بُعد دارد، یعنی

{\vec {x}}=[x_{1},x_{2},\dots ,x_{m}]

، مسئلهٔ رگرسیون به یک مسئلهٔ بهینه‌سازی برای پیدا کردن

m+1

پارامتر تبدیل می‌شود، به این معنی که ما یک پارامتر چندمتغیره به اسم

{\vec {\beta }}=[\beta _{0},\beta _{1},\cdots ,\beta _{m}]

داریم و سعی می‌کنیم که متغیر وابسته که همان

y

است را با بردار ${\vec {x}}$ ، تخمین بزنیم که یعنی

y\approx \beta _{0}+\sum _{i=1}^{m}\beta _{i}\times x_{i}

. حال اگر یک بعد دیگر به متغیر ${\vec {x}}$ اضافه کنیم و مقدارش را همیشه عدد ثابت

1

در نظر بگیریم (

x_{0}=1

) و ${\vec {x}}$ را به صورتِ

{\vec {x}}=[1,x_{1},x_{2},\dots ,x_{m}]

تغییر دهیم، تخمینی که از $y$ داریم در واقع ضرب نقطه‌ای بردار ورودی و بردار پارامترهای ماست یعنی

y\approx \sum _{i=0}^{m}\beta _{i}\times x_{i}={\vec {\beta }}\,\,.\,{\vec {x}}

. حال فرض کنیم که تعداد مثال‌هایی که قرار است برای تخمین پارامترها استفاده کنیم

n

است و این مثال‌ها را به این شکل نمایش دهیم

D=({\vec {x_{1}}},y_{1}),\cdots ({\vec {x_{n}}},y_{n})

. در چنین مدلی پارامتر بهینه آن پارامتری است که یک تابع هزینه را به حداقل برساند و تخمین‌های ما را به متغیر وابسته بسیار نزدیک کند. تابع هزینه را با جمع مربع تفاضل تخمین‌ها با متغیر وابسته تعریف می‌کنیم، به این شکل که

L(D,{\vec {\beta }})=\sum _{i=1}^{n}({\vec {\beta }}\,.\,{\vec {x_{i}}}-y_{i})^{2}

، و با این حساب پارامتر بهینه عبارت است از:

${\vec {\hat {\beta }}}={\underset {\vec {\beta }}{\mbox{arg min}}}\,L(D,{\vec {\beta }})={\underset {\vec {\beta }}{\mbox{arg min}}}\sum _{i=1}^{n}({\vec {\beta }}\,.\,{\vec {x_{i}}}-y_{i})^{2}$

کمترین مربعات

تصویرگری از فرانسیس گالتون در سال ۱۸۷۵ که ارتباط بین قد فرزندان و والدین آنها را نشان می‌دهد. گالتون رابطه بین این دو داده را با یک خط نشان می‌دهد (که با یک شیب و یک عرض از مبدأ تعریف می‌شد) و بر آن نامِ «برگشت (رگرسیون) به میانگین» می‌نهد. اگر چه این خط تمام داده‌ها را بر روی خود نمی‌گنجاند ولی میانگین قد فرزندان را بر حسب قد والدینی که قد یکسانی داشتند تخمین می‌زد. بیضی‌ای که در شکل دیده می‌شود سطح مقطع توزیع مشترک قد فرزندان و والدینشان را نشان می‌دهد که توسط یک توزیع طبیعی دو متغیره تخمین زده شده‌است. خطی که بر روی آن «locus of horizontal tangential points» نوشته شده قد فرزندان را از روی قد والدینشان از طریق کمترین مربعات تخمین می‌زند و خط «locus of vertical tangential points» بالعکس عمل می‌کند، به این معنی که قد والدین را از طریق قد فرزندانش محاسبه می‌کند.

در این روش برای به‌دست آوردن ${\vec {\hat {\beta }}}$

یا همان پارامتر بهینه، از تابع

L(D,{\vec {\beta }})

نسبت به

{\vec {\beta }}

گرادیان می‌گیریم و این گرادیان را برابر صفر قرار می‌دهیم و پارامتر بهینه را به‌دست می‌آوریم. از آنجا که تابع

L(D,{\vec {\beta }})

نسبت به

{\vec {\beta }}

تابعی کاملاً محدب است، در نقطهٔ کمینهٔ این تابع، گرادیان صفر خواهد بود و این روش پارامتر بهینه را به‌دست می‌دهد. برای تسهیل کار، شکل تابع را با به‌کارگیری چند ماتریس ساده می‌کنیم. دو ماتریس برای این کار نیاز داریم: ماتریس

X

و ماتریس

Y

. ماتریس

X

ماتریس ورودیهای چندمتغیرهٔ ماست. در این ماتریس هر سطر معادل یک نمونه از دادهٔ ماست، مثلاً سطر

i

ام برابر است با

i

امین نمونه ورودی ما یعنی بردار

{\vec {x_{i}}}

، از اینرو

X

یک ماتریس

n\times (m+1)

خواهد بود. ماتریس

Y

از طرف دیگر برابر است با مجموعه متغیرهای وابسته در دادهٔ ما. سطر

i

ام این ماتریس برابر است با متغیر وابسته برای

i

امین نمونهٔ داده ما یا همان

y_{i}

. ماتریس

Y

یک ماتریس

n\times 1

است. با کمک این دو ماتریس می‌توان تابع هزینه را به شکل ذیل تعریف کرد:

${\begin{aligned}L(D,{\vec {\beta }})&=||X{\vec {\beta }}-Y||^{2}\\&=(X{\vec {\beta }}-Y)^{\top }(X{\vec {\beta }}-Y)\\&=Y^{\top }Y-Y^{\top }X{\vec {\beta }}-{\vec {\beta }}^{\top }X^{\top }Y+{\vec {\beta }}^{\top }X^{\top }X{\vec {\beta }}\end{aligned}}$

حال گرادیان این تابع را نسبت به ${\vec {\beta }}$

پیدا می‌کنیم که می‌شود:

${\begin{aligned}{\frac {\partial L(D,{\vec {\beta }})}{\partial {\vec {\beta }}}}&={\frac {\partial \left(Y^{\top }Y-Y^{\top }X{\vec {\beta }}-{\vec {\beta }}^{\top }X^{\top }Y+{\vec {\beta }}^{\top }X^{\top }X{\vec {\beta }}\right)}{\partial {\vec {\beta }}}}\\&=-2X^{\top }Y+2X^{\top }X{\vec {\beta }}\end{aligned}}$

با برابر قرار دادن گرادیان با صفر پارامتر بهینه به‌دست می‌آید:

${\begin{aligned}-2X^{\top }Y&+2X^{\top }X{\vec {\beta }}=0\\&\Rightarrow X^{\top }Y=X^{\top }X{\vec {\beta }}\\&\Rightarrow {\vec {\hat {\beta }}}=(X^{\top }X)^{-1}X^{\top }Y\end{aligned}}$

در روش کمترین مربعات معمولاً برای جلوگیری از از بیش‌برازش یا مقابله با مشکل عدم وارونپذیریِ $X^{\top }X$

از روش تنظیم تیخونوف، کمترین مربعات جزئی، یا رگرسیون مؤلفه‌های اصلی استفاده می‌شود.

کمترین مربعات جزئی

کمترین مربعات جزئی یکی از روش‌های جلوگیری از از بیش‌برازش یا مقابله با مشکل عدم وارونپذیریِ $X^{\top }X$

است. این روش متناوباً مولفه‌هایی متعامد (

Z_{i}\in \mathbb {R} ^{n}

در پایین) که ترکیبی خطی از مقادیر متغیرهای مستقل (

X_{j}\in \mathbb {R} ^{n}

در پایین) هستند تولید می‌کند و در نهایت راه حل کمترین مربعات را بر روی این بردارها اعمال می‌کند. ضرایب این مولفه‌ها با ضرب نقطه‌ایِ مقادیر متغیرهای وابسته و مستقل برابر است. مقادیر متغیرهای مستقل در ابتدای کار استاندارد شده‌اند به این معنی که میانگین صفر و واریانس یک دارند. در پایان هر مرحله مقادیر متغیرهای مستقل نسبت به مولفه آن مرحله متعامد می‌شوند. این کار باعث می‌شود که در پایان تمام مولفه‌ها نسبت به هم متعامد باشند و ضریب رگرسیون مولفه

{Z_{i}}

با

{\langle Z_{i}\,,\,{Y}\rangle }/{\langle Z_{i}\,,\,Z_{i}\rangle }

برابر باشد. الگوریتم تولید مولفه‌ها برای

k\leq m

به شکل پایین است (

k

از روش اعتبارسنجی متقابل محاسبه می‌شود):

${\begin{cases}\,\,{\mbox{ for }}\,\,j\,\,=\,\,1,\cdots ,m:\\\,\,\,\,\,\,\,\,\,\,{X}_{j}^{(0)}={X}_{j}\\\,\,{\mbox{ for }}\,\,i=\,\,1,\cdots ,k:\\\,\,\,\,\,\,\,\,\,\,{Z}_{i}=\sum _{j=1}^{m}\left\langle {X}_{j}^{(i-1)},{Y}\right\rangle {X}_{j}^{(i-1)}\\\,\,\,\,\,\,\,\,\,{\mbox{ for }}\,\,j\,\,=\,\,1,\cdots ,m:\\\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,{X}_{j}^{(i)}={X}_{j}^{(i)}-{\frac {\langle {Z}_{i}\,,\,{Y}\rangle }{\langle {Z}_{i}\,,\,{Z}_{i}\rangle }}{Z}_{i}\\\,\,{\hat {Y}}={\bar {Y}}\mathbf {1} +\sum _{i=1}^{k}{\frac {\langle {Z}_{i}\,,\,{Y}\rangle }{\langle {Z}_{i}\,,\,{Z}_{i}\rangle }}{Z}_{i}\\\end{cases}}$

از آنجا که ${\hat {Y}}$

یا همان مقدار پیش‌بینی شده، ترکیبی خطی از

{Z}_{i}

‌ها است و خود

{Z}_{i}

‌ها هم ترکیبی خطی از مقادیر متغیرهای مستقل هستند، در نهایت مدل رگرسیون ترکیبی خطی از مقادیر متغیرهای مستقل خواهد بود.

گرادیان کاهشی تصادفی

روش پارامتر تخمین پارامتر بهینه از طریق کمترین مربعات ممکن است چند اشکال اساسی داشته باشد. یکی آنکه محاسبهٔ $(X^{\top }X)^{-1}$

ممکن است زمانبر باشد. بُعدِ ماتریس مربعی

X^{\top }X

برابر است با

(m+1)\times (m+1)

و اگر مقدار

m

زیاد باشد زمان محاسبه معکوس این ماتریس می‌تواند مسئله ساز شود. به علاوه این ماتریس ممکن است اساساً معکوس پذیر نباشد. از این رو روش‌های کاراتر و سریعتری برای تخمین پارامتر بهینه مورد استفاده قرار می‌گیرد. یکی از این روش‌ها روش گرادیان کاهشی تصادفی است. در این روش هر بار یک مثال را به‌صورت اتفاقی از نمونه‌های داده انتخاب کرده، گرادیان تابع هزینه را حساب می‌کنیم و کمی در جهت خلاف گرادیان پارامتر را حرکت می‌دهیم تا به یک پارامتر جدید برسیم. گرادیان جهت موضعی بیشترین افزایش را در تابع به ما نشان می‌دهد، برای بیشترین کاهش موضعی در خلاف جهت گرادیان باید حرکت کرد. اینکار را آنقدر ادامه می‌دهیم که گرادیان به اندازه کافی به صفر نزدیک شود. به‌جای اینکه داده‌ها را به‌صورت تصادفی انتخاب کنیم می‌توانیم به ترتیب داده شماره

1

تا داده شماره

n

را انتخاب کنیم و بعد دوباره به داده اولی برگردیم و این کار را چندین بار تکرار کنیم تا گرادیان تابع به اندازهٔ کافی به صفر نزدیک شود. از لحاظ ریاضی این کار را می‌توان به شکل پایین انجام داد: پارامتر

{\vec {\beta }}

را در ابتدا به‌صورت تصادفی مقدار دهی می‌کنیم و بعد برای داده

i

ام و تمامی

j

‌ها، یعنی از

j=1

تا

j=m+1

تغییر پایین را اعمال می‌کنیم، دراینجا

\alpha

همان مقداری است که در جهت گرادیان هربار حرکت می‌کنیم و

\left(y_{i}-{\vec {x_{i}}}.{\vec {\beta }}\right){\vec {x_{i,j}}}

مشتق جزئی داده

i

ام در بُعد

j

ام است:

${\begin{cases}{\mbox{Initialize}}\,\,{\vec {\beta ^{\,old}}}\,\,{\mbox{randomly}}\\{\mbox{loop until convergence :}}\\\,\,{\mbox{for}}\,\,\,\,i=0\,\,\,\,{\mbox{to}}\,\,\,\,n:\\\,\,\,\,\,\,{\mbox{for}}\,\,\,\,j=0\,\,\,\,{\mbox{to}}\,\,\,\,m:\\\,\,\,\,\,\,\,\,\,\,\,\,{\vec {\beta _{j}^{\,new}}}={\vec {\beta _{j}^{\,old}}}+\alpha \left(y_{i}-{\vec {\beta ^{\,old}}}\,.\,{\vec {x_{i}}}\right){\vec {x_{i,j}}}\\\,\,\,\,\,\,\beta ^{\,old}=\beta ^{\,new}\end{cases}}$

برآورد درست‌نمایی بیشینه

همچنان که پیشتر گفته شد، برای به‌دست آوردن پارامتر بهینه ${\vec {\hat {\beta }}}$

می‌بایست تابع هزینه یعنی

L(D,{\vec {\beta }})

را به حداقل برسانیم. می‌توان به همین پارامتر بهینه از روش برآورد درست‌نمایی بیشینه هم رسید. فرض می‌کنیم که متغیر وابسته یعنی

y

یک متغیر تصادفی است که مقدارش از یک توزیع طبیعی (توزیع گاوسی) پیروی می‌کند. این توزیع احتمال، واریانس ثابتی به اسم

\sigma

دارد ولی میانگین آن ترکیبی خطی از متغیرهای مستقل یعنی

{\vec {x}}=[1,x_{1},x_{2},\dots ,x_{m}]

است. به عبارت دیگر میانگین آن برابر است با

{\vec {\beta }}\,.\,{\vec {x}}

. با احتساب میانگین و واریانس، توزیع متغیر وابسته عبارت است از

y\sim N({\vec {\beta }}\,.\,{\vec {x}},\sigma )

. حال اگر فرض کنیم داده‌ها نسبت به یکدیگر مستقل هستند آن گاه تابع درست‌نمایی برای تمام داده‌ها می‌شود:

${\begin{aligned}H(D,{\vec {\beta }})&=\prod _{i=1}^{n}Pr(y_{i}|{\vec {x_{i}}}\,\,;{\vec {\beta }},\sigma )\\&=\prod _{i=1}^{n}{\frac {1}{{\sqrt {2\pi }}\sigma }}\exp \left(-{\frac {\left(y_{i}-{\vec {\beta }}\,.\,{\vec {x_{i}}}\right)^{2}}{2\sigma ^{2}}}\right)\end{aligned}}$

حال باید به دنبال پارامتری باشیم که این تابع بزرگنمایی را بیشینه کند. از آنجا که تابع لگاریتم مطلقاً صعودیست، به‌جای بیشینه کردن این تابع لگاریتمش را هم می‌شود بیشینه کرد و پارامتر بهینه را از آن طریق پیدا کرد:

${\begin{aligned}I(D,{\vec {\beta }})&=\log \prod _{i=1}^{n}Pr(y_{i}|{\vec {x_{i}}}\,\,;{\vec {\beta }},\sigma )\\&=\log \prod _{i=1}^{n}{\frac {1}{{\sqrt {2\pi }}\sigma }}\exp \left(-{\frac {\left(y_{i}-{\vec {\beta }}\,.\,{\vec {x_{i}}}\right)^{2}}{2\sigma ^{2}}}\right)\\&=n\log {\frac {1}{{\sqrt {2\pi }}\sigma }}-{\frac {1}{2\sigma ^{2}}}\sum _{i=1}^{n}\left(y_{i}-{\vec {\beta }}\,.\,{\vec {x_{i}}}\right)^{2}\end{aligned}}$

پارامتر بهینه از این طریق برابر است با:

${\begin{aligned}{\underset {\vec {\beta }}{\mbox{arg max}}}\,I(D,{\vec {\beta }})&={\underset {\vec {\beta }}{\mbox{arg max}}}\left(n\log {\frac {1}{{\sqrt {2\pi }}\sigma }}-{\frac {1}{2\sigma ^{2}}}\sum _{i=1}^{n}\left(y_{i}-{\vec {\beta }}\,.\,{\vec {x_{i}}}\right)^{2}\right)\\&={\underset {\vec {\beta }}{\mbox{arg min}}}\sum _{i=1}^{n}\left(y_{i}-{\vec {\beta }}\,.\,{\vec {x_{i}}}\right)^{2}\\&={\underset {\vec {\beta }}{\mbox{arg min}}}\,L(D,{\vec {\beta }})\\&={\vec {\hat {\beta }}}\end{aligned}}$

به این ترتیب پارامتری که $I(D,{\vec {\beta }})$

را بیشینه می‌کند همان پارامتری است که

L(D,{\vec {\beta }})

را به حداقل می‌رساند. این یعنی در رگرسیون خطی نتیجهٔ روش کمترین مربعات با روش برآورد درست‌نمایی بیشینه یکی است.

تنظیم مدل

پیچیدگی مدل‌های پارامتری با تعداد پارامترهای مدل و مقادیر آن‌ها سنجیده می‌شود. هرچه این پیچیدگی بیشتر باشد خطر بیش‌برازش برای مدل بیشتر است. پدیدهٔ بیش‌برازش زمانی رخ می‌دهد که مدل به‌جای یادگیری الگوهای موجود در داده، خود داده را به خاطر می‌سپارد. در این حالت، مدل برای آن مجموعه دادهٔ به‌خصوص خوب عمل می‌کند اما برای داده‌های مشابه دیگر عملکرد خوبی ندارد، که یعنی عمل یادگیری به خوبی انجام نشده‌است. برای جلوگیری از بیش‌برازش در مدل‌های خطی مانند رگرسیون خطی یا رگرسیون لجستیک، یک «جریمه» به تابع هزینه اضافه می‌شود تا از افزایش زیاد پارامترها جلوگیری شود. به این کار تنظیم مدل گفته می‌شود. دو راه متداول تنظیم مدل‌های خطی روش‌های $L_{1}$

و

L_{2}

هستند. در روش

L_{1}

ضریبی از نُرمِ

L_{1}

به تابع هزینه اضافه می‌شود و در روش

L_{2}

ضریبی از نُرمِ

L_{2}

که همان نُرمِ اقلیدسی است به تابع هزینهٔ اضافه می‌شود. نام روش‌های

L_{1}

و

L_{2}

از نُرمی که در این روش‌ها به تابع هزینه اضافه می‌شود گرفته شده‌است.

در تنظیم مدل به روش $L_{1}$

تابع هزینه را به این شکل تغییر می‌دهیم:

{\begin{aligned}L_{r}(D,{\vec {\beta }})&=L(D,{\vec {\beta }})+\lambda ||{\vec {\beta }}||_{1}\\&=\sum _{i=1}^{n}({\vec {\beta }}\,.\,{\vec {x_{i}}}-y_{i})^{2}+\lambda \sum _{k=0}^{m}|\beta _{k}|\end{aligned}}

این روش تنظیم مدل که به روش لَسو نیز شهرت دارد باعث می‌شود که بسیاری از پارامترهای مدل نهائی صفر شوند و مدل به اصلاح خلوت شود.

در تنظیم مدل به روش $L_{2}$

که به رگرسیون ستیغی نیز شهرت دارد تابع هزینه را به این شکل تغییر می‌دهیم:

{\begin{aligned}L_{r}(D,{\vec {\beta }})&=L(D,{\vec {\beta }})+\lambda ||{\vec {\beta }}||_{2}^{2}\\&=\sum _{i=1}^{n}({\vec {\beta }}\,.\,{\vec {x_{i}}}-y_{i})^{2}+\lambda \sum _{k=0}^{m}\beta _{k}^{2}\end{aligned}}

در روش تنظیم از طریق $L_{2}$

سعی می‌شود طول اقلیدسی بردار

{\vec {\beta }}

کوتاه نگه داشته شود.

\lambda

در هر دو روش

L_{1}

و

L_{2}

یک عدد مثبت است که میزان تنظیم مدل را معین می‌کند. هرچقدر

\lambda

کوچکتر باشد جریمهٔ کمتری برای بزرگی نرم بردار پارامترها یعنی

{\vec {\beta }}

محاسبه می‌شود. مقدار بهینهٔ

\lambda

از طریق آزمایش بر روی بخشی از داده‌ها پیدا می‌شود که در یادگیری مدل دخالت داده نشده‌اند؛ به این بخش از داده‌ها، دادهٔ اعتبار یا مجموعهٔ اعتبارسنجی گفته می‌شود.

با استفاده از ضرایب لاگرانژ می‌توان اثبات کرد که تنظیم مدل $L_{1}$

و

L_{2}

نوعی بهینه‌سازی مقید هستند. در تنظیم مدل

L_{1}

تابع هزینه به نحوی کمینه می‌شود که نرمِ

L_{1}

از یک مقدار مشخصی که بستگی به

\lambda

دارد بیشتر نشود. به همین نحو، تنظیم مدل

L_{2}

تابع هزینه را همزمان با مقید کردن نرم

L_{2}

کاهش می‌دهد.

کانتورهای قرمز تابع هزینه را نمایش می‌دهند و اشکال آبی مقید سازی نرم پارامتر را. شکل سمت چپ مربوط به

L_{1}

است که پارامتر

\beta

با نابرابری

|\beta _{1}|+|\beta _{2}|\leq t

مقید شده‌است و شکل سمت راست مربوط به

L_{2}

است که پارامتر آن با نابرابری

\beta _{1}^{2}+\beta _{2}^{2}\leq t^{2}

مقید شده‌است.

تفسیر احتمالی تنظیم مدل

اگر به جای روش برآورد درست‌نمایی بیشینه از روش بیشینه‌سازی احتمال پسین استفاده شود ساختار «تنظیم مدل» به دست می‌آید. اگر مجموعهٔ داده را با $D$

و پارامتری که به دنبال تخمین آن هستیم را با

{\vec {\beta }}

نمایش بدهیم، طبق قانون بیز احتمال پسین یعنی

Pr\left({\vec {\beta }}\,|\,D\right)

متناسب خواهد بود با حاصلضرب درست‌نمایی یعنی

Pr\left(D\,|\,{\vec {\beta }}\right)

و احتمال پیشین یعنی

Pr\left({\vec {\beta }}\right)

:

$Pr\left({\vec {\beta }}\,|\,D\right)={\frac {Pr\left(D\,|\,{\vec {\beta }}\right)\times Pr\left({\vec {\beta }}\right)}{Pr\left(D\right)}}$

از این رو:

${\begin{aligned}{\underset {\vec {\beta }}{\mbox{arg max}}}\,Pr\left({\vec {\beta }}\,|\,D\right)&={\underset {\vec {\beta }}{\mbox{arg max}}}\,{\frac {Pr\left(D\,|\,{\vec {\beta }}\right)\times Pr\left({\vec {\beta }}\right)}{Pr\left(D\right)}}\\&={\underset {\vec {\beta }}{\mbox{arg max}}}\,Pr\left(D\,|\,{\vec {\beta }}\right)\times Pr\left({\vec {\beta }}\right)\end{aligned}}$

معادلهٔ خط پیشین نشان می‌دهد که برای یافتن پارامتر بهینه فقط کافیست که احتمال پیشین را نیز در معادله دخیل کنیم. اگر احتمال پیشین را یک توزیع گاوسی با میانگین صفر و کوواریانس $\tau ^{2}I$

در نظر بگیریم به معادلهٔ پایین می‌رسیم:

${\begin{aligned}{\underset {\vec {\beta }}{\mbox{arg max}}}\,\,\log Pr\left(D\,|\,{\vec {\beta }}\right)&={\underset {\vec {\beta }}{\mbox{arg max}}}\,\,\log \prod _{i=1}^{n}Pr(y_{i}|{\vec {x_{i}}}\,\,;{\vec {\beta }},\sigma )Pr\left({\vec {\beta }}\right)\\&={\underset {\vec {\beta }}{\mbox{arg max}}}\,\,\log \prod _{i=1}^{n}{\frac {1}{{\sqrt {2\pi }}\sigma }}\exp \left(-{\frac {\left(y_{i}-{\vec {\beta }}\,.\,{\vec {x_{i}}}\right)^{2}}{2\sigma ^{2}}}\right){\frac {1}{{\sqrt {2\pi }}\tau }}\exp \left(-{\frac {||{\vec {\beta }}||^{2}}{2\tau ^{2}}}\right)\end{aligned}}$

با ساده کردن این معادله به جواب زیر می‌رسیم که در آن $\lambda$

برابر است با

{\frac {\sigma ^{2}}{\tau ^{2}}}

:

${\begin{aligned}{\underset {\vec {\beta }}{\mbox{arg max}}}\,\,Pr\left(D\,|\,{\vec {\beta }}\right)&={\underset {\vec {\beta }}{\mbox{arg max}}}\left(n\log {\frac {1}{{\sqrt {2\pi }}\sigma }}-{\frac {1}{2\sigma ^{2}}}\sum _{i=1}^{n}\left(y_{i}-{\vec {\beta }}\,.\,{\vec {x_{i}}}\right)^{2}+\log {\frac {1}{{\sqrt {2\pi }}\tau }}-{\frac {1}{2\tau ^{2}}}||{\vec {\beta }}||^{2}\right)\\&={\underset {\vec {\beta }}{\mbox{arg min}}}\left(\sum _{i=1}^{n}\left(y_{i}-{\vec {\beta }}\,.\,{\vec {x_{i}}}\right)^{2}+\lambda ||{\vec {\beta }}||^{2}\right)\end{aligned}}$

این جواب برابر با نتیجهٔ تنظیم مدل با نرم $L_{2}$

است.

به‌طور مشابه، اگر احتمال پیشین را از نوع توزیع لاپلاس با میانگین صفر در نظر بگیریم به تنظیم مدل با نرم $L_{1}$

خواهیم رسید.

انتخاب متغیر

معمولاً تعدادِ زیادِ متغیرهای مستقل، تعبیرپذیری مدلِ نهائی را دچار مشکل می‌کند. مضاف بر این بعضی از متغیرهای مستقل ممکن است باعث کاهش دقت مدل شوند. به همین دلیل حذف این متغیرها و استفاده از تنها یک زیرمجموعه بهینه از متغیرهای مستقل می‌تواند مدلی با کارایی بالاتری تولید کند. روشهای مختلفی برای انتخاب متغیرها وجود دارد. یکی از ساده‌ترین راه‌ها محاسبه تابع هزینه به ازای تمام زیرمجموعه‌های ممکن و انتخاب زیرمجموعه بهینه با کمترین میزان هزینه است. در این روش مسئله رگرسیون خطی باید به ازای تمامی زیرمجموعه‌ها، یعنی $2^{m}$

بار، حل شود. از این‌رو این روش معمولاً برای مسائلی که داده‌های زیادی دارند یا تعداد متغیرهای مستقل آن بزرگ است (معمولاً

m\geq 40

) راه حل مناسبی نیست. روشهای پیش‌رو و پس‌رو که متناوباً متغیرهای مستقل را انتخاب یا حذف می‌کنند یا روشهای کوچک سازی که از طریق اعمال محدودیت بر روی پارامترها میزان اثرگذاری آنها را در مدل نهائی مهار می‌کنند، راه‌های بهتری برای انتخاب متغیر هستند.

در روش پیش‌رو، ابتدا عرض از مبدأ از طریق محاسبه میانگین مقادیر متغیر وابسته به‌دست می‌آید، سپس به تناوب در هر مرحله متغیری که باعث بیشترین کاهش تابع هزینه می‌شود به مدل افزوده می‌شود. به زبان دقیق‌تر در مرحله $k$

، یک متغیر از متغیرهای مستقل که تا به حال انتخاب نشده به

k-1

متغیر منتخب اضافه می‌شود. در نهایت بهترین زیرمجموعه از میانِ

m

زیرمجموعه‌ای که متناوباً ساخته شده با استفاده از اعتبارسنجی متقابل محاسبه می‌شود. برای تسریع انتخاب متغیر مستقل بهینه در هر مرحله می‌توان از تجزیه کیوآر استفاده کرد. روش پس‌رو مانند روش پیش‌رو عمل می‌کند با این تفاوت که در ابتدا تمام متغیرهای مستقل مورد استفاده قرار می‌گیرند و در هر مرحله یک متغیر مستقل حذف می‌شود. بهترین متغیر برای حذف در هر مرحله متغیری است که کمترین امتیاز طبیعی را داشته باشد.

در روشهای کوچک سازی که همان روشهای تنظیم مدل است، سعی بر این است که برای جلوگیری از بیش‌برازش، میزان اثرگذاری پارامترها مهار شود. به همین منظور مسئله بهینه‌سازی به یک بهینه‌سازی مقید تغییر داده می‌شود تا نُرمِ $L_{1}$

یا

L_{2}

از یک مقدار معینی زیادتر نشود. در روش کوچک سازی

L_{1}

مسئله بهینه‌سازی به عبارت پایین تغییر شکل می‌دهد که معادل تنظیم مدل لسو است. این روش باعث می‌شود که مدل نهائی به اصطلاح خلوت شود و ضریب بسیاری از متغیرها صفر گردد.

\min _{\beta }L(D,{\vec {\beta }}){\text{ subject to }}\|\beta \|_{1}\leq t

به صورت مشابه در روش کوچک سازی $L_{2}$

، مسئله بهینه‌سازی با معادله پایین برابر خواهد بود که معادل رگرسیون ستیغی است. این روش باعث می‌شود که ضرایب رگرسیون زیاد بزرگ نشوند.

\min _{\beta }L(D,{\vec {\beta }}){\text{ subject to }}\|\beta \|^{2}\leq t

تعمیم

رگرسیون چندک و میانه

رگرسیونهای خطی که بر کمترین مربعات استوارند، معمولاً سعی دارند که میانگین متغیر وابسته را بر اساس توزیع شرطی این متغیر و با کمک ترکیبی خطی از متغیرهای مستقل تخمین بزنند. در مقایسه، رگرسیون چندک هدف را بر محاسبه یک یا چند چندکِ متغیر وابسته می‌گذارد. رگرسیون چندک معمولاً با داده‌های پرت بهتر از رگرسیون معمولی کار می‌کند و پیش‌فرضهای کمتری دارد من‌جمله اینکه توزیع شرطی متغیر وابسته ضرورتاً لازم نیست توزیعی طبیعی باشد. همچنین رگرسیون چندک در مسائلی به کار می‌رود که هدف بدست آوردن توزیع مشروط متغیر وابسته باشد نه فقط یک آماره از آن مانند میانگین؛ چه که با استفاده از چندک‌های یک توزیع می‌توان کل توزیع را تقریب زد. اگر $F_{Y}(y)=P(Y\leq y)$

تابع توزیع تجمعیِ متغیر

Y

باشد، و

\tau

عددی در

(0,1)

باشد، آنگاه چندک مرتبط با این عدد به این شکل تعریف می‌شود:

$Q_{Y}(\tau )=F_{Y}^{-1}(\tau )=\inf \left\{y:F_{Y}(y)\geq \tau \right\}$

می‌توان نشان‌داد که:

$Q_{Y}(\tau )={\underset {u}{\min }}\,E(\rho _{\tau }(Y-u))={\underset {u}{\min }}\,\left\{(\tau -1)\int _{-\infty }^{u}(y-u)dF_{Y}(y)+\tau \int _{u}^{\infty }(y-u)dF_{Y}(y)\right\}$

که در اینجا $\rho _{\tau }(y)=y(\tau -\mathbb {I} _{(y<0)})$

است. حال اگر تابع توزیع تجمعی را نداشته باشیم و فقط

n

نمونه از توزیع متغیر داشته باشیم آنگاه چندک متغیر را با بهینه‌سازی پایین می‌توان به‌دست‌آورد.

${\hat {Q}}_{Y}(\tau )={\underset {u\in \mathbb {R} }{\mbox{arg min}}}\sum _{i=1}^{n}\rho _{\tau }\left(y_{i}-u\right)={\underset {u\in \mathbb {R} }{\mbox{arg min}}}\left[(\tau -1)\sum _{y_{i}<u}(y_{i}-u)+\tau \sum _{y_{i}\geq u}(y_{i}-u)\right]$

حال اگر چندکِ متغیر وابسته را با ترکیبی خطی از متغیرهای مستقل تخمین بزنیم آنگاه هدف مسئله رگرسیون خطی پیدا کردن ضرایبی خواهد بود که داده‌های وابسته را به چندکشان نزدیک کند:

${\vec {\hat {\beta }}}_{\tau }={\underset {\vec {\beta }}{\mbox{arg min}}}\sum _{i=1}^{n}\rho _{\tau }\left(y_{i}-{\vec {\beta }}\,.\,{\vec {x}}_{i}\right)$

این مسئله بهینه‌سازی با کمک برنامه‌ریزی خطی حل می‌شود.

اگر $\tau$

با

0.5

برابر باشد، رگرسیون خطی، میانه را تخمین خواهد زد و تابع هزینه به مجموع قدر مطلق تفاضل پیش‌بینی و داده وابسته تغییر شکل می‌یابد:

${\vec {\hat {\beta }}}_{0.5}={\underset {\vec {\beta }}{\mbox{arg min}}}\sum _{i=1}^{n}\rho _{0.5}\left(y_{i}-{\vec {\beta }}\,.\,{\vec {x}}_{i}\right)={\underset {\vec {\beta }}{\mbox{arg min}}}\sum _{i=1}^{n}\left|y_{i}-{\vec {\beta }}\,.\,{\vec {x}}_{i}\right|$

رگرسیون چندک در علوم بوم‌شناسی کاربرد فراوانی دارد. معمولاً به علت پیچیدگی و تعداد زیاد عوامل اثرگذار در یک رویداد طبیعی، توزیع‌های شرطی متغیرهای وابسته اغلب واریانس بالا و غیر همسانی دارند که باعث می‌شود رابطه بین متغیرهای مستقل و میانگین توزیع شرطی ضعیف شود؛ تقریب کل توزیع شرطی با استفاده از تخمین خطی چندک‌های توزیع شرطی حاوی اطلاعات بیشتری برای پژوهشگران این رشته‌است و این تقریب از طریق رگرسیون چندک به دست می‌آید.

نحوه تخمین افزایشی ضرایب در رگرسیون کمترین زاویه (لارس)، در این شکل لارس ۱۱ ضریب برای مدل رگرسیون تولید می‌کند که با ۱۱ رنگ در شکل نشان داده شده‌اند. محور افقی مجموع نرمالیزه شده ضرایب را در ۱۱ مرحله نشان می‌دهد به این معنی که در هر مرحله مجموع ضرایب آن مرحله تقسیم بر مجموع ضرایب مرحله آخر می‌شود. محور عمودی اندازه ضرایب را در هر مرحله نشان می‌دهد. هر خطی سیاه عمودی نشان‌دهنده اضافه شدن یک ضریب جدید به مدل است. همان‌طور شکل نشان می‌دهد هر ضریب بعد از انتخاب شدن مرتباً تغییر خواهد کرد و این تغییر در راستای جهتی است که کمترین مربعات با متغیرهای مستقل اضافه شده ساخته‌است.

رگرسیون کمترین زاویه (لارس)

در رگرسیون کمترین زاویه که به آن رگرسیون لارس هم گفته می‌شود، ضرایب رگرسیون در یک فرایند افزایشی به شکل زیر تخمین زده می‌شوند:

در ابتدا تمام ضرایب $\beta _{i}$ با عدد صفر مقداردهی می‌شوند.
متغیر مستقل $x_{j}$ که بیشترین ضریب همبستگی را با متغیر وابسته $y$ دارد انتخاب می‌شود.
$\beta _{j}$ در جهت علامت ضریب همبستگی افزایش می‌یابد تا جایی که همبستگی متغیر دیگری مانند $x_{k}$ با مانده $r=y-{\hat {y}}$ از همبستگی $x_{j}$ با مانده فزونی بیابد.
حال ( $\beta _{j}$ , $\beta _{k}$ ) در جهت بردار بهینه‌ای که از کمترین مربعاتِ ( $x_{j}$ , $x_{k}$ ) به‌دست آمده افزایش داده می‌شود و همزمان مانده‌ها نیز محاسبه می‌شوند. متغیر دیگری پیدا می‌شود که همبستگی بیشتری با مانده متغیرهایی که تا به حال انتخاب شده‌اند داشته باشد، و به جمع متغیرهایی انتخاب شده اضافه می‌شود و این روند تا انتخاب تمام متغیرها ادامه خواهد یافت.

رگرسیون لارس مانند رگرسیون لَسو باعث می‌شوند مدل نهائی خلوت شود و بسیاری از ضرایبِ مدل صفر شود. این مدل برای داده‌هایی بُعد بالا مورد استفاده قرار می‌گیرد.

رگرسیون خطی با وزنهای موضعی

رگرسیون خطی با وزنهای موضعی همانند کمترین مربعات کار می‌کند با این تفاوت که مسئله پیش‌بینی برای هر کدام از داده‌های جدید متفاوت خواهد بود. در رگرسیون خطی معمولی یک بار مدل تخمین زده می‌شود و بعد برای پیش‌بینی داده‌های جدید از آن استفاده می‌شود. در مدل رگرسیون خطی با وزنهای موضعی اما برای هر داده جدید یک تخمین جدید رخ خواهد داد به گونه‌ای که داده‌های آموزشیِ نزدیکتر به داده جدید وزن بالاتری در مسئله بهینه‌سازی بگیرند و رگرسیون خطی به صورت موضعی انجام شود:

${\vec {\hat {\beta }}}({\vec {x}})={\underset {\vec {\beta }}{\mbox{arg min}}}\sum _{i=1}^{n}w_{i}({\vec {x}})\times ({\vec {\beta }}\,.\,{\vec {x_{i}}}-y_{i})^{2}$

در اینجا $w_{i}({\vec {x}})$

وزن موضعی داده جدید

{\vec {x}}

را با داده آموزشی

{\vec {x}}_{i}

نشان می‌دهد که با فاصله این دو داده نسبت به هم نسبت عکس دارد مانند نمونه پایین:

$w_{i}({\vec {x}})=\exp \left(-{\frac {||{\vec {x}}-{\vec {x_{i}}}||^{2}}{2\sigma ^{2}}}\right)$

در این نوع رگرسیون داده‌های آموزشی که به داده جدید نزدیکترند وزن بیشتری خواهند گرفت و داده‌های دورتر عملاً نادیده گرفته می‌شوند.

رگرسیون چندجمله‌ای با چند درجه مختلف (۳، ۵ و ۹)

رگرسیون خطی تعمیم‌یافته

در رگرسیون خطی تعمیم یافته برای پیش‌بینی متغیر وابسته یک ترکیب خطی از نگاشتی از متغیرهای مستقل را در نظر می‌گیرند نه خود آن متغیرها را. به بیان دیگر:

$f({\vec {x}})=\beta _{0}+\beta _{1}\phi ({\vec {x}})_{1}+\cdots +\beta _{h}\phi ({\vec {x}})_{h}$

در این تابع، ${\vec {x}}$

از فضای

d

بُعدی به یک فضای

h

بُعدی از طریق نگاشت

\phi

منتقل شده‌است و سپس در آن فضا مقادیر جدید از طریق ترکیبی خطی با هم ترکیب شده‌اند. به عنوان مثال در رگرسیون خطی ساده می‌توان چندین متغیر جدید را از طریق یک چند جمله‌ای درجه

h

تولید کرد و سپس رگرسیون خطی را بوسیله آنها انجام داد، که این کار معادل نگاشت متغیر مستقل به یک فضای

h

بعدی و انجام رگرسیون در آن فضاست:

$f(x)=\beta _{0}+\beta _{1}x+\beta _{2}x^{2}+\cdots +\beta _{h}x^{h}$

رگرسیون خطی تعمیم‌یافته را می‌توان زمانی به کار برد که رابطهٔ بین متغیر وابسته و مستقل یک خط راست نباشد اما بتوان از طریق یک انگاشت آن را به خطی راست تبدیل کرد. به عنوان مثال برای پیش‌بینی میزان تنش در یک سازه ساختمانی از رگرسیون چند جمله‌ای استفاده می‌کنند چه که رابطهٔ متغیر مستقل و وابسته خطی نیست و شباهت بیشتری به یک تابع درجه دو دارد.

رگرسیون چند جمله‌ای درجه سوم (خط سبز)، همراه با بازه اطمینان ۹۵ درصدی (دو خط قرمز) و داده مرجع (خط آبی)

مدل سلسله مراتبی

مدل سلسله مراتبی (یا مدل چند سطحی) مدل رگرسیونی است که پارامترهای آن بر اساس خوشه یا سطحی که داده به آن تعلق دارد ممکن است تغییر کند. به عنوان مثال در مسئله پیش‌بینی میزان سلامتی فرد از طریق مقدار درآمد او، از آنجا که افرادی که در یک محله زندگی می‌کنند میزان درآمد و سلامتی آنها به هم وابستگی بیشتری نسبت به بقیهٔ افراد دارد، بهتر است هر محله مدل رگرسیونِ جداگانه خود را داشته باشند. در این مثال یک مدل رگرسیون خطی در سطح اول (سطح فرد در محله) ساخته می‌شود که بعضی یا همه پارامترهای آن می‌تواند برای هر محله متفاوت باشد. پارامترهای متفاوت می‌تواند خود از یک مدل رگرسیون دیگر در سطح دوم (سطح محله‌ها) یا به‌صورت تصادفی تخمین زده شوند.

اگر محلهٔ $j$

،

n_{j}

داده (فرد) داشته باشد، آنگاه برای این محله باید دو پارامتر

\beta _{0j}

و

\beta _{1j}

را پیدا کرد. برای داده

i

(

1\leq i\leq n_{j}

) رابطه میان میزان درآمد فرد (

X_{ij}

) و میزان سلامتی او (

Y_{ij}

) را به صورت پایین نشان می‌دهیم؛ در اینجا

e_{ij}

مقدار خطای تصادفی است که معمولاً از یک توزیع طبیعی پیروی می‌کند:

$Y_{ij}=\beta _{0j}+\beta _{1j}X_{ij}+e_{ij}$

حال می‌توان یا $\beta _{0j}$

یا

\beta _{1j}

یا هر دو را برای هر محله متفاوت در نظر گرفت. این تفاوت می‌تواند تصادفی مدل‌سازی شود یا خود از یک مدل رگرسیون خطی دیگر که دارای یک یا چند متغیر مستقل در سطح دو (سطح محله) است برآورد شود. اگر فرض کنیم هر دوی

\beta _{0j}

و

\beta _{1j}

از یک مدل رگرسیون دیگر می‌آیند آنگاه می‌توان به صورت پایین آنها را تخمین زد؛ در این دو معادله

W_{j}

یک متغیر مستقل در سطح دو (سطح محله) است که به عنوان نمونه می‌تواند میزان ثروت محله باشد و

u_{0j}

و

u_{1j}

خطاهای تصادفی است.

$\beta _{0j}=\gamma _{00}+\gamma _{01}W_{j}+u_{0j}$

$\beta _{1j}=\gamma _{10}+\gamma _{11}W_{j}+u_{1j}$

تجزیه و تحلیل مدل

از مدل رگرسیون خطی می‌توان برای تحلیل رابطه متغیرهای مستقل با متغیر وابسته استفاده کرد. اگر یک متغیر مستقل مانند $x_{j}$

را در نظر بگیریم و بقیه متغیرهای مستقل را ثابت فرض کنیم، ضریب این متغیر یعنی

\beta _{j}

، میانگین تغییر

y

در ازای تغییر یک واحد در

x_{j}

را نشان می‌دهد که معادل میانگین مشتق جزئی

y

نسبت به

x_{j}

یا همان شیب خط رگرسیون با ثابت گرفتن سایر متغیرهای مستقل است. از این تأثیر با عنوان «تأثیر منحصر به فرد»

x_{j}

بر روی

y

نیز یاد می‌شود. از طرفی دیگر «تأثیر حاشیه‌ای»

x_{j}

بر روی

y

از طریق رگرسیون خطی ساده (مدلی که فقط یک متغیر مستقل به اسم

x_{j}

دارد) به‌دست می‌آید.

این امکان وجود دارد که با وجود تأثیر حاشیه‌ای بزرگ، تأثیر منحصر به فرد متغیر $x_{j}$

تقریباً صفر باشد. این در شرایطی اتفاق خواهد افتاد که بعضی از متغیرهای مستقل دیگر بتوانند متغیر وابسته را به خوبی پیش‌بینی کنند و سهم

x_{j}

در مقایسه با سایر متغیرها ناچیز باشد. از طرف دیگر، این امکان نیز وجود دارد که با وجود تأثیر حاشیه‌ای تقریباً صفر، تأثیر منحصر به فرد

x_{j}

بزرگ باشد. این اتفاق زمانی رخ می‌دهد که سایر متغیرها میزان زیادی از تغییر

y

را توضیح می‌دهند و نقش

x_{j}

نقشی تکمیلی است. در این حالت متغیر

x_{j}

بخشی از

y

را که توسط سایر متغیرها توضیح‌ناپذیر است توضیح می‌دهد.

معمولاً بعد از تخمین مدل رگرسیون، عیب‌یابی مدل رگرسیونی صورت می‌گیرد. در این عیب‌یابی معمولاً پیش‌فرضهای رگرسیون خطی مورد راستی‌آزمایی قرار می‌گیرند و داده‌هایی که تأثیر بی‌مورد در مدل نهائی داشته‌اند شناسایی می‌شوند. برای بررسی پیش‌فرضهای رگرسیون خطی از چندین نمودار و معیار استفاده می‌شود. از نمودار چندک-چندک می‌توان برای مقایسه بین چندک‌های مانده‌های استاندارد شده و چندک‌های توزیع طبیعی استاندارد و بررسی پیش‌فرض توزیع طبیعی مانده‌ها استفاده کرد. در صورت برقرار بودن پیش‌فرض، نمودار باید کم و بیش یک خط راست با زاویهٔ ۴۵ درجه نسبت به محورهای نمودار باشد. برای بررسی پیش‌فرض خطی بودن رابطه پارامترها و متغیر وابسته نموداری از مانده‌ها و مقادیر پیش‌بینی شده ترسیم می‌شود، اگر رابطه بین این دو گروه یک خط راست نباشد، پیش‌فرض نقض شده‌است. از این نمودار همچنین می‌توان برای بررسی واریانس‌همسانی مانده‌ها استفاده کرد. در نهایت برای پیدا کردن داده‌هایی که تأثیر بی‌مورد در مدل رگرسیون دارند از معیاری به اسم فاصله کوک استفاده می‌شود. این معیار تأثیر هر داده را بر ضرایب نهائی مدل رگرسیون -با تخمین یک مدل جدید بدون آن داده و مقایسه آن با مدل قبلی- می‌سنجد. داده‌هایی که فاصله کوک آنها از یک آستانه از پیش تعیین شده بیشتر است تأثیری منفی بر مدل رگرسیون دارند.

کاربردها و محدودیت‌ها

در چهارتایی آنسکوم با اینکه آماره‌هایی نظیر میانگین، واریانس، ضریب همبستگی و مدل خطی بدست آمده از رگرسیون خطی برای تمام چهار مجموعه داده یکسان است اما نمودار این داده‌ها کاملاً با همان متفاوتند و تنها مجموعه بالا سمت چپ مدل رگرسیون خطی مناسبی دارد.

رگرسیون خطی به‌طور گسترده‌ای در علوم زیستی، رفتاری و اجتماعی برای توصیف روابط احتمالی بین متغیرها مورد استفاده قرار می‌گیرد و از مهترین ابزارها برای این کار است. رگرسیون خطی همچنین در قیمت‌گذاری دارایی‌های سرمایه‌ای و تحلیل و اندازه‌گیری خطر سرمایه‌گذاری مورد استفاده قرار می‌گیرد. این مدل مستقیماً از ضریب بتا در مدل رگرسیون خطی به دست می‌آید که بازده سرمایه را به بازده تمام دارایی‌ها با ریسک بالا مربوط می‌کند. همچنین در علم اقتصاد رگرسیون خطی یکی از مهم‌ترین و پراستفاده‌ترین ابزارهاست. به عنوان مثال، برای پیش‌بینی هزینه مصرف، هزینه سرمایه‌گذاری ثابت، سرمایه‌گذاری موجودی، خرید صادرات کشور، هزینه برای واردات، تقاضا برای نگهداری دارایی‌های نقد، تقاضای کار، و عرضه نیروی کار از این مدل استفاده می‌شود. در علوم محیط زیست نیز رگرسیون خطی کاربردهای گسترده‌ای دارد. برای نمونه در کانادا، از رگرسیون خطی برای پیش‌بینی اثرات زیست‌محیطی کارخانه‌های کاغذسازی و معادن فلزات بر روی ماهی‌ها و مناطق دریابُن استفاده می‌کنند. رگرسیون خطی در علم پزشکی نیز کاربرد دارد. به عنوان مثال اولین تحقیقاتی که رابطه استعمال دخانیات و مرگ و میر را نشان می‌داد از مدل رگرسیون خطی استفاده می‌کرد. رگرسیون خطی در تخمین خط روند نیز کاربرد دارد. خط روند، سیر تغییرات یک سری داده را در یک بازه زمانی طویل‌المدت نشان می‌دهد. معمولاً به صورت چشمی سیر صعودی یا نزولی بودن این تغییرات را می‌توان تشخیص داد ولی برای محاسبه دقیق‌تر شیب این تغییرات از رگرسیون خطی استفاده می‌شود. در مواردی که سیر تغییرات را با یک چندجمله‌ای تخمین می‌زنند از رگرسیون خطی تعمیم یافته استفاده می‌کنند. همچنین رگرسیون خطی و مشتقات آن یکی از ابزارهای شناخته شده و پرکاربرد در شاخه‌های هوش مصنوعی مخصوصاً در شاخه یادگیری ماشین است.

گرچه رگرسیون خطی ابزاری بسیار انعطاف‌پذیر برای تحقیقات علوم مختلف است، اما بدون محدودیت هم نیست. همه مسائل پژوهشی در قالب مدلهای رگرسیون نمی‌گنجد، به ویژه مسائلی که یک متغیر خروجی ندارند. به عنوان نمونه، تجزیه و تحلیل خوشه‌ای یک ابزار آماری است که برای آشکار ساختن گروه‌های منسجم (یا خوشه‌ها) در داده‌ها به کار می‌رود. رگرسیون مدل مناسبی برای کشف این نوع الگو در داده‌ها نیست.

از آنجا که رگرسیون بر پیشینی متغیر خروجی (متغیر وابسته) متمرکز است، این شبهه ممکن است ایجاد شود که وجود رابطه بین متغیرهای مستقل و وابسته در مدل رگرسیون دال بر علیت این رابطه است. این نوع تعمیم نتایج مدل رگرسیونی نادرست است، و برای تحلیل علیت باید از روش‌های آماری و تحقیقی دیگری بهره جست.

در استفاده از مدل رگرسیون برای استنباط آماری نیز محدودیت‌هایی می‌تواند وجود داشته باشد. برای ارائهٔ استنباط معتبر، داده‌ها باید نمونه‌ای تصادفی از یک جمعیت باشند یا در مطالعهٔ تجربی مورد نظر تصادفی شده باشند. بیشتر نمونه‌ها در علوم اجتماعی این شرط را برآورده نمی‌کنند و استفاده از مدل رگرسیون برای تحلیل آن‌ها خالی از اشکال نیست. البته، این یک انتقاد از خود رگرسیون نیست بلکه از طراحی مطالعات تجربی و محدودیت‌های استنباط آماری با نمونه‌گیری غیر تصادفی است. با وجود همهٔ این محدودیت‌ها، رگرسیون و مدل‌های تعمیم‌یافتهٔ آن همچنان ابزاری فوق‌العاده مفید برای پژوهشگران علوم مختلف محسوب می‌شوند.

رگرسیون خطی برای بسیاری از مسائل مدل مناسبی نیست. این امکان وجود دارد که چندین مجموعه دادهٔ کاملاً متفاوت، مدل رگرسیون خطی یکسانی داشته باشند. چهارتایی آنسکوم نمونهٔ کلاسیک این حالت است. چهارتایی آنسکوم متشکل از چهار مجموعه داده‌است که نمودارهای کاملاً متفاوتی دارند ولی مدل رگرسیون خطی آنها کاملاً یکسان است. یک مجموعه در این مجموعهٔ چهارتایی (بالا سمت راست در شکل) دارای یک رابطهٔ کاملاً غیر خطی بین متغیرهاست. در یک مجموعه دیگر (پایین سمت چپ در شکل) با اینکه یک رابطهٔ خطی بین متغیرها حاکم است ولی به علت وجود یک دادهٔ پرت، مدل رگرسیون خطی به دست آمده نامناسب است. نهایتاً در یک مجموعه دیگر (پایین سمت راست در شکل) بین متغیرهای وابسته و مستقل هیچ همبستگی وجود ندارد ولی به علت وجود یک دادهٔ پرت، ضریب همبستگی این دو متغیر بالاست و یک مدل رگرسیون نامناسب برای پیش‌بینی متغیر وابسته تخمین زده شده‌است.

جستارهای وابسته

یادداشت‌ها

↑ معادل‌های پیشنهادی برای عبارت انگلیسی linear regression
↑ Tikhonov regularization
↑ overfitting
↑ penalty
↑ LASSO مخفف least absolute shrinkage and selection operator
↑ sparse
↑ ridge regression
↑ validation data
↑ validation set
↑ quantile regression
↑ least-angle regression (LARS)
↑ locally weighted linear regression
↑ generalized linear regression
↑ hierarchical model
↑ multilevel model
↑ regression diagnostic
↑ Cook's distance

منابع

↑ Mardia, K. V; Kent, J. T.; Bibby, J. M. (1979). Multivariate Analysis. Academic Press. ISBN 0-12-471252-5.
↑ Galton, Francis (1886). "Regression Towards Mediocrity in Hereditary Stature". The Journal of the Anthropological Institute of Great Britain and Ireland. 15: 246–263. doi:10.2307/2841583. JSTOR 2841583. Archived from the original on 4 August 2019. Retrieved 4 August 2019.
↑ David A. Freedman (2009). Statistical Models: Theory and Practice. Cambridge University Press. p. 26. A simple regression equation has on the right hand side an intercept and an explanatory variable with a slope coefficient. A multiple regression equation has two or more explanatory variables on the right hand side, each with its own slope coefficient
↑ Bishop, C. M. (2006), Pattern Recognition and Machine Learning, Springer, p. 179, ISBN 978-0-387-31073-2
↑ A.M. Legendre. Nouvelles méthodes pour la détermination des orbites des comètes بایگانی‌شده در ۷ ژوئن ۲۰۱۹ توسط Wayback Machine, Firmin Didot, Paris, 1805. “Sur la Méthode des moindres quarrés” appears as an appendix.
↑ C.F. Gauss. Theoria Motus Corporum Coelestium in Sectionibus Conicis Solem Ambientum. (1809)
↑ Yan, Xin (2009), Linear Regression Analysis: Theory and Computing, World Scientific, pp. 1–2, ISBN 9789812834119, archived from the original on 8 June 2019, retrieved 25 September 2018, Regression analysis … is probably one of the oldest topics in mathematical statistics dating back to about two hundred years ago. The earliest form of the linear regression was the least squares method, which was published by Legendre in 1805, and by Gauss in 1809 … Legendre and Gauss both applied the method to the problem of determining, from astronomical observations, the orbits of bodies about the sun.
↑ C.F. Gauss. Theoria combinationis observationum erroribus minimis obnoxiae بایگانی‌شده در ۱۰ ژوئن ۲۰۱۹ توسط Wayback Machine. (1821/1823)
↑ Seal, Hilary L. (1967). "Studies in the History of Probability and Statistics. XV: The Historical Development of the Gauss Linear Model". Biometrika. 54 (1/2): 1–24. doi:10.2307/2333849. ISSN 0006-3444. Archived from the original on 24 January 2020. Retrieved 24 January 2020.
↑ Fisher, R.A. (1922). "The goodness of fit of regression formulae, and the distribution of regression coefficients". Journal of the Royal Statistical Society. 85 (4): 597–612. doi:10.2307/2341124. JSTOR 2341124. PMC 1084801.
↑ Aldrich, John (2005). "Fisher and Regression". Statistical Science. 20 (4): 401–417. ISSN 0883-4237. Archived from the original on 24 January 2020. Retrieved 24 January 2020.
↑ David C. Atkins. "Regression". www.encyclopedia.com (به انگلیسی). Archived from the original on 25 May 2019. Retrieved 2019-08-04.
↑ Stigler, Stephen M (1986). The History of Statistics: The Measurement of Uncertainty before 1900. Cambridge: Harvard. ISBN 0-674-40340-1.
↑ Rodney Ramcharan. Regressions: Why Are Economists Obessessed with Them? بایگانی‌شده در ۵ اوت ۲۰۲۰ توسط Wayback Machine March 2006. Accessed 2011-12-03.
↑ Poole, Michael A.; O'Farrell, Patrick N. (1971). "The Assumptions of the Linear Regression Model". Transactions of the Institute of British Geographers (52): 145–158. doi:10.2307/621706. ISSN 0020-2754. Archived from the original on 24 May 2019. Retrieved 22 May 2019.
↑ Allen, R. G. D. (1939). "The Assumptions of Linear Regression". Economica. 6 (22): 191–201. doi:10.2307/2548931. ISSN 0013-0427. Archived from the original on 24 May 2019. Retrieved 22 May 2019.
↑ Koenker, Roger (2005). Quantile Regression. Cambridge University Press. pp. 147. ISBN 978-0-521-60827-5.
↑ Tibshirani, Robert (1996). "Regression Shrinkage and Selection via the Lasso". Journal of the Royal Statistical Society, Series B. 58 (1): 267–288. JSTOR 2346178.
↑ Hilary L. Seal (1967). "The historical development of the Gauss linear model". Biometrika. 54 (1/2): 1–24. doi:10.1093/biomet/54.1-2.1. JSTOR 2333849.
↑ Rencher, Alvin C.; Christensen, William F. (2012), "Chapter 10, Multivariate regression – Section 10.1, Introduction", Methods of Multivariate Analysis, Wiley Series in Probability and Statistics, vol. 709 (3rd ed.), John Wiley & Sons, p. 19, ISBN 978-1-118-39167-9, archived from the original on 15 June 2019, retrieved 25 September 2018.
↑ Boddy, Richard; Smith, Gordon (2009). Statistical methods in practice: for scientists and technologists. Chichester, U.K.: Wiley. pp. 95–96. ISBN 978-0-470-74664-6.
↑ Rencher, Alvin C.; Christensen, William F. (2012-08-15). Methods of Multivariate Analysis (به انگلیسی). John Wiley & Sons. p. 19. Archived from the original on 5 October 2018.
↑ Yan, Xin (2009). Linear Regression Analysis: Theory and Computing (به انگلیسی). World Scientific. Archived from the original on 5 October 2018.
↑ Rencher, Alvin C.; Christensen, William F. (2012-08-15). Methods of Multivariate Analysis (به انگلیسی). John Wiley & Sons. p. 155. Archived from the original on 5 October 2018.
↑ Golub, Gene H.; Hansen, Per Christian.; O'Leary, Dianne P. (1999-01-01). "Tikhonov Regularization and Total Least Squares". SIAM Journal on Matrix Analysis and Applications. 21 (1): 185–194. doi:10.1137/S0895479897326432. ISSN 0895-4798. Archived from the original on 10 September 2014. Retrieved 19 December 2019.
↑ Jolliffe, Ian T. (1982). "A note on the Use of Principal Components in Regression". Journal of the Royal Statistical Society, Series C. 31 (3): 300–303. doi:10.2307/2348005. JSTOR 2348005.
↑ Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). "The Elements of Statistical Learning". Springer Series in Statistics (به انگلیسی): 80–82. doi:10.1007/978-0-387-84858-7. ISSN 0172-7397. Archived from the original on 27 December 2019. Retrieved 30 December 2019.
↑ Zhang, Tong (2004). "Solving Large Scale Linear Prediction Problems Using Stochastic Gradient Descent Algorithms". Proceedings of the Twenty-first International Conference on Machine Learning. ICML '04. New York, NY, USA: ACM: 116–. doi:10.1145/1015330.1015332. ISBN 978-1-58113-838-2. Archived from the original on 7 October 2008. Retrieved 17 May 2019.
↑ Machine learning: a probabilistic perspective بایگانی‌شده در ۴ نوامبر ۲۰۱۸ توسط Wayback Machine, Kevin P Murphy, 2012, p. 225, Cambridge, MA
↑ Machine learning: a probabilistic perspective بایگانی‌شده در ۴ نوامبر ۲۰۱۸ توسط Wayback Machine, Kevin P Murphy, 2012, p. 217, Cambridge, MA
↑ Bühlmann, Peter; van de Geer, Sara (2011). "Statistics for High-Dimensional Data". Springer Series in Statistics (به انگلیسی). doi:10.1007/978-3-642-20192-9. ISSN 0172-7397. Archived from the original on 21 February 2019. Retrieved 5 October 2018.
↑ Bühlmann, Peter; van de Geer, Sara (2011). Theory for ℓ1/ℓ2-penalty procedures (به انگلیسی). Berlin, Heidelberg: Springer Berlin Heidelberg. pp. 249–291. doi:10.1007/978-3-642-20192-9_8. Archived from the original on 5 October 2018.
↑ Bishop, C. M. (2006), Pattern Recognition and Machine Learning, Springer, p. 146, ISBN 978-0-387-31073-2
↑ Natarajan, B. K. (1995). "Sparse Approximate Solutions to Linear Systems". SIAM Journal on Computing (به انگلیسی). 24 (2): 227–234. doi:10.1137/s0097539792240406. ISSN 0097-5397. Archived from the original on 24 May 2019. Retrieved 5 October 2018.
↑ Bishop, Christopher M (2016-08-23). Pattern Recognition and Machine Learning (به انگلیسی). New York: Springer New York. p. 30. Archived from the original on 5 October 2018.
↑ Robert, Christian (2014-04-03). "Machine Learning, a Probabilistic Perspective". CHANCE (به انگلیسی). 27 (2): 62–63. doi:10.1080/09332480.2014.914768. ISSN 0933-2480. Archived from the original on 8 April 2019. Retrieved 15 November 2018.
↑ Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). "The Elements of Statistical Learning". Springer Series in Statistics (به انگلیسی): 58. doi:10.1007/978-0-387-84858-7. ISSN 0172-7397. Archived from the original on 27 December 2019. Retrieved 30 December 2019.
↑ Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). "The Elements of Statistical Learning". Springer Series in Statistics (به انگلیسی): 68–69. doi:10.1007/978-0-387-84858-7. ISSN 0172-7397. Archived from the original on 27 December 2019. Retrieved 30 December 2019.
↑ Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). "The Elements of Statistical Learning". Springer Series in Statistics (به انگلیسی): 61–64. doi:10.1007/978-0-387-84858-7. ISSN 0172-7397. Archived from the original on 27 December 2019. Retrieved 30 December 2019.
↑ Koenker, Roger (2005). Quantile Regression. Cambridge University Press. ISBN 978-0-521-60827-5.
↑ Cade, Brian S.; Noon, Barry R. (2003). "A gentle introduction to quantile regression for ecologists" (PDF). Frontiers in Ecology and the Environment. 1 (8): 412–420. doi:10.2307/3868138. JSTOR 3868138. Archived from the original (PDF) on 7 January 2019. Retrieved 17 August 2019.
↑ Fraley, Chris; Meier, Lukas; Choi, Nam Hee; Hesterberg, Tim (2008). "Least angle and ℓ1 penalized regression: A review". Statistics Surveys (به انگلیسی). 2: 61–93. doi:10.1214/08-SS035. ISSN 1935-7516. Archived from the original on 29 March 2019. Retrieved 17 August 2019.
↑ Efron, Bradley; Hastie, Trevor; Johnstone, Iain; Tibshirani, Robert (2004). "Least Angle Regression" (PDF). Annals of Statistics. 32 (2): pp. 407–499. arXiv:math/0406456. doi:10.1214/009053604000000067. MR 2060166. Archived from the original (PDF) on 19 June 2018. Retrieved 4 August 2019.
↑ Cleveland, William S.; Devlin, Susan J. (1988-09-01). "Locally Weighted Regression: An Approach to Regression Analysis by Local Fitting". Journal of the American Statistical Association. 83 (403): 596–610. doi:10.1080/01621459.1988.10478639. ISSN 0162-1459. Archived from the original on 22 May 2019. Retrieved 4 August 2019.
↑ Goldberger, Arthur S. (1962-06-01). "Best Linear Unbiased Prediction in the Generalized Linear Regression Model". Journal of the American Statistical Association. 57 (298): 369–375. doi:10.1080/01621459.1962.10480665. ISSN 0162-1459. Archived from the original on 18 February 2021. Retrieved 4 August 2019.
↑ "(PDF) Application of polynomial regression models for prediction of stress state in structural elements". ResearchGate (به انگلیسی). Archived from the original on 18 February 2021. Retrieved 2019-08-17.
↑ Bryk, Stephen W. Raudenbush, Anthony S. (2002). Hierarchical linear models: applications and data analysis methods (2. ed. , [3. Dr.] ed.). Thousand Oaks, CA [u.a.]: Sage Publications. ISBN 978-0-7619-1904-9.
↑ Fidell, Barbara G. Tabachnick, Linda S. (2007). Using multivariate statistics (5th ed.). Boston ; Montreal: Pearson/A & B. ISBN 978-0-205-45938-4.
↑ Warne, Russell T. (2011). "Beyond multiple regression: Using commonality analysis to better understand R2 results". Gifted Child Quarterly. 55 (4): 313–318. doi:10.1177/0016986211422217.
↑ Berk, Richard A. (2007). "Regression Analysis: A Constructive Critique". Criminal Justice Review. 32 (3): 301–302. doi:10.1177/0734016807304871.
↑ Everitt, B.S. (2002) The Cambridge Dictionary of Statistics, CUP. ISBN 0-521-81099-X (entry for Regression diagnostics)
↑ Cook, R. Dennis (February 1977). "Detection of Influential Observations in Linear Regression". Technometrics. American Statistical Association. 19 (1): 15–18. doi:10.2307/1268249. JSTOR 1268249. MR 0436478.
↑ Anscombe, F. J. (1973). "Graphs in Statistical Analysis". American Statistician. 27 (1): 17–21. doi:10.1080/00031305.1973.10478966. JSTOR 2682899.
↑ Dodhia, Rahul M. (2005). "Review of Applied Multiple Regression/Correlation Analysis for the Behavioral Sciences". Journal of Educational and Behavioral Statistics. 30 (2): 227–229. ISSN 1076-9986. Archived from the original on 24 May 2019. Retrieved 21 May 2019.
↑ Cook, Douglas O.; Kieschnick, Robert; McCullough, B. D. (2008-12-01). "Regression analysis of proportions in finance with self selection". Journal of Empirical Finance. 15 (5): 860–867. doi:10.1016/j.jempfin.2008.02.001. ISSN 0927-5398. Archived from the original on 24 May 2019. Retrieved 21 May 2019.
↑ Deaton, Angus (1992). Understanding Consumption. Oxford University Press. ISBN 978-0-19-828824-4.
↑ Krugman, Paul R.; Obstfeld, M.; Melitz, Marc J. (2012). International Economics: Theory and Policy (9th global ed.). Harlow: Pearson. ISBN 978-0-273-75409-1.
↑ Laidler, David E. W. (1993). The Demand for Money: Theories, Evidence, and Problems (4th ed.). New York: Harper Collins. ISBN 978-0-06-501098-5.
↑ Ehrenberg; Smith (2008). Modern Labor Economics (10th international ed.). London: Addison-Wesley. ISBN 978-0-321-53896-3.
↑ EEMP webpage بایگانی‌شده در ۲۰۱۱-۰۶-۱۱ توسط Wayback Machine
↑ Doll, R. , Wheatley, K. , Gray, R. et al. "Mortality in relation to smoking: 40 years' observations on male British doctors ." BMJ 1994;309:901-911 (8 de octubre).
↑ "Environmental Tobacco Smoke and Adult Asthma" بایگانی‌شده در ۲۱ فوریه ۲۰۰۹ توسط Wayback Machine Division of Pulmonary and Critical Care Medicine, Division of Occupational and Environmental Medicine; Department of Medicine, Institute for Health Policy Studies; and Department of Epidemiology and Biostatistics, Universidad de California, San Francisco, California. (en inglés)
↑ Utilización de las líneas de tendencia, Paritech (en inglés)
↑ "Linear Regression (Machine Learning)" (PDF). University of Pittsburgh. Archived from the original (PDF) on 2 February 2017. Retrieved 21 May 2019.

برای مطالعهٔ بیشتر

سنفورد وایزبرگ (۱۳۷۴). رگرسیون خطی کاربردی. ترجمهٔ حسینعلی نیرومند. دانشگاه فردوسی مشهد. شابک ۹۷۸۹۶۴۶۳۳۵۱۹۶.
عبدالرضا بازرگان‌لاری (۱۳۸۵). رگرسیون خطی کاربردی. دانشگاه شیراز. شابک ۹۶۴۴۶۲۳۷۴۶.
تقی اخوان نیاکی، مجید خدمتی (۱۳۹۴). تجزیه و تحلیل رگرسیون. دانشگاه صنعتی شریف، مؤسسه انتشارات علمی. شابک ۹۷۸۹۶۴۲۰۸۱۲۵۷.
داگلاس مونتگمری، الیزابت پک (۱۳۹۰). مقدمه ای بر تحلیل رگرسیون خطی. ترجمهٔ ابراهیم رضوی پاریزی. دانشگاه شهید باهنر کرمان. شابک ۹۷۸-۹۶۴-۲۵۰۰-۲۹-۱.
ویلیام وی (۱۳۹۰). تحلیل سریهای زمانی: روشهای یک متغیری و چند متغیری. ترجمهٔ حسینعلی نیرومند. دانشگاه فردوسی مشهد. شابک ۹۶۴۶۳۳۵۱۹۵.

[1] معادل‌های پیشنهادی برای عبارت انگلیسی linear regression

[27] Tikhonov regularization

[33] verfitting

[35] ty

[38] LASSO مخفف least absolute shrinkage and selection operator

[39] sparse

[41] ridge regression

[42] validation data

[43] validation set

[49] quantile regression

[53] st-angle regression (LARS)

[55] y weighted linear regression

[57] ralized linear regression

[60] rarchical model

[61] ultilevel model

[66] regression diagnostic

[68] Cook's distance

[MardiaK1979Multivariate-2] Mardia, K. V; Kent, J. T.; Bibby, J. M. (1979). Multivariate Analysis. Academic Press. ISBN 0-12-471252-5.

[:6-3] Galton, Francis (1886). "Regression Towards Mediocrity in Hereditary Stature". The Journal of the Anthropological Institute of Great Britain and Ireland. 15: 246–263. doi:10.2307/2841583. JSTOR 2841583. Archived from the original on 4 August 2019. Retrieved 4 August 2019.

[Freedman09-4] David A. Freedman (2009). Statistical Models: Theory and Practice. Cambridge University Press. p. 26. A simple regression equation has on the right hand side an intercept and an explanatory variable with a slope coefficient. A multiple regression equation has two or more explanatory variables on the right hand side, each with its own slope coefficient

[5] Bishop, C. M. (2006), Pattern Recognition and Machine Learning, Springer, p. 179, ISBN 978-0-387-31073-2

[Legendre-6] A.M. Legendre. Nouvelles méthodes pour la détermination des orbites des comètes بایگانی‌شده در ۷ ژوئن ۲۰۱۹ توسط Wayback Machine, Firmin Didot, Paris, 1805. “Sur la Méthode des moindres quarrés” appears as an appendix.

[Gauss-7] C.F. Gauss. Theoria Motus Corporum Coelestium in Sectionibus Conicis Solem Ambientum. (1809)

[8] Yan, Xin (2009), Linear Regression Analysis: Theory and Computing, World Scientific, pp. 1–2, ISBN 9789812834119, archived from the original on 8 June 2019, retrieved 25 September 2018, Regression analysis … is probably one of the oldest topics in mathematical statistics dating back to about two hundred years ago. The earliest form of the linear regression was the least squares method, which was published by Legendre in 1805, and by Gauss in 1809 … Legendre and Gauss both applied the method to the problem of determining, from astronomical observations, the orbits of bodies about the sun.

[Gauss2-9] C.F. Gauss. Theoria combinationis observationum erroribus minimis obnoxiae بایگانی‌شده در ۱۰ ژوئن ۲۰۱۹ توسط Wayback Machine. (1821/1823)

[10] Seal, Hilary L. (1967). "Studies in the History of Probability and Statistics. XV: The Historical Development of the Gauss Linear Model". Biometrika. 54 (1/2): 1–24. doi:10.2307/2333849. ISSN 0006-3444. Archived from the original on 24 January 2020. Retrieved 24 January 2020.

[11] Fisher, R.A. (1922). "The goodness of fit of regression formulae, and the distribution of regression coefficients". Journal of the Royal Statistical Society. 85 (4): 597–612. doi:10.2307/2341124. JSTOR 2341124. PMC 1084801.

[12] Aldrich, John (2005). "Fisher and Regression". Statistical Science. 20 (4): 401–417. ISSN 0883-4237. Archived from the original on 24 January 2020. Retrieved 24 January 2020.

[:7-13] David C. Atkins. "Regression". www.encyclopedia.com (به انگلیسی). Archived from the original on 25 May 2019. Retrieved 2019-08-04.

[stigler-14] Stigler, Stephen M (1986). The History of Statistics: The Measurement of Uncertainty before 1900. Cambridge: Harvard. ISBN 0-674-40340-1.

[15] Rodney Ramcharan. Regressions: Why Are Economists Obessessed with Them? بایگانی‌شده در ۵ اوت ۲۰۲۰ توسط Wayback Machine March 2006. Accessed 2011-12-03.

[:02-16] Poole, Michael A.; O'Farrell, Patrick N. (1971). "The Assumptions of the Linear Regression Model". Transactions of the Institute of British Geographers (52): 145–158. doi:10.2307/621706. ISSN 0020-2754. Archived from the original on 24 May 2019. Retrieved 22 May 2019.

[:12-17] Allen, R. G. D. (1939). "The Assumptions of Linear Regression". Economica. 6 (22): 191–201. doi:10.2307/2548931. ISSN 0013-0427. Archived from the original on 24 May 2019. Retrieved 22 May 2019.

[Koenker20053-18] Koenker, Roger (2005). Quantile Regression. Cambridge University Press. pp. 147. ISBN 978-0-521-60827-5.

[tibs_lasso-19] Tibshirani, Robert (1996). "Regression Shrinkage and Selection via the Lasso". Journal of the Royal Statistical Society, Series B. 58 (1): 267–288. JSTOR 2346178.

[Hilary_L._Seal_1967_1–24-20] Hilary L. Seal (1967). "The historical development of the Gauss linear model". Biometrika. 54 (1/2): 1–24. doi:10.1093/biomet/54.1-2.1. JSTOR 2333849.

[:13-21] Rencher, Alvin C.; Christensen, William F. (2012), "Chapter 10, Multivariate regression – Section 10.1, Introduction", Methods of Multivariate Analysis, Wiley Series in Probability and Statistics, vol. 709 (3rd ed.), John Wiley & Sons, p. 19, ISBN 978-1-118-39167-9, archived from the original on 15 June 2019, retrieved 25 September 2018.

[Boddy-22] Boddy, Richard; Smith, Gordon (2009). Statistical methods in practice: for scientists and technologists. Chichester, U.K.: Wiley. pp. 95–96. ISBN 978-0-470-74664-6.

[23] Rencher, Alvin C.; Christensen, William F. (2012-08-15). Methods of Multivariate Analysis (به انگلیسی). John Wiley & Sons. p. 19. Archived from the original on 5 October 2018.

[:4-24] Yan, Xin (2009). Linear Regression Analysis: Theory and Computing (به انگلیسی). World Scientific. Archived from the original on 5 October 2018.

[25] Rencher, Alvin C.; Christensen, William F. (2012-08-15). Methods of Multivariate Analysis (به انگلیسی). John Wiley & Sons. p. 155. Archived from the original on 5 October 2018.

[26] Golub, Gene H.; Hansen, Per Christian.; O'Leary, Dianne P. (1999-01-01). "Tikhonov Regularization and Total Least Squares". SIAM Journal on Matrix Analysis and Applications. 21 (1): 185–194. doi:10.1137/S0895479897326432. ISSN 0895-4798. Archived from the original on 10 September 2014. Retrieved 19 December 2019.

[28] Jolliffe, Ian T. (1982). "A note on the Use of Principal Components in Regression". Journal of the Royal Statistical Society, Series C. 31 (3): 300–303. doi:10.2307/2348005. JSTOR 2348005.

[:03-29] Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). "The Elements of Statistical Learning". Springer Series in Statistics (به انگلیسی): 80–82. doi:10.1007/978-0-387-84858-7. ISSN 0172-7397. Archived from the original on 27 December 2019. Retrieved 30 December 2019.

[:3-30] Zhang, Tong (2004). "Solving Large Scale Linear Prediction Problems Using Stochastic Gradient Descent Algorithms". Proceedings of the Twenty-first International Conference on Machine Learning. ICML '04. New York, NY, USA: ACM: 116–. doi:10.1145/1015330.1015332. ISBN 978-1-58113-838-2. Archived from the original on 7 October 2008. Retrieved 17 May 2019.

[:2-31] Machine learning: a probabilistic perspective بایگانی‌شده در ۴ نوامبر ۲۰۱۸ توسط Wayback Machine, Kevin P Murphy, 2012, p. 225, Cambridge, MA

[32] Machine learning: a probabilistic perspective بایگانی‌شده در ۴ نوامبر ۲۰۱۸ توسط Wayback Machine, Kevin P Murphy, 2012, p. 217, Cambridge, MA

[34] Bühlmann, Peter; van de Geer, Sara (2011). "Statistics for High-Dimensional Data". Springer Series in Statistics (به انگلیسی). doi:10.1007/978-3-642-20192-9. ISSN 0172-7397. Archived from the original on 21 February 2019. Retrieved 5 October 2018.

[:0-36] Bühlmann, Peter; van de Geer, Sara (2011). Theory for ℓ1/ℓ2-penalty procedures (به انگلیسی). Berlin, Heidelberg: Springer Berlin Heidelberg. pp. 249–291. doi:10.1007/978-3-642-20192-9_8. Archived from the original on 5 October 2018.

[bishop2006-37] Bishop, C. M. (2006), Pattern Recognition and Machine Learning, Springer, p. 146, ISBN 978-0-387-31073-2

[40] Natarajan, B. K. (1995). "Sparse Approximate Solutions to Linear Systems". SIAM Journal on Computing (به انگلیسی). 24 (2): 227–234. doi:10.1137/s0097539792240406. ISSN 0097-5397. Archived from the original on 24 May 2019. Retrieved 5 October 2018.

[44] Bishop, Christopher M (2016-08-23). Pattern Recognition and Machine Learning (به انگلیسی). New York: Springer New York. p. 30. Archived from the original on 5 October 2018.

[:1-45] Robert, Christian (2014-04-03). "Machine Learning, a Probabilistic Perspective". CHANCE (به انگلیسی). 27 (2): 62–63. doi:10.1080/09332480.2014.914768. ISSN 0933-2480. Archived from the original on 8 April 2019. Retrieved 15 November 2018.

[:033-46] Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). "The Elements of Statistical Learning". Springer Series in Statistics (به انگلیسی): 58. doi:10.1007/978-0-387-84858-7. ISSN 0172-7397. Archived from the original on 27 December 2019. Retrieved 30 December 2019.

[:035-47] Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). "The Elements of Statistical Learning". Springer Series in Statistics (به انگلیسی): 68–69. doi:10.1007/978-0-387-84858-7. ISSN 0172-7397. Archived from the original on 27 December 2019. Retrieved 30 December 2019.

[:034-48] Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). "The Elements of Statistical Learning". Springer Series in Statistics (به انگلیسی): 61–64. doi:10.1007/978-0-387-84858-7. ISSN 0172-7397. Archived from the original on 27 December 2019. Retrieved 30 December 2019.

[Koenker20052-50] Koenker, Roger (2005). Quantile Regression. Cambridge University Press. ISBN 978-0-521-60827-5.

[:8-51] Cade, Brian S.; Noon, Barry R. (2003). "A gentle introduction to quantile regression for ecologists" (PDF). Frontiers in Ecology and the Environment. 1 (8): 412–420. doi:10.2307/3868138. JSTOR 3868138. Archived from the original (PDF) on 7 January 2019. Retrieved 17 August 2019.

[:10-52] Fraley, Chris; Meier, Lukas; Choi, Nam Hee; Hesterberg, Tim (2008). "Least angle and ℓ1 penalized regression: A review". Statistics Surveys (به انگلیسی). 2: 61–93. doi:10.1214/08-SS035. ISSN 1935-7516. Archived from the original on 29 March 2019. Retrieved 17 August 2019.

[54] Efron, Bradley; Hastie, Trevor; Johnstone, Iain; Tibshirani, Robert (2004). "Least Angle Regression" (PDF). Annals of Statistics. 32 (2): pp. 407–499. arXiv:math/0406456. doi:10.1214/009053604000000067. MR 2060166. Archived from the original (PDF) on 19 June 2018. Retrieved 4 August 2019.

[:11-56] Cleveland, William S.; Devlin, Susan J. (1988-09-01). "Locally Weighted Regression: An Approach to Regression Analysis by Local Fitting". Journal of the American Statistical Association. 83 (403): 596–610. doi:10.1080/01621459.1988.10478639. ISSN 0162-1459. Archived from the original on 22 May 2019. Retrieved 4 August 2019.

[:9-58] Goldberger, Arthur S. (1962-06-01). "Best Linear Unbiased Prediction in the Generalized Linear Regression Model". Journal of the American Statistical Association. 57 (298): 369–375. doi:10.1080/01621459.1962.10480665. ISSN 0162-1459. Archived from the original on 18 February 2021. Retrieved 4 August 2019.

[59] "(PDF) Application of polynomial regression models for prediction of stress state in structural elements". ResearchGate (به انگلیسی). Archived from the original on 18 February 2021. Retrieved 2019-08-17.

[Raud-62] Bryk, Stephen W. Raudenbush, Anthony S. (2002). Hierarchical linear models: applications and data analysis methods (2. ed. , [3. Dr.] ed.). Thousand Oaks, CA [u.a.]: Sage Publications. ISBN 978-0-7619-1904-9.

[Fidell-63] Fidell, Barbara G. Tabachnick, Linda S. (2007). Using multivariate statistics (5th ed.). Boston ; Montreal: Pearson/A & B. ISBN 978-0-205-45938-4.

[64] Warne, Russell T. (2011). "Beyond multiple regression: Using commonality analysis to better understand R2 results". Gifted Child Quarterly. 55 (4): 313–318. doi:10.1177/0016986211422217.

[65] Berk, Richard A. (2007). "Regression Analysis: A Constructive Critique". Criminal Justice Review. 32 (3): 301–302. doi:10.1177/0734016807304871.

[Everitt-67] Everitt, B.S. (2002) The Cambridge Dictionary of Statistics, CUP. ISBN 0-521-81099-X (entry for Regression diagnostics)

[69] Cook, R. Dennis (February 1977). "Detection of Influential Observations in Linear Regression". Technometrics. American Statistical Association. 19 (1): 15–18. doi:10.2307/1268249. JSTOR 1268249. MR 0436478.

[Anscombe22-70] Anscombe, F. J. (1973). "Graphs in Statistical Analysis". American Statistician. 27 (1): 17–21. doi:10.1080/00031305.1973.10478966. JSTOR 2682899.

[:5-71] Dodhia, Rahul M. (2005). "Review of Applied Multiple Regression/Correlation Analysis for the Behavioral Sciences". Journal of Educational and Behavioral Statistics. 30 (2): 227–229. ISSN 1076-9986. Archived from the original on 24 May 2019. Retrieved 21 May 2019.

[72] Cook, Douglas O.; Kieschnick, Robert; McCullough, B. D. (2008-12-01). "Regression analysis of proportions in finance with self selection". Journal of Empirical Finance. 15 (5): 860–867. doi:10.1016/j.jempfin.2008.02.001. ISSN 0927-5398. Archived from the original on 24 May 2019. Retrieved 21 May 2019.

[73] Deaton, Angus (1992). Understanding Consumption. Oxford University Press. ISBN 978-0-19-828824-4.

[Krugman2-74] Krugman, Paul R.; Obstfeld, M.; Melitz, Marc J. (2012). International Economics: Theory and Policy (9th global ed.). Harlow: Pearson. ISBN 978-0-273-75409-1.

[75] Laidler, David E. W. (1993). The Demand for Money: Theories, Evidence, and Problems (4th ed.). New York: Harper Collins. ISBN 978-0-06-501098-5.

[Ehrenberg2-76] Ehrenberg; Smith (2008). Modern Labor Economics (10th international ed.). London: Addison-Wesley. ISBN 978-0-321-53896-3.

[77] EEMP webpage بایگانی‌شده در ۲۰۱۱-۰۶-۱۱ توسط Wayback Machine

[78] Doll, R. , Wheatley, K. , Gray, R. et al. "Mortality in relation to smoking: 40 years' observations on male British doctors ." BMJ 1994;309:901-911 (8 de octubre).

[tabaco-79] "Environmental Tobacco Smoke and Adult Asthma" بایگانی‌شده در ۲۱ فوریه ۲۰۰۹ توسط Wayback Machine Division of Pulmonary and Critical Care Medicine, Division of Occupational and Environmental Medicine; Department of Medicine, Institute for Health Policy Studies; and Department of Epidemiology and Biostatistics, Universidad de California, San Francisco, California. (en inglés)

[tendencia-80] Utilización de las líneas de tendencia, Paritech (en inglés)

[81] "Linear Regression (Machine Learning)" (PDF). University of Pittsburgh. Archived from the original (PDF) on 2 February 2017. Retrieved 21 May 2019.