فاصله کوک
در آمار، فاصله کوک یک تخمین متداول از تأثیر یک داده هنگام انجام تحلیل رگرسیون از طریق کمترین مربعات است. در کمترین مربعات، از فاصله کوک میتوان به چند روش استفاده کرد: برای نشان دادن دادههای تأثیرگذار که به خصوص ارزش اعتبارسنجی دارند یا نشان دادن مناطقی از فضای دادههای مستقل که دادههای بیشتری نیاز دارد. فاصله کوک به نام رالف دنیس کوک، آمارشناس آمریکایی نامگذاری شدهاست که این ایده را در سال ۱۹۷۷ معرفی کرد.
تعریف
دادههایی که ماندههای بزرگ دارند (دادههای پرت) یا تأثیر زیادی بر مدل نهائی دارند ممکن است نتیجه و دقت یک رگرسیون را تحریف کنند. فاصله کوک اثر حذف یک دادهها را اندازهگیری میکند.
ابتدا رگرسیون خطی را با فرمت ماتریسی به این شکل تعریف میکنیم:
در اینجا
در اینجا
برای تعریف فاصله کوک به دو تعریف اهرم قدرت و بردار باقیمانده نیاز داریم. عنصر
فاصله کوک برای داده
در اینجا
فاصله کوک را با استفاده از اهرم قدرت (
تشخیص دادههای تأثیرگذار
نظرات مختلفی در مورد انتخاب آستانه مناسب برای فاصله کوک ببرای کشف دادههای تأثیرگذار وجود دارد. از آنجا که فاصله کوک از توزیع اف با
جستارهای وابسته
منابع
- ↑ Mendenhall, William; Sincich, Terry (1996). A Second Course in Statistics: Regression Analysis (5th ed.). Upper Saddle River, NJ: Prentice-Hall. p. 422. ISBN 0-13-396821-9.
A measure of overall influence an outlying observation has on the estimated
coefficients was proposed by R. D. Cook (1979). Cook's distance, Di, is calculated... - ↑ Cook, R. Dennis (February 1977). "Detection of Influential Observations in Linear Regression". Technometrics. American Statistical Association. 19 (1): 15–18. doi:10.2307/1268249. JSTOR 1268249. MR 0436478.
- ↑ Cook, R. Dennis (March 1979). "Influential Observations in Linear Regression". Journal of the American Statistical Association. American Statistical Association. 74 (365): 169–174. doi:10.2307/2286747. JSTOR 2286747. MR 0529533.
- ↑ Hayashi, Fumio (2000). Econometrics. Princeton University Press. pp. 21–23.
- ↑ "Cook's Distance".
- ↑ "Statistics 512: Applied Linear Models" (PDF). Purdue University. Archived from the original (PDF) on 2016-11-30. Retrieved 2016-03-25.
- ↑ Bollen, Kenneth A.; Jackman, Robert W. (1990). "Regression Diagnostics: An Expository Treatment of Outliers and Influential Cases". In Fox, John; Long, J. Scott (eds.). Modern Methods of Data Analysis. Newbury Park, CA: Sage. pp. 266. ISBN 0-8039-3366-5.
- ↑ Cook, R. Dennis; Weisberg, Sanford (1982). Residuals and Influence in Regression. New York, NY: Chapman & Hall. ISBN 0-412-24280-X.
- ↑ Kim, Myung Geun (31 May 2017). "A cautionary note on the use of Cook's distance". Communications for Statistical Applications and Methods. 24 (3): 317–324. doi:10.5351/csam.2017.24.3.317. ISSN 2383-4757.