تحلیل مؤلفههای اصلی
تحلیل مؤلفههای اصلی (به انگلیسی: Principal Component Analysis - PCA) تبدیلی در فضای برداری است، که تحلیل مجموعه دادههای بزرگ با تعداد زیادی بعد یا ویژگی، افزایش تفسیرپذیری دادهها با حفظ حداکثر مقدار اطلاعات و تجسم دادههای چند بعدی را فراهم میکند. تحلیل مؤلفههای اصلی در واقع، یک تکنیک آماری برای کاهش ابعاد یک مجموعه داده است. این کار با تبدیل خطی دادهها به یک سیستم مختصات جدید انجام میشود که (بیشتر) تغییرات در دادهها را میتوان با ابعاد کمتری نسبت به دادههای اولیه توصیف کرد. بسیاری از مطالعات از دو مؤلفه اصلی اول برای نمایش دادهها در دو بعد و شناسایی بصری خوشههای نقاط داده نزدیک به هم استفاده میکنند. تحلیل مؤلفههای اصلی در بسیاری از زمینهها مانند ژنتیک جمعیت، مطالعات میکروبیومها و علوم جوی کاربرد دارد.
مؤلفهها اصلیِ مجموعهای از نقاط در یک فضای مختصات حقیقی، دنبالهای از بردارهای واحد
تاریخچه
تحلیل مؤلفههای اصلی اولین بار در سال ۱۹۰۱ توسط کارل پیرسون به عنوان متناظری از قضیه محورهای اصلی در مکانیک ارائه شد. این روش بعدها به صورت مستقل توسط هارولد هتلینگ در دهه 1930 میلادی توسعه یافت و نامگذاری شد. باتوجه به کاربرد این روش آن را تبدیل گسسته کارانن-لوف یا KLT در پردازش سیگنال نیز یا تبدیل هتلینگ در کنترل کیفیت چند متغیره مینامند.
ایده
تحلیل مؤلفههای اصلی را میتوان به عنوان برازش یک بیضی با ابعاد
جزئیات
تحلیل مؤلفههای اصلی در تعریف ریاضی یک تبدیل خطی متعامد است که داده را به دستگاه مختصات جدید میبرد بهطوریکه بزرگترین واریانس داده بر روی اولین محور مختصات، دومین بزرگترین واریانس بر روی دومین محور مختصات قرار میگیرد و همینطور برای بقیه.
ماتریس
تطبیق میدهد. به این صورت که متغیرهای در
مؤلفه اول
برای اینکه واریانس را بیشینه کنیم، اولین بردار وزن
و اگر آن را به صورت ماتریسی بنویسیم خواهیم داشت:
از آنجایی که
کمیتی که باید بیشینه شود را میتوان به عنوان خارج قسمت رایلی در نظر گرفت. یک نتیجه برای یک ماتریس مثبت نیمه معین مانند
با پیدا کردن
مؤلفههای بعدی
مؤلفه
و سپس بردار وزنی که حداکثر واریانس را از این ماتریس داده جدید استخراج میکند بهدست میآوریم:
عبارت بالا بردارهای ویژه باقیمانده
بنابراین، تجزیه کامل مؤلفههای اصلی
که در آن
تجزیه مقدارهای منفرد
تبدیل مؤلفههای اصلی را میتوان با تجزیه ماتریس دیگری، یعنی تجزیه مقدارهای منفرد
که اینجا
با این تجزیه میتوان ماتریس
که
بنابراین هر ستون ماتریس
محدودیتهای تحلیل مولفههای اصلی
استفاده از تحلیل مؤلفههای اصلی منوط به فرضهایی است که در نظر گرفته میشود. از جمله:
- فرض خطی بودن
فرض بر این است که مجموعه داده ترکیب خطی پایههایی خاص است.
- فرض بر این که میانگین و کواریانس از نظر احتمالاتی قابل اتکا هستند.
- فرض بر این که واریانس شاخصه اصلی دادهاست.
محاسبه مولفههای اصلی با استفاده از ماتریس کواریانس
بر اساس تعریف ارائه شده از تحلیل مؤلفههای اصلی، هدف از این تحلیل انتقال مجموعه داده X با ابعاد M به داده Y با ابعاد L است. بنابرین فرض بر این است که ماتریس X از بردارهای
محاسبه میانگین تجربی و نرمالسازی دادهها
نتیجه میانگین تجربی، برداری است که به صورت زیر به دست میآید:
که بهطور مشخص میانگین تجربی روی سطرهای ماتریس اعمال شدهاست.
سپس ماتریس فاصله تا میانگین به صورت زیر به دست میآید:
که h برداری با اندازه
محاسبه ماتریس کواریانس
ماتریس کواریانس C با ابعاد
- بهطوری که:
- میانگین حسابی است.
- ضرب خارجی است.
- ماتریس ترانهاده مزدوج ماتریساست.
محاسبه مقادیر ویژه ماتریس کواریانس و بازچینی بردارهای ویژه
در این مرحله، مقادیر ویژه و بردارهای ویژه ماتریس کواریانس،
V ماتریس بردارهای ویژه و D ماتریس قطری است که درایههای قطر آن مقادیر ویژه هستند.
آنچنان که مشخص است، هر مقدار ویژه متناظر با یک بردار ویژه است. به این معنا که ماتریس V ماتریسی
انتخاب زیرمجموعهای از بردارهای ویژه به عنوان پایه
انتخاب زیرمجموعهای از بردارهای ویژه با تحلیل مقادیر ویژه صورت میگیرد. زیرمجموعه نهایی با توجه به بازچینی مرحله قبل به صورت
انتخاب l باید به صورتی باشد که حداقل مقدار ممکن را داشته باشد و در عین حال g مقدار قابل قبولی داشته باشد. بهطور مثال میتوان حداقل l را انتخاب کرد که
بنابرین خواهیم داشت:
انتقال داده به فضای جدید
برای این کار ابتدا تبدیلات زیر انجام میگیرد:
ماتریس
سپس داده به صورت زیر تبدیل میشود:
که ماتریسهای
کاربرد
هوش
اولین کاربرد تحلیل مؤلفهای در پیداکردن و اندازهگیری مؤلفههای هوش انسانی بود. در گذشته باورها بر این بود که هوش دارای مؤلفههای نامرتبط مختلفی مانند هوش فضایی، هوش کلامی، استنتاج، قیاس و غیره است و میتوان امتیازات مربوط به این موارد را با تحلیل مؤلفهای از نتایج آزمونهای مختلف بهدست آورد تا یک شاخص واحد به نام ضریب هوش (IQ) بدست آورد. روانشناس آماری چارلز اسپیرمن در واقع تحلیل مؤلفهای را در سال 1904 برای نظریه دو عاملی هوش خود توسعه داد و یک تکنیک رسمی را به علم روانسنجی اضافه کرد. در سال 1924، تورستون 56 عامل هوش را بررسی کرد و مفهوم سن ذهنی را توسعه داد. تستهای استاندارد هوش امروزی بر اساس همین کار اولیه است.
ژنتیک جمعیت
در سال 1978 کاوالی-اسفورزا و دیگران پیشگام استفاده از تحلیل مؤلفههای اصلی برای خلاصهکردن دادهها درباره تنوع در فرکانسهای ژن انسانی در مناطق مختلف بودند. مؤلفهها، الگوهای متمایزی از جمله گرادیان و امواج سینوسی را نشان دادند. آنها این الگوها را ناشی از رویدادهای مهاجرت باستانی تفسیر کردند.
نرمافزارها
- در نرمافزار متلب تابع
princomp
مؤلفههای اصلی را بازمیگرداند که در نسخههای جدید، تابعpca
جایگزین آن شدهاست. - در زبان پایتون کتابخانه matplotlib دارای پکیج PCA در ماژول
mlab.
است. - کتابخانه scikit-learn در پایتون برای یادگیری ماشین که شامل PCA، PCA احتمالی، Kernel PCA، Sparse PCA و تکنیکهای دیگر در ماژول
decomposition
است. - OpenCV
- Eviews
- در نرمافزار R تابع
prcomp
وprincomp
مؤلفههای اصلی را بازمیگرداند.prcomp
از تجزیه مقدارهای منفرد استفاده میکند که به طور کلی دقت عددی بهتری دارد. برخی از پکیجها که PCA را در R پیادهسازی میکنند، عبارتند از:ade4
وvegan
وExPosition
جستارهای وابسته
منابع
- ↑ Jolliffe, Ian T.; Cadima, Jorge (2016-04-13). "Principal component analysis: a review and recent developments". Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences. 374 (2065): 20150202. doi:10.1098/rsta.2015.0202. PMC 4792409. PMID 26953178.
- ↑ Pearson, K. (1901). "On Lines and Planes of Closest Fit to Systems of Points in Space". Philosophical Magazine. 2 (11): 559–572. doi:10.1080/14786440109462720.
- ↑ Hotelling, H. (1933). Analysis of a complex of statistical variables into principal components. Journal of Educational Psychology, 24, 417–441, and 498–520.
Hotelling, H (1936). "Relations between two sets of variates". Biometrika. 28 (3/4): 321–377. doi:10.2307/2333955. JSTOR 2333955. - ↑ Jolliffe I.T. Principal Component Analysis بایگانیشده در ۲۰۱۹-۱۰-۱۶ توسط Wayback Machine, Series: Springer Series in Statistics, 2nd ed. , Springer, NY, 2002, XXIX, 487 p. 28 illus. ISBN 978-0-387-95442-4
- ↑ Kaplan, R.M., & Saccuzzo, D.P. (2010). Psychological Testing: Principles, Applications, and Issues. (8th ed.). Belmont, CA: Wadsworth, Cengage Learning.