خوشهبندی کی-میانگین
خوشهبندی کی-میانگین (به انگلیسی: k-means clustering) روشی در کمیسازی بردارهاست که در اصل از پردازش سیگنال گرفته شده و برای آنالیز خوشهبندی در دادهکاوی محبوب است. کی-میانگین خوشهبندی با هدف تجزیه
تاریخچه الگوریتم
اصطلاح کی-میانگین (به انگلیسی: k-means clustering) برای اولین بار توسط جیمز مککوین در سال ۱۹۶۷ مورد استفاده قرار گرفت، هرچند این ایده به هوگو استینگز در سال ۱۹۵۷ باز میگردد. این الگوریتم ابتدا توسط استوارت لویید در سال ۱۹۵۷ به عنوان یک تکنیک برای مدولاسیون کد پالس پیشنهاد شد و تا سال ۱۹۸۲ خارج از آزمایشگاههای بل به انتشار نرسید. فورجی در سال ۱۹۶۵ الگوریتمی مشابه را منتشر کرد، به همین دلیل است که بعضی اوقات این الگوریتم، لویید فورجی هم نامیده میشود.
توضیحات
با توجه به مجموعهای از مشاهدات
که در آن
چون کل واریانس ثابت است، از قانون واریانس کلی میتوان نتیجه گرفت که این معادله برابر است با بیشینه کردن مربع انحرافات بین نقاط خوشههای مختلف (BCSS).
الگوریتم
الگوریتم استاندارد
رایجترین الگوریتم کی-میانگین با استفاده از یک تکرار شونده پالایش کار میکند. اغلب به نام الگوریتم کی-میانگین شناخته میشود. آن را با عنوان الگوریتم لوید نیز میشناسند مخصوصاً در میان جامعه علوم کامپیوتر.
الگوریتم به این شکل عمل میکند:
- ابتدا میانگین یعنیرا که نماینده خوشهها هستند، بصورت تصادفی مقداردهی میکنیم.
- سپس، این دو مرحله پایین را به تناوب چندین بار اجرا میکنیم تا میانگینها به یک ثبات کافی برسند و یا مجموع واریانسهای خوشهها تغییر چندانی نکنند:
- از میانگینها خوشه میسازیم، خوشهام در زمانتمام دادههایی هستند که از لحاظ اقلیدسی کمترین فاصله را با میانگینیعنی میانگینام در زماندارند. به زبان ریاضی خوشهام در زمانبرابر خواهد بود با:
- از میانگینها
- حال میانگینها را بر اساس این خوشه های جدید به این شکل بروز میکنیم:
- در نهایت میانگینهای مرحله آخر (در زمان ) یعنیخوشهها را نمایندگی خواهند کرد.
الگوریتم کی-میانگین را میتوان با پویانمایی پایین برای
نگارخانه
منابع
- ↑ MacQueen, J. B. (1967). Some Methods for classification and Analysis of Multivariate Observations. Proceedings of 5th Berkeley Symposium on Mathematical Statistics and Probability. Vol. 1. University of California Press. pp. 281–297. MR 0214227. Zbl 0214.46201. Retrieved 2009-04-07.
- ↑ Steinhaus, H. (1957). "Sur la division des corps matériels en parties". Bull. Acad. Polon. Sci. (به فرانسوی). 4 (12): 801–804. MR 0090073. Zbl 0079.16403.
- ↑ Lloyd, S. P. (1957). "Least square quantization in PCM". Bell Telephone Laboratories Paper. Published in journal much later: Lloyd., S. P. (1982). "Least squares quantization in PCM" (PDF). IEEE Transactions on Information Theory. 28 (2): 129–137. doi:10.1109/TIT.1982.1056489. Retrieved 2009-04-15.
- ↑ E.W. Forgy (1965). "Cluster analysis of multivariate data: efficiency versus interpretability of classifications". Biometrics. 21: 768–769. JSTOR 2528559.
- ↑ Kriegel, Hans-Peter; Schubert, Erich; Zimek, Arthur (2016). "The (black) art of runtime evaluation: Are we comparing algorithms or implementations?". Knowledge and Information Systems. 52: 341–378. doi:10.1007/s10115-016-1004-2. ISSN 0219-1377.
- ↑ MacKay, David (2003). "Chapter 20. An Example Inference Task: Clustering" (PDF). Information Theory, Inference and Learning Algorithms. Cambridge University Press. pp. 284–292. ISBN 0-521-64298-1. MR 2012999.
- ↑ Since the square root is a monotone function, this also is the minimum Euclidean distance assignment.
- ↑ Hartigan, J. A.; Wong, M. A. (1979). "Algorithm AS 136: A k-Means Clustering Algorithm". Journal of the Royal Statistical Society, Series C. 28 (1): 100–108. JSTOR 2346830.