تحلیل خوشه ای چیست؟

تحلیل خوشه ای چیست؟

اصطلاح تحلیل خوشه ای (کلاستر) که اولین بار توسط تریون در سال 1939 استفاده شد، در بردارنده الگوریتم‌ها و روش‌هایی برای گروه‌بندی موردهای مشابه (شامل افراد، اشیاء، رویدادها و ...) درون طبقات مختلف می‌باشد. سؤالی که معمولاً محققان با آن روبرو می‌شوند این است که "چگونه داده‌های مشاهده شده را درون ساختاری بامعنی سازماندهی کنند؟". تحلیل کلاستر موارد را بر اساس میزان ارتباطشان دسته‌بندی می‌کند. بنابراین افراد یک کلاستر دارای بیشترین میزان ارتباط با یکدیگر و کمترین میزان ارتباط با اعضای دیگر کلاسترها می‌باشند. از آنچه گفته شد می‌توان فهمید که تحلیل کلاستر بدون آن‌که به تشریح چرایی وجود داده‌ها بپردازد، برای کشف ساختار داده‌ها بکار می‌رود.بنابراین تحلیل کلاستر ابزاری اکتشافی است که می‌تواند ارتباطات و ساختار بین داده‌ها را که قبلاً مشهود و محسوس نبودند را آشکار نماید.در این روش هیچ فرضی در مورد تعداد گروه‌ها یا ساختمان آن‌ها در نظر گرفته نمی‌شود. دسته‌بندی کردن بر اساس مشابهت‌ها و یا فواصل انجام می‌شود.

چرا تحلیل خوشه‌ای ارزشمند است؟

اما ممکن استگروه‌های غیرقابل انتظاری ایجاد کند که احتمالاً بیانگر روابط جدیدی خواهد بود و باید مورد بررسی دقیق‌تری قرار گیرند.

انواع تحلیل خوشه‌ای

تحلیل خوشه‌ای دو مرحله‌ای Two-Step Cluster Analysis))
تحلیل خوشه‌ای –KمیانگینK-Means Cluster Analysis))
تحلیل خوشه‌ای سلسله مراتبی(Hierarchical Cluster Analysis)

تحلیل خوشهای دو مرحله‌ای

این رویه (Procedure)، ابزاری اکتشافی است که برای آشکار نمودن گروه‌های (خوشه‌های) ذاتی و طبیعی موجود در مجموعه داده که به طور معمول دیده نمی‌شوند، طراحی شده است.

وجه تمایز الگوریتم موجود در این رویه با فنون سنتی خوشه‌بندی بصورت زیر بیان می شود:

قابلیت خوشه‌بندی بر اساس متغیرهای گسسته (رسته‌ای) و پیوسته
انتخاب خودکار تعداد خوشه‌ها
قابلیت تحلیل کارآمد فایل داده‌های بسیار بزرگ

این روش برای پیدا کردن گروه‌های واقعی موجود در مشاهدات یا متغیرها بسیار مفید است. همزمان با متغیرهای پیوسته وگسسته به خوبی کار می‌کند. همچنینمی‌تواند فایل داده‌های بسیار بزرگ را تحلیل نماید.

تحلیل خوشه‌ای –Kمیانگین

این رویه محدود به متغیرهای قابل اندازه‌گیری (کمی) است. اما برای کار با داده‌های بزرگ مناسب است و امکان ذخیره‌سازی فاصله‌ها از مرکز خوشه را فراهم می‌نماید.

تحلیل خوشه‌ ای سلسله مراتبی

اگر تعداد مشاهدات کم باشد و انتخاب بین چندین روش مختلف سازماندهی خوشه‌ها، تبدیل متغیرها و اندازه‌گیری عدم شباهت بین خوشه‌ها مطرح باشد، معمولاً این رویه پیشنهاد می‌شود.

در روش خوشه‌بندی سلسله مراتبی، به خوشه‌های نهایی بر اساس میزان عمومیت آن‌ها ساختاری سلسله‌ مراتبی، معمولاً به صورت درختی نسبت داده می‌شود. به این درخت سلسله مراتبی دندوگرام می‌گویند. روش‌های خوشه‌بندی بر اساس ساختار سلسله مراتبی تولیدی توسط آن‌ها معمولاً به دو دسته زیر تقسیم می‌شوند:

تقسیم کننده: در این روش ابتدا تمام داده‌ها به عنوان یک خوشه در نظر گرفته می‌شوند و سپس در طی یک فرایند تکراری در هر مرحله داده‌هاییکه شباهت کمتری به هم دارند به خوشه‌های مجزایی شکسته می‌شوند و این روال تا رسیدن به خوشه‌هایی که دارای یک عضو هستند ادامه پیدا می‌کند.

متراکم شونده: در این روش ابتدا هر داده‌ به عنوان خوشه‌ای مجزا در نظر گرفته می‌شود و در طی فرایندی تکراری در هر مرحله خوشه‌هایی که شباهت بیشتری با یکدیگر دارند، ترکیب می‌شوند تا در نهایت یک خوشه و یا تعداد مشخصی خوشه حاصل شود. از انواع الگوریتم‌های خوشه‌بندی سلسله مراتبی متراکم شونده رایج می‌‌توان از الگوریتم‌هایSingle Linkage، Average Linkage و Complete Linkage نام برد. تفاوت اصلی در بین تمام این روش‌ها به نحوه محاسبه شباهت بین خوشه‌ها مربوط می‌شود.

احسان سلیمانی سه‌شنبه 5 دی 1396 ساعت 11:50

ش	ی	د	س	چ	پ	ج
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

CD: Community Detection

CD: Community Detection

درباره من

تقویم