الگوریتم DBSCAN یا همان Density Based Spatial Clustering of Applications with Noise رایج ترین الگوریتم خوشه بندی مبتنی بر تراکم می باشد که در مقابل نویز و داده های پرت مقاوم می باشد. همچنین با توجه به ساختار این الگوریتم، جهت شناسایی الگوهای پیچیده و غیرکروی مورد استفاده قرار می گیرد.
ایده اصلی در این الگوریتم این است که یک رکورد به یک خوشه تعلق دارد در صورتی که به رکوردهای زیادی از آن خوشه نزدیک باشد.
بنابراین تعریف میزان تراکم داده ها، اهمیت اساسی در شناسایی ساختار الگوها دارد.
دو پارامتر اصلی برای اجرای الگوریتم وجود دارد:
eps یا شعاع همسایگی: فاصله ای که برای تعریف همسایگی به کار می رود. اگر دو رکورد دارای فاصله کمتر از آن باشند، نقاط همسایه در نظر گرفته می شود.
minPts: حداقل تعداد همسایه در محدوده یک شعاع تعریف شده جهت قرار گیری در یک خوشه با توجه به پارامترهای تعریف شده، سه گروه از داده ها قابل تعریف است:
نقاط مرکزی Core Point: نقاطی از داده ها که در شعاع همسایگی آنها حداقل به تعداد minPts همسایه وجود داشته باشد.
Border Points نقاط مرزی: همسایگانی از نقاط مرکزی که قابلیت تبدیل به نقاط مرکزی ندارند.
نقاط پرت Noise Points: نقاطی که در همسایگی هیچ نقطه مرکزی نیستند.
الگوریتمهای چند هدفه از مزایای بسیاری برخوردارند. این مزایا شامل:
گسترده بودن راهحلها: این الگوریتمها معمولاً گزینههای متنوعی را به عنوان پاسخ به یک مسئله چند هدفه ارائه میدهند، که این گسترده بودن میتواند به تصمیمگیران کمک کند تا از بین حلهای مختلف، راهحلی مناسب برای نیازهای خود انتخاب کنند.
تعادل بین اهداف: این الگوریتمها قادرند تا در تعادل بین اهداف مختلف، یک راهحل بهینهیا بهترین نقطه در فضای حل را پیدا کنند. این امکان به تصمیمگیران کمک میکند تا به جای تمرکز بر روییک هدف، چندین هدف را همزمان در نظر بگیرند.
پوشش کامل: الگوریتمهای چند هدفه توانایی پوشش گستردهای از حلهای ممکن را دارند که این امر میتواند کمک کننده باشد تا تمامی مسائل و اهداف موردنظر در نظر گرفته شوند.
انعطاف پذیری: این الگوریتمها معمولاً انعطاف پذیری بالایی دارند و میتوانند به طور موثر با مسائل مختلف و نیازهای متنوع مقابله کنند.
استفاده از الگوریتمهای چند هدفه میتواند در صنایع مختلف مانند مهندسی، بهینهسازی مسائل مالی، برنامهریزی منابع، و حوزههای تصمیمگیری مختلف بسیار مفید باشد.
ادامه مطلب ...
این معیارها برای ارزیابی کیفیت گروهبندی یا کلاسترینگ مورد استفاده قرار میگیرند:
NMI Normalized Mutual Information: این معیار، اندازهگیری تطابق بین دو تقسیمبندی یا گروهبندی مختلف را ارزیابی میکند. NMI به دنبال میزان اطلاعات مشترک بین دو تقسیمبندی است و ارزش بین ۰ تا ۱ دارد؛ که صفر به معنای عدم تطابق و یک به معنای تطابق کامل است.
CCF Corrected Rand Index: این معیار همچنین به اندازهگیری تطابق بین دو تقسیمبندی یا گروهبندی میپردازد. CCF با اندازهگیری تطابق و همبستگی بین دو تقسیمبندی، ارزشی بین -۱ تا ۱ دارد که -۱ به معنای تطابق معکوس و صفر به معنای تطابق تصادفی است.
VI Variation of Information: این معیار به دنبال اندازهگیری فاصله بین دو تقسیم بندی یا گروهبندی میگردد. VI مقیاسی غیرمنفی است که میزان اطلاعاتی که یک تقسیمبندی راجع به دیگری نادیده میگیرد را نشان میدهد. این مقیاس همچنین ارزشی بین ۰ تا بینهایت دارد.
این معیارها ابزارهای مفیدی برای ارزیابی و مقایسه کیفیت گروهبندیها در حوزههایی مانند کلاسترینگ و دادهکاوی هستند.
:lancichinetti
یکی از ابزارهای مورد استفاده در شبکههای پیچیده است که برای اندازهگیری ساختار اجتماعات در گرافها و شبکهها به کار میرود. این معیار بر اساس شباهت بین ساختار اجتماعات موجود در یک شبکه و ساختارهای تصادفی مدلسازی شده است. استفاده از این معیار میتواند در تحلیل و شناخت بهتر اجتماعات در شبکهها و بررسی ویژگیهای آنها مفید باشد.
fortunato_radicchi
یک ابزار است که برای اندازهگیری کیفیت اجتماعات در شبکهها مورد استفاده قرار میگیرد. این معیار بر پایه مفهوم اطلاعات متقابل mutual information استوار است و از طریق مقایسه ساختار واقعی شبکه با یک مدل تصادفی مشخص، ارزیابی کیفیت و اجتماعات موجود در آن را انجام میدهد. به وسیلهی این معیار، میتوانیم اجتماعات معنادار و قابل تشخیص را درون شبکهها شناسایی کرده و مورد مطالعه قرار دهیم.