CD: Community Detection

CD: Community Detection

تشخیص انجمن
CD: Community Detection

CD: Community Detection

تشخیص انجمن

الگوریتم DBSCAN

الگوریتم DBSCAN  یا همان Density Based Spatial Clustering of Applications with Noise رایج ترین الگوریتم خوشه بندی مبتنی بر تراکم می باشد که در مقابل نویز و داده های پرت مقاوم می باشد. همچنین با توجه به ساختار این الگوریتم، جهت شناسایی الگوهای پیچیده و غیرکروی مورد استفاده قرار می گیرد.

ایده اصلی در این الگوریتم این است که یک رکورد به یک خوشه تعلق دارد در صورتی که به رکوردهای زیادی از آن خوشه نزدیک باشد.

بنابراین تعریف میزان تراکم داده ها، اهمیت اساسی در شناسایی ساختار الگوها دارد.

دو پارامتر اصلی برای اجرای الگوریتم

دو پارامتر اصلی برای اجرای الگوریتم وجود دارد:

eps یا شعاع همسایگی: فاصله ای که برای تعریف همسایگی به کار می رود. اگر دو رکورد دارای فاصله کمتر از آن باشند، نقاط همسایه در نظر گرفته می شود.

minPts: حداقل تعداد همسایه در محدوده یک شعاع تعریف شده جهت قرار گیری در یک خوشه با توجه به پارامترهای تعریف شده، سه گروه از داده ها قابل تعریف است:

نقاط مرکزی Core Point: نقاطی از داده ها که در شعاع همسایگی آنها حداقل به تعداد minPts همسایه وجود داشته باشد.

Border Points نقاط مرزی: همسایگانی از نقاط مرکزی که قابلیت تبدیل به نقاط مرکزی ندارند.

نقاط پرت Noise Points: نقاطی که در همسایگی هیچ نقطه مرکزی نیستند.

  ادامه مطلب ...

مزایا و معایب الگوریتم های چند هدفه

الگوریتم‌های چند هدفه از مزایای بسیاری برخوردارند. این مزایا شامل:

گسترده بودن راه‌حل‌ها: این الگوریتم‌ها معمولاً گزینه‌های متنوعی را به عنوان پاسخ به یک مسئله چند هدفه ارائه می‌دهند، که این گسترده بودن می‌تواند به تصمیم‌گیران کمک کند تا از بین حل‌های مختلف، راه‌حلی مناسب برای نیازهای خود انتخاب کنند.

تعادل بین اهداف: این الگوریتم‌ها قادرند تا در تعادل بین اهداف مختلف، یک راه‌حل بهینهیا بهترین نقطه در فضای حل را پیدا کنند. این امکان به تصمیم‌گیران کمک می‌کند تا به جای تمرکز بر روییک هدف، چندین هدف را همزمان در نظر بگیرند.

پوشش کامل: الگوریتم‌های چند هدفه توانایی پوشش گسترده‌ای از حل‌های ممکن را دارند که این امر می‌تواند کمک کننده باشد تا تمامی مسائل و اهداف موردنظر در نظر گرفته شوند.

انعطاف پذیری: این الگوریتم‌ها معمولاً انعطاف پذیری بالایی دارند و می‌توانند به طور موثر با مسائل مختلف و نیازهای متنوع مقابله کنند.

استفاده از الگوریتم‌های چند هدفه می‌تواند در صنایع مختلف مانند مهندسی، بهینه‌سازی مسائل مالی، برنامه‌ریزی منابع، و حوزه‌های تصمیم‌گیری مختلف بسیار مفید باشد.

 

ادامه مطلب ...

معیار های ارزیابی

این معیارها برای ارزیابی کیفیت گروه‌بندی یا کلاسترینگ مورد استفاده قرار می‌گیرند:

NMI Normalized Mutual Information: این معیار، اندازه‌گیری تطابق بین دو تقسیم‌بندی یا گروه‌بندی مختلف را ارزیابی می‌کند. NMI به دنبال میزان اطلاعات مشترک بین دو تقسیم‌بندی است و ارزش بین ۰ تا ۱ دارد؛ که صفر به معنای عدم تطابق و یک به معنای تطابق کامل است.

CCF Corrected Rand Index: این معیار همچنین به اندازه‌گیری تطابق بین دو تقسیم‌بندی یا گروه‌بندی می‌پردازد. CCF با اندازه‌گیری تطابق و همبستگی بین دو تقسیم‌بندی، ارزشی بین -۱ تا ۱ دارد که -۱ به معنای تطابق معکوس و صفر به معنای تطابق تصادفی است.

VI Variation of Information: این معیار به دنبال اندازه‌گیری فاصله بین دو تقسیم‌ بندی یا گروه‌بندی می‌گردد. VI مقیاسی غیرمنفی است که میزان اطلاعاتی که یک تقسیم‌بندی راجع به دیگری نادیده می‌گیرد را نشان می‌دهد. این مقیاس همچنین ارزشی بین ۰ تا بی‌نهایت دارد.

این معیارها ابزارهای مفیدی برای ارزیابی و مقایسه کیفیت گروه‌بندی‌ها در حوزه‌هایی مانند کلاسترینگ و داده‌کاوی هستند.

:lancichinetti

یکی از ابزارهای مورد استفاده در شبکه‌های پیچیده است که برای اندازه‌گیری ساختار اجتماعات در گراف‌ها و شبکه‌ها به کار می‌رود. این معیار بر اساس شباهت بین ساختار اجتماعات موجود در یک شبکه و ساختارهای تصادفی مدل‌سازی شده است. استفاده از این معیار می‌تواند در تحلیل و شناخت بهتر اجتماعات در شبکه‌ها و بررسی ویژگی‌های آنها مفید باشد.

fortunato_radicchi

یک ابزار است که برای اندازه‌گیری کیفیت اجتماعات در شبکه‌ها مورد استفاده قرار می‌گیرد. این معیار بر پایه مفهوم اطلاعات متقابل mutual information استوار است و از طریق مقایسه ساختار واقعی شبکه با یک مدل تصادفی مشخص، ارزیابی کیفیت و اجتماعات موجود در آن را انجام می‌دهد. به وسیله‌ی این معیار، می‌توانیم اجتماعات معنادار و قابل تشخیص را درون شبکه‌ها شناسایی کرده و مورد مطالعه قرار دهیم.

ادامه مطلب ...