همانطور که از اسم این الگوریتم مشخص است، این روش سلسله مراتبی از خوشه ها ایجاد می کند.

در قدم اول هریک از رکوردها را به عنوان یک خوشه در نظر می گیرد. سپس نزدیکترین رکورد ها (شبیه ترین ها) را در یک سطح بالاتر در خوشه دیگری قرار می دهد و این عمل را آنقدر ادامه می دهد تا تمام رکورد ها در یک خوشه قرار گیرند.

با این روش سلسله مراتبی از خوشه ها ایجاد می شود و با انتخاب هر سطح می توان خوشه های به دست آمده در آن لایه را استخراج کرد. (رویکرد پایین به بالا Agglomerative Approach)

در اجرای این الگوریتم به چند نکته می توان توجه نمود:

  • می توان با رویکرد بالا به پایین (Top – Down) در قدم اول، همه رکوردها را در یک خوشه قرار داد و در هر قدم دورترین رکوردها (کمترین شباهت) را جدا کرده و به خوشه جدید منتقل کرد. این عمل را آنقدر ادامه داد تا تمام رکوردها به عنوان یک خوشه در نظر گرفته شوند.
  • اجرای این الگوریتم نیاز به محاسبه ماتریس شباهت بین رکورد ها دارد. بنابراین با افزایش داده ها، زمان اجرای الگوریتم و نیاز به حافظه رم افزایش پیدا می کند.
  • عامل تعیین کننده در پیاده سازی این الگوریتم نحوه محاسبه شباهت می باشد که دارای معیارها و رویکردهای متفاوت است.

معیارهای متفاوتی برای اندازه شباهت بین دو رکورد می توان در نظر گرفت:

 فاصله اقلیدسی

با استفاده از «فاصله اقلیدسی» (Euclidean Distance) کوتاه‌ترین فاصله بین دو نقطه بر طبق رابطه فیثاغورث،‌ محاسبه می‌شود. اگر x‌ و y دو نقطه با p مولفه باشند، فاصله اقلیدسی بین این دو به صورت زیر قابل محاسبه است:

در تصویر زیر، فاصله اقلیدسی بین دو نقطه با مختصات  (x1,y1)(x1,y1) با (x2,y2)(x2,y2) نشان داده شده است.

در ادامه به بررسی خصوصیات تابع فاصله برای فاصله اقلیدسی می‌پردازیم.

  1. فاصله اقلیدسی باید نامنفی باشد: مشخص است که این رابطه مقداری نامنفی دارد زیرا از مجموع مربعات تفاضل‌ها ساخته شده است.
  2. وجود رابطه انعکاسی برای فاصله اقلیدسی: برای نقطه‌های x و y با مقدار مولفه‌های یکسان، فاصله اقلیدسی برابر با صفر خواهد بود. همچنین زمانی که فاصله اقلیدسی صفر باشد باید همه مربعات تفاضل‌ها صفر باشند، در نتیجه دو نقطه بر هم منطبق هستند.
  3. رابطه مثلثی برای فاصله اقلیدسی: اگر دو نقطه A به مختصات  (x1,y1) و نقطه B به مختصات  (x2,y2) وجود داشته باشند و همچنین  (x1−x2)=x;(y1−y2)=y در نظر گرفته شود، می‌توان نوشت:

که نشان می‌دهد فاصله اقلیدسی در نامساوی مثلثی صدق می‌کند. بر طبق تصویر زیر، نیز می‌توان مشاهده کرد که فاصله اقلیدسی در رابطه مثلثی صادق است.

فرض کنید دو نقطه A و B در فضای دو بعدی با مختصات (2,4)  و  (4,5) وجود داشته باشد. فاصله این دو نقطه بر حسب فاصله اقلیدسی برابر است با:

رایج ترین معیار فاصله که در صورت کم بودن تعداد ویژگی ها به علت سادگی و شهودی بودن آن، نتایج بسیار خوبی خواهد داشت.

  • فاصله منهتن
  • درک شهودی و تجسم این معیار نسبت به فاصله اقلیدسی سخت تر است ولی معمولا در داده های با ابعاد بالا عملکرد خوبی نشان می دهد.
  • اگر به جای مربع فاصله بین مولفه‌ها، از قدر مطلق فاصله بین مولفه‌های نقاط استفاده شود، تابع فاصله را «منهتن» (Manhattan) می‌نامند. این نام به علت تقاطع منظم خیابان‌ها در محله منهتن نیویورک انتخاب شده است. البته این فاصله گاهی به نام «فاصله تاکسی» (Taxicab) یا «بلوک شهری» (City Block) نیز نامیده می‌شود.
  • اگر x‌ و y دو نقطه با p مولفه (P  بعدی) باشند، شیوه محاسبه فاصله منهتن به صورت زیر خواهد بود:

همانطور که در تصویر زیر دیده می‌شود، اگر محور افقی و عمودی به طول‌های برابر و مساوی با ۱ تقسیم شده باشند، بین دو نقطه سیاه رنگ، مسیرهای مختلفی با فاصله منهتن یکسان وجود دارد. خط‌های قرمز و آبی و زرد، مسیرهایی با فاصله منهتن ۱۲ بین این دو نقطه هستند،‌ در حالی که خط سبز نشان دهنده فاصله اقلیدسی است که با طول برابر با    کوتاه‌ترین مسیر را (در صورت وجود) نشان می‌دهد.

براساس نقاط مربوط به مثال قبلی، فاصله منهتن بین دو نقطه A و B به صورت زیر محاسبه می‌شود:

پس از تعیین معیار اندازه گیری شباهت، انتخاب رویکرد شباهت سنجی بین خوشه ها نیز دارای اهمیت می باشد:

●      رویکرد کمترین فاصله خوشه ها Single Linkage (Min)

در این رویکرد فاصله بین دو خوشه، برابر با کوچکترین فاصله بین رکورد های دو خوشه می باشد.

امکان شناسایی الگوهای خوشه ای غیر بیضوی را فراهم می سازد، اما حساسیت به نویز در این روش بالاست و در صورت وجود نویز بین خوشه ها عملکرد مناسبی نخواهد داشت.

●      رویکرد بیشترین فاصله خوشه ها Complete Linkage (Max)

در این رویکرد فاصله بین دو خوشه، برابر با بزرگترین فاصله بین رکورد های دو خوشه می باشد.

این رویکرد نسبت به نویزهای موجود بین خوشه ها مقاوم است و عموما سعی در تشخیص الگوهای کروی داشته و تمایل به شکستن خوشه های بزرگ دارد.

●      رویکرد متوسط فاصله خوشه ها (Group Average)

در این رویکرد فاصله بین دو خوشه، برابر با متوسط فاصله بین تمام رکورد های دو خوشه می باشد.

این رویکرد نسبت به نویزهای موجود بین خوشه ها مقاوم است و عموما سعی در تشخیص الگوهای کروی دارد.

●      رویکرد فاصله از مراکز خوشه (Distance From Centroids)

در این رویکرد فاصله بین دو خوشه، برابر با فاصله بین مراکز دو خوشه می باشد.

این رویکرد نسبت به نویزهای موجود بین خوشه ها مقاوم است و عموما سعی در تشخیص الگوهای کروی دارد.

پس از اجرای الگوریتم با مقایسه شاخص های ارزیابی مجموع مربعات داخلی خوشه ها، تعداد خوشه بهینه انتخاب می‌‌گردد. برای این منظور استفاده از نمودار Elbow بسیار رایج است.

Published by

ساره واحدی
svahedi72

ساره واحدی هستم؛ دانشجوی پانزدهمین دوره "علم داده" در آکادمی دایکه، دانشجوی کارشناسی ارشد فیزیک و علاقمند به کار کردن با دیتاها