Продолжая использовать сайт, вы даете свое согласие на работу с этими файлами.
خوشهبندی کامل پیوند
خوشه بندی کامل پیوند یکی از روشهای مختلف خوشهبندیسلسلهمراتبی است. در ابتدای فرایند، هر عنصر در خوشه ای از خود قرار دارد. سپس خوشهها به صورت گروهی به گروههای بزرگتر تقسیم میشوند تا زمانی که تمام عناصر در خوشه قرار گیرند. این روش همچنین به عنوان دورترین خوشه همسایه نیز شناخته میشود. نتیجه خوشه بندی را میتوان به عنوان یک دندروگرام تجسم کرد، که نشان میدهد که توالی خوشههای همجوشی و فاصله ای که در هر همجوشی اتفاق میافتد.
روش خوشه بندی
در هر مرحله، دو خوشه ای که توسط کوتاهترین فاصله جدا میشوند ترکیب میشوند. تعریف «کوتاهترین فاصله» چیزی است که بین روشهای مختلف خوشه بندی زنجیرهای متفاوت است. در خوشه بندی پیوندی کامل، پیوند میان دو خوشه شامل تمام جفتهای عنصر است و فاصله بین خوشهها برابر فاصله بین دو عنصر (یکی در هر خوشه) است که دورتر از یکدیگر هستند. کوتاهترین این پیوندها که در هر مرحله باقی میمانند، موجب همپوشانی دو خوشه میشود که عناصر آن درگیر هستند. از نظر ریاضی تابع پیوند کامل — فاصله (D(X,Y بین خوشه X و Y — توسط عبارت روبهرو شرح داده شدهاست:
(d(x,y فاصله بین عناصر x عضو X و y عضو Y است.
X و Y دو مجموعه از عناصر (خوشهها) هستند.
الگوریتمها
طرح نایاب
الگوریتم زیر یک تابع agglomerative است که ردیفها و ستونها را در یک ماتریس مجاورت پاک میکند و به عنوان خوشههای قدیمی به صورتهای جدید ادغام میشوند. D ماتریس نزدیکی N در N، شامل تمام فاصلههای (d(i,j. خوشهها به شماره متوالی ۱، ۲، …، n اختصاص داده میشوند و (L(k، سطح kام خوشهبندی هست. یک خوشه با شماره متوالی m مشخص شدهاست و نزدیکی بین خوشههای (r) و (s) با [(d[(r),(s مشخص میشود.
الگوریتم از مراحل زیر تشکیل شدهاست:
۱.شروع خوشه بندی با در نظر گرفتن سطح L (0) = ۰ و شمارههای متوالی m = ۰.
۲.یافتن جفت خوشه ای مشابه در خوشه بندی فعلی، مانند جفتهای (r) و (s) که طبق اینکه [(d[(r),(s برابر [(max d[(i),(j است در جایی که بیش از همه جفت خوشه در خوشه فعلی است.
۳.افزایش شماره متوالی: m = m + 1 و خوشههای (r) و (s) را به یک خوشه واحد برای تشکیل خوشه بندی بعدی m بپیوندانید. سطح این خوشه بندی را به [(L(m) = d[(r),(s تنظیم کنید.
۴.به روز رسانی ماتریس مجاورت D، با حذف سطر و ستون مربوط به خوشه (r) و (s) و با اضافه کردن یک سطر و ستون مربوط به خوشه تازه شکل گرفته انجام میشود. نزدیکی بین خوشه جدید، نشان داده شده با (r, s) و خوشه قدیمی با (k) به عنوان [( d[(k), (r,s )] = max d[(k),(r)], d[(k),(s است.
۵.اگر تمام اجسام در یک خوشه قرار داشته باشند، متوقف شوند و بعد به مرحله ۲ بروید.
طرح مطلوب کارآمد
الگوریتم توضیح داده شده در بالا آسان است اما پیچیدگی را دارد.در ماه مه ۱۹۷۶، D. Defays یک الگوریتم بهینه کارآمد با پیچیدگی پیشنهاد کرد که با عنوان شناخته شده به CLINK است (منتشر شده در سال 1977) و با الگوریتم SLINK الگوریتم مشابه برای خوشهبندیتکلینک است.
مثال عملی
مثال عملی بر اساس ماتریس فاصله ژنتیکی JC69 محاسبه شده از 5S ribosomal RNA که تراز توالی پنج باکتری است محاسبه شدهاست: (Bacillus subtilis (a و (Bacillus stearothermophilus (b و (Lactobacillus viridescens (c و (Acholeplasma modicum (d و (Micrococcus luteus (e.
گام اول
- خوشه اول
فرض کنیم که ما پنج عنصر و ماتریس فاصله جفتی بین آنها است:
e | d | c | b | a | |
---|---|---|---|---|---|
۲۳ | ۳۱ | ۲۱ | ۱۷ | ۰ | a |
۲۱ | ۳۴ | ۳۰ | ۰ | ۱۷ | b |
۳۹ | ۲۸ | ۰ | ۳۰ | ۲۱ | c |
۴۳ | ۰ | ۲۸ | ۳۴ | ۳۱ | d |
۰ | ۴۳ | ۳۹ | ۲۱ | ۲۳ | e |
در این مثال، کوچکترین مقدار هست، بنابراین ما به عناصر a و b میپیوندیم.
- ارزیابی طول شاخه اول
فرض کنید نشان دهنده گره ای است که به آن a و b وصل شدهاست. تضمین میکند که عناصر و برابر برابر است. این مربوط به انتظار از فرضیه ultrametricity است؛ بنابراین شاخه پیوستن و به ، طول دارد.
- اولین بروزرسانی ماتریس فاصله
سپس ماتریس ماتریس مجاورت ماتریس اولیه را در یک ماتریس مجاور جدید (به پایین نگاه کنید) به روز رسانی میکنیم، به دلیل خوشه بندی a با b، اندازه یک سطر و یک ستون کاهش مییابد. مقادیر پررنگ در با فاصلههای جدید مطابقت دارند، که با حفظ حداکثر فاصله بین هر عنصر خوشه اول و هر یک از عناصر باقی مانده محاسبه میشود:
ارزش خمیده در با به روز رسانی ماتریس تحت تأثیر قرار نمیگیرند زمانی که آنها را به فاصله بین عناصر در خوشه اول درگیر نیست مطابقت دارد.
گام دوم
- خوشه دوم
اکنون ما سه مرحله قبلی را دوباره شروع میکنیم، از ماتریس فاصله جدید شروع میکنیم:
e | d | c | (a,b) | |
---|---|---|---|---|
۲۳ | ۳۴ | ۳۰ | ۰ | (a,b) |
۳۹ | ۲۸ | ۰ | ۳۰ | c |
۴۳ | ۰ | ۲۸ | ۳۴ | d |
۰ | ۴۳ | ۳۹ | ۲۳ | e |
اینجا، پایینترین مقدار را دارد، بنابراین به خوشه با عنصر میپیوندیم.
- ارزیابی طول شاخه دوم
فرض کنید نشان دهنده گره ای است که به آن و وصل شدهاند. به دلیل محدودیت ultraetricity، شاخههای پیوستن یا به و به ، مساوی هستند و طول کل زیر را دارند:
ما طول شاخه گمشده را میبینیم:
- به روز رسانی دوم ماتریس فاصله
سپس در جهت به روز رسانی ماتریس ماتریس به یک ماتریس فاصله جدید (پایین را ببینید) به روز رسانی میکنیم، در اندازه یک سطر و یک ستون به دلیل خوشه بندی با کاهش مییابد:
گام سوم
- خوشه سوم
ما دوباره سه گام قبلی را، با شروع از ماتریس فاصله به روز شده، تکرار میکنیم:
d | c | (a,b),e)) | |
---|---|---|---|
۴۳ | ۳۹ | ۰ | (a,b),e)) |
۲۸ | ۰ | ۳۹ | c |
۰ | ۲۸ | ۴۳ | d |
اینجا،کوچکترین مقدار ماتریس هست، بنابراین ما به عناصر c , d میپیوندیم.
- ارزیابی طول شاخه سوم
فرض کنید نشان دهنده گره ای است که به و وصل شدهاست؛ بنابراین شاخههای و به طول میپیوندند:
- به روز رسانی سوم ماتریس فاصله
یک ورودی برای به روز رسانی وجود دارد:
گام نهایی
ماتریس نهایی برابر است با:
(c,d) | (a,b),e)) | |
---|---|---|
۴۳ | ۰ | (a,b),e)) |
۰ | ۴۳ | (c,d) |
بنابراین ما خوشههای و پیوند میدهیم.
فرض کنید (سر راس) نشان دهنده گره ای است که به و وصل شدهاست.
شاخههای پیوستگی و به میپیوندند که دارای طول عبارت پایین هستند:
ما دو طول شاخه باقی مانده را میبینیم:
نمودار پیوند کامل
این نمودار که اکنون کامل شدهاست، یک ultrametric است. به دلیل تمام رنوکهای برابر با r است:
این نمودار توسط r ریشه شدهاست، این گره عمیقترین گره نمودار است.
مقایسه با دیگر پیوندها
طرحهای جایگزین پیوند شامل خوشه بندی تک اتصال و خوشه بندی پیوند متوسط است - پیادهسازی پیوندهای مختلف در الگوریتم ساده است، صرفاً استفاده از فرمولهای مختلف برای محاسبه فاصله بین خوشه ای در محاسبه اولیه ماتریس مجاورت و در مرحله ۴ از بالا الگوریتم است. یک الگوریتم بهینه کارآمد است با این حال برای ارتباط خودسرانه در دسترس نیست. فرمول که باید تنظیم شود با استفاده از متن جسور برجسته شدهاست.
خوشه بندی کامل پیوند، از روش پیوند تک جایگزین اجتناب میکند - پدیده به اصطلاح زنجیره ای، جایی که خوشهها از طریق خوشه بندی پیوندی یکپارچه تشکیل دادهاند، به دلیل اینکه عناصر مجاور نزدیک به یکدیگر هستند، حتی اگر بسیاری از عناصر در هر خوشه ممکن است بسیار دور از هم باشد. پیوند کامل برای یافتن خوشههای فشرده تقریباً یکسان است.
خوشه بندی تک لینک | خوشه بندی پیوند کامل | خوشه بندی میانگین اتصال: WPGMA | خوشه بندی میانگین اتصال: UPGMA |