Продолжая использовать сайт, вы даете свое согласие на работу с этими файлами.
متد جفت گروه وزندار با میانگین حسابی
متد جفت گروه وزندار با میانگین حسابی (به اختصار: مجگوم) (به انگلیسی: Weighted Pair Group Method with Arithmetic Mean (WPGMA)) یک متد ساده خوشهبندی سلسله مراتبی تجمعی (از پایین به بالا) میباشد که هدف آن، ایجاد یک درخت ریشهدار (که به آن دندروگرام میگویند) میباشد که ساختار موجود در یک ماتریس زوجفاصله را نشان میدهد. این متد را به رابرت آر. سوکال و چارلز دانکن میشنر نسبت میدهند.
متد جفت گروه وزندار با میانگین حسابی، شبیه به نوع بیوزن آن، یعنی متد جفت گروه بدون وزن با میانگین حسابی است که بهطور عمده بر مبنای توده کردن دادهها یا خوشهبندی سلسله مراتبی مخصوصاً برای ساخت درخت فیلوژنتیک در بیوانفورماتیک به کار میرود.
الگوریتم
همانطور که در ابتدای کار ذکر شد، الگوریتم جفت گروه وزندار با میانگین حسابی، با استفاده از یک درخت ریشه دار به نام دندوگرام، ساختار موجود در یک ماتریس زوجفاصله را نشان میدهد. اگر این ماتریس، یک ماتریس باشد، این الگوریتم شامل گام میباشد؛ در هر گام، نزدیکترین دو خوشه، در اینجا فرض کنید و ، به یک خوشه سطح بالاتر ترکیبمیشوند. سپس فاصلهٔ آن با یک خوشهٔ دیگر فرضی به نام ، از طریق میانگین حسابی فاصلهٔ بین ، و ، حساب میشود:
مثال
اگر فرض کنیم متد جفت گروه وزندار با میانگین حسابی، روی یک ماتریس کار میکند، در نتیجه شامل گام میباشد که در مثال زیر، یک ماتریس ۴ * ۴ دادهشده، بررسی میشود.
گام اول
فرض کنید ۴ المان داریم و ماتریس زیر به نام Dist (مخفف فاصله) که نشاندهندهٔ فاصلهٔ بین هردو المان را نشان میدهد و همچنین نشاندهندهٔ فاصلهٔ بین ۲ گره در درخت دندوگرام باشد:
a1 | a2 | a3 | a4 | |
---|---|---|---|---|
a1 | ۰ | ۱۵ | ۱۹ | ۲۹ |
a2 | ۱۵ | ۰ | ۲۸ | ۳۲ |
a3 | ۱۹ | ۲۸ | ۰ | ۲۶ |
a4 | ۲۹ | ۳۲ | ۲۶ | ۰ |
در این جدول، کوتاهترین فاصله بین ۲ المان مختلف, متعلق بین و و برابر با ۱۵ میباشد.
بروزرسانی درخت دندوگرام
حال فرض کنید گرهای که و را بههم متصلمیکند، نام دارد. در نتیجه به درخت دندوگرام، گره را اضافه میکنیم که فاصله این گره با و از راه زیر محاسبه میشود:
بروزرسانی ماتریس
با متصل کردن و ، تعداد سطر و ستون ماتریس اولیه یک واحد کاهش مییابد و همچنین مقادیر المانهای ماتریس با تغییراتی مواجه میشود که در ذیل توضیح دادهشدهاست:
که ماتریس بروزرسانیشده و ادامهٔ روند در قسمت بعدی مشخص شدهاست
گام دوم
در گام دوم، نتیجه حاصل از گام اول را ادامه میدهیم:
(a1, a2) | a3 | a4 | |
---|---|---|---|
(a1, a2) | ۰ | ۲۳٫۵ | ۳۰٫۵ |
a3 | ۲۳٫۵ | ۰ | ۲۶ |
a4 | ۳۰٫۵ | ۲۶ | ۰ |
در این جدول، کوتاهترین فاصله بین ۲ المان مختلف, متعلق بین و و برابر با ۲۳٫۵ میباشد که در درخت دندوگرام، منظور از ، گره میباشد.
بروزرسانی درخت دندوگرام
حال فرض کنید گرهای که و را بههم متصلمیکند، نام دارد. در نتیجه به درخت دندوگرام، گره را اضافه میکنیم که فاصله این گره با ، و از راه زیر محاسبه میشود:
و فاصلهٔ بین و برابر است با:
بروزرسانی ماتریس
با متصل کردن و , تعداد سطر و ستون ماتریس اولیه یک واحد کاهش مییابد و همچنین مقادیر المانهای ماتریس با تغییراتی مواجه میشود که در ذیل توضیح دادهشدهاست:
گام سوم
در گام سوم، نتیجه حاصل از گام دوم را ادامه میدهیم:
(a1, a2), a3)) | a4 | |
---|---|---|
(a1, a2), a3)) | ۰ | ۲۸٫۵ |
a4 | ۲۸٫۵ | ۰ |
در این جدول، کوتاهترین فاصله بین ۲ المان مختلف, متعلق بین و و برابر با ۲۸٫۵ میباشد که در درخت دندوگرام، منظور از ، گره میباشد.
بروزرسانی درخت دندوگرام
حال فرض کنید گرهای که و را بههم متصلمیکند، نام دارد. در نتیجه به درخت دندوگرام، گره را اضافه میکنیم که فاصله این گره با ، ، و از راه زیر محاسبه میشود:
و فاصلهٔ بین و برابر است با:
بروزرسانی ماتریس
با متصل کردن و , تعداد سطر و ستون ماتریس اولیه یک واحد کاهش مییابد و تبدیل به یک ماتریس میشود که دارای مقدار صفر است.
دندوگرام حاصل
در شکل زیر، دندوگرام حاصل از مثال مطرحشده را مشاهده میکنید.