Продолжая использовать сайт, вы даете свое согласие на работу с этими файлами.
مدلهای سیر فرگشتی دیانای
مدلهای زیادی مبتنی بر زنجیرهٔ مارکوف، برای مدلسازی سیر فرگشتی دیانای ارائه شدهاست. معمولاً مدلهای جانشینی ارایهشده با هم در پارامترهایی که برای توضیح نرخ جانشینی یک نوکلئوتید در طول فرگشت دیانای در نظر گرفته میشوند، متفاوت هستند. این مدلها معمولاً در آنالیز فیلوژنتیک مولکولی استفاده میشوند. بهطور خاص از مدلهای ارائه شده در برآورد درستنمایی بیشینهی درخت و تخمین فاصلهٔ فرگشتی میان توالیها با داشتن فواصل مشاهدهشده در میان آنها، استفاده میشود. روشهای مبتنی بر درستنمایی بیشینه به مدل وابسته هستند بهطوریکه اگر بخشی از اطلاعات موجود در دادهها را در نظر نگیرد، نتایج این روش بسیار ضعیف خواهد بود. مدلهای مبتنی بر مارکوف در تحلیل دادهها تنها جانشینی در یک توالی را در نظر گرفته و حذف و اضافه شدن در توالی را نادیده میگیرند.
معرفی
رویکردهای مختلفی برای ساخت درخت فیلوژنی و تخمین فاصلهٔ زمانی میان موجودات وجود دارد. روشها را میتوان به ۳ دستهٔ زیر تقسیم کرد:
- روشهای مبتنی بر فاصله مانند روش UPGMA و اتصال همسایگی
- روشهای مبتنی بر بیشینه صرفهجویی
- روشهای مبتنی بر درستنمایی بیشینه
یکی از مدلهای پرکابرد برای استفاده از درستنمایی بیشینه استفاده از مدل مارکوف در تغییر جایگاههای توالی در طول زمان است. مدلهای فرگشتی دیانای توضیح دهندهٔ وضعیت فرگشتی دیانای به عنوان رشتهای شامل ۴ حرف هستند. مدلهای مارکوف بهطور دقیق نحوهٔ ایجاد جهش یا عمل انتخاب طبیعی را توضیح نمیدهند، بلکه نرخ نسبتی جهشها را در رشتهٔ دیانای مدل میکنند. بهطور مثال در تغییرات توالیها، نابرابری احتمال جهشها و احتمال از بین رفتن اللهای ناسازگار با محیط، مسئول نرخ بالای جایگزینی انتقالی نسبت به تراگشت در رشتههای در حال تغییر هستند. در حالی که در مدل Kimura80 که در ادامه توضیح داده شدهاست، تأثیر احتمال نابرابر جهشها و احتمال از بین رفتن اللهای ناسازگار با محیط تنها در پارامتری در نظر گرفته شدهاست که نرخ نسبی جایگزینی انتقالی را به تراگشت مدل میکند.
تحلیلهای فرگشتی توالیها برای مقیاسهای زمانی مختلفی انجام شدهاست، از این رو بیان مدلها به کمک نرخ لحظهای تغییر وضعیت جایگاههای توالی قابل قبول است. ماتریس Q که در ادامه آورده شدهاست، نشان دهندهٔ این نرخ تغییر در میان وضعیتهای تعریفشده در مسئله است. در صورتی که بدانیم که وضعیت شروع در یک جایگاه از توالی کدام است (وضعیت هر جایگاه برای یک توالی از دیانای نوع نوکلئوتید موجود در آن جایگاه است)، آنگاه میتوان به کمک ماتریس Q در مدل و فاصلهٔ زمانی میان جد و فرزند، احتمال تعداد تغییرها و احتمال رسیدن به هر کدام از وضعیتهای تعریفشده را استخراج کرد. جزییات مربوط به رسیدن از ماتریس نرخ به ماتریس احتمال در مدلهای ریاضیاتی جانشینی توضیح داده میشود. در نظر گرفتن نرخ آنی در مدل، باعث بینیازی آن از محاسبهٔ پارامترهای سطوح درخت فیلوژنی به صورت جداگانه برای هر سطح میشود، زیرا احتمال رسیدن از حالت ابتدایی به حالت انتهایی به صورت مستقیم محاسبه میگردد.
مدلهای شرح داده شده در این صفحه، تغییرات یک حرف از مجموعهای از حروف را نشان میدهند. در چنین مدلهایی برای تحلیل تغییرات کل توالی با فرض این که رشته شامل متغیرهای تصادفی مستقل با توزیع یکسان است، هر حرف مستقل از سایر حروف رشته تحلیل میشود. فرض استقلال را میتوان با در نظر گرفتن فرضیهٔ تأثیرناپذیری هر حرف از سایر حروف در فرگشت رشتهها، توجیه کرد. در صورتی که تأثیر اولیهٔ انتخاب طبیعی بر روی تغییرات توالی باعث محدود کردن برخی جایگاههای خاص در توالی شود، میتوان از مدلهای دیگری استفاده کرد که نرخ نسبی جایگزینی هر حرف نسبت به حروف دیگر را محاسبه کرده و با استفاده از پارامترهای دیگری در مدل، واریانس تغییرات نرخهای جایگزینی را کنترل میکند.
زنجیرههای مارکوف پیوسته زمان
زنجیرههای مارکوف پیوسته زمان دارای ماتریس انتقال با پارامتر t هستند. اگر نمایندهٔ وضعیتها در مدل باشند، آنگاه ماتریس انتقال میان وضعیتهای مسئله به شکل است که در آن هر مؤلفه نشاندهندهٔ احتمال تغییر وضعیت به وضعیت در زمان است.
مثال: میخواهیم فرایند جایگزینی را در توالی دیانای به صورت پیوسته زمان مدل کنیم (مثلاً Jukes-Cantor, Kimura و غیره). ماتریس انتقال مربوط به آن به شکل زیر خواهد بود:
که در آن بلوکهای ۲ × ۲ بالا-چپ و پایین-راست، مربوط به احتمال جایگزینی انتقالی و بلوکهای ۲ × ۲ بالا-راست و پایین-چپ مربوط به احتمالهای تراگشت هستند.
فرض: اگر در لحظهٔ زنجیرهٔ مارکوف در وضعیت باشد، آنگاه احتمال آنکه در لحظهٔ در وضعیت باشیم وابسته به مقادیر و و است، بنابراین میتوانیم این احتمال را به شکل بنویسیم.
قضیه: ماتریس انتقال پیوسته زمان دارای خاصیت زیر است:
توجه داشته باشید: ممکن است بین دو معنی کلمهٔ انتقال اشتباه به وجود بیاید. (i) در زمینهٔ زنجیرهٔ مارکوف، انتقال به معنی جابهجایی میان دو وضعیت است. (ii) در زمینهٔ تغییر در نوکلئوتیدها در توالی دیانای، جایگزینی انتقالی به معنی جابهجایی میان دو پورین (A↔G) یا میان دو پیریمیدین (C↔T) است (برای اطلاعات بیشتر به صفحهٔ جایگزینی انتقالی مراجعه کنید). جابهجایی میان یک پورین و یک پیریمیدین تراگشت نامیده میشود.
استخراج پویایی در جانشینی
توالی دیانای با طول ثابت m را در نظر بگیرید که با جانشینی بازها در طول زمان تغییر پیدا میکند. فرض کنید که فرایندهای انجام شده روی m مکان در توالی به صورت مارکوفی مستقل و دارای توزیع یکسان باشند. برای هر مکان مشخص داریم:
که ماتریس احتمال وضعیتهای در زمان هستند. از طرف دیگر مجموعهٔ وضعیتهای مسئله به شکل زیر است:
فرض کنید برای دو وضعیت مجزای در توالی مقدار نشاندهندهٔ نرخ انتقال میان وضعیت به وضعیت باشد. بهطور مشابه برای هر داریم:
تغییرات در توضیح احتمال وقتی که زمان به اندازهٔ زیاد میشود به شکل زیر است ( مقدار کوچکی است):
به عبارت دیگر، در دیدگاه فراوانی گرایانه، فراوانی وضعیت در زمان برابر فراوانی در زمان منهای تعداد حالتهایی است که از وضعیت تغییر کردهاند، به اضافهٔ تعداد حالتهایی است که به تغییر وضعیت دادهاند.
بهطور مشابه، عبارتهای پیشین برای احتمالهای برقرار است. میتوانیم بهطور فشرده بنویسیم:
که در آن:
یا بهطور مشابه:
که در آن ماتریس نرخ است. توجه داشته باشید که در تعریف، جمع ستونهای ماتریس برابر صفر است. برای یک فرایند مانا که به زمان وابسته نیست، معادلات تفاضلی به کمک ماتریس توان قابل حل است:
ارگادیسیتی
اگر تمام احتمال انتقالها مثبت باشد،، به این معنی که تمام وضعیتهای با هم قابل جابهجا شدن باشند، آنگاه زنجیرهٔ مارکوف، دارای یک توزیع مانای یکتای است که هر نسبت زمانی است که بعد از اجرای مارکوف تا زمان بینهایت در وضعیت گذرانده شدهاست. چنین زنجیرهٔ مارکوفی ارگادیک نامیده میشود. در فرگشت دیانای، با فرض فرایندهای مشابه برای هر مکان، فراوانیهای مانای، ، به عنوان نقطهٔ تعادل هر وضعیت در نظر گرفته شدهاست.
زمانی که توزیع کنونی همان توزیع ایستا باشد، آنگاه میتوان گفت ، به کمک معادلات دیفرانسیل بالا داریم:
بازگشتپذیری در زمان
تعریف: یک فرایند مارکوف بازگشتپذیر در زمان است اگر در وضعیت پایدار، احتمال تغییر وضعیت از به برابر با احتمال تغییر وضعیت از به باشد (هرچند که احتمال حضور در هرکدام از وضعیت با یکدیگر متفاوت باشند). بنابراین خواهیم داشت:
تمام فرایندهای ایستا بازگشتپذیر نیستند، هرچند تقریباً تمام مدلهای تحولی دیانای فرض بازگشتپذیری در زمان را در نظر میگیرند (و این فرض، فرضی منطقی و متناسب با مسئله است). بر اساس فرض بازگشتپذیری در زمان متغیر جدید تعریف میشود؛ بنابراین به راحتی میتوان مشاهده کرد که:
تعریف: متغیر متقارن جابهجاییپذیری میان وضعیتهای و نامیده میشود. به معنای دیگر نسبت حالتهایی از که از طریق به رفتهاند.
نتیجه: ۱۲ درایهٔ خارج از قطر ماتریس تغییر وضعیت () میتواند توسط ۹ عدد مشخص شوند که ۶تای آنها توسط متغیر جابهجایی پذیری و ۳تای دیگر توسط فراوانی ایستای مشخص میشود. توجه داشته باشید که مجموع تکرارهای ایستا برابر ۱ بوده و مجموع هر سطر از برابر ۱ است.
مقیاسگذاری طول شاخهها
با مقایسهٔ توالیهای موجود، میتوان واگرایی توالیها را مشخص کرد. منظور از واگرایی میزان تفاوت توالیهای مورد آزمایش است. اندازهگیری واگرایی، اطلاعاتی را دربارهٔ تعداد تغییراتی که در طول مسیر جدایی توالیها بهوجود آمدهاست، به ما میدهد. با شمارش سادهٔ تعداد اختلافها (فاصلهٔ همینگ) میان توالیها، معمولاً تعداد جایگزینیهای موجود در توالی کمتر از مقدار واقعی تخمین زده میشود. تخمین دقیق تعداد تغییرات صورت گرفته مشکل بوده و معمولاً ضروری نیست. به جای این محاسبه، طول مسیرهای روی درخت فیلوژنی به عنوان میانگین تعداد تغییرات در هر بخش از توالی در نظر گرفته میشود. طول مسیر برابر حاصلضرب زمان مسیر در میانگین نرخ جانشینی است. هرچند که این حاصلضرب قابل تخمین است، اما با مشخص بودن واگرایی توالیها، نرخ تغییر و زمان مسیر بهطور مستقل قابل اندازهگیری نبوده و تنها حاصلضرب آنها مشخص است.
تعریف صورت گرفته از ماتریس نرخ جهش () در این صفحه مقدار نسبی جانشینیها را مشخص میکند، اما این ماتریس طوری مقیاسگذاری نشدهاست که شاخهای با طول ۱ بهطور میانگین دارای یک تغییر باشد. این تغییر مقیاس میتواند با تغییر مقیاس ماتریس توسط طول شاخهٔ درخت صورت بگیرد. اگر β نشاندهندهٔ فاکتور مقیاس و ν نشاندهندهٔ طول شاخه باشد (که از طریق میانگین تعداد جایگزینیها در هر نقطه از توالی اندازهگیری میشود)، آنگاه βν در فرمولهای احتمالی انتقال، به جای μt استفاده میشود. قابل توجه است که ν پارامتری است که از دادهها تخمین زده میشود و به عنوان طول شاخه در نظر گرفته میشود، و β عددی است که از طریق ماتریس نرخ جهش محاسبه شده و یک پارامتر جداگانه نیست.
مقدار پارامتر β میتواند با گذاشتن این شرط که میانگین نرخ شار هر وضعیت برابر ۱ باشد، به دست بیاید. مقادیر روی قطر ماتریس نرخ (ماتریس Q)، برابر حاصلضرب مقدار ۱- در نرخ خروج از وضعیت است. برای مدلهای برگشتپذیر در زمان، نقطهٔ تعادل وضعیتهای تعریف شده را (که برای وضعیت i همان است) میدانیم؛ بنابراین میتوان متوسط نرخ تغییر را با محاسبهٔ جمع حالتهای خارج شده از هر وضعیت با وزنی متناسب با تعداد مکانهایی که بهطور متوسط انتظار میرود در هر کلاس باشد، محاسبه کنیم. در این محاسبات β را به شکل زیر تعریف میکنیم:
بهطور مثال در مدل Jukes-Cantor پارامتر مقیاسگذاری برابر 4/(3μ) است زیرا نرخ خروج از هر وضعیت برابر 3μ/4 است.
مدل (JC69 (Jukes and Cantor, 1969
مدل JC69 سادهترین مدل جانشینی موجود است. از جمله فرضهای این مدل برابری تعداد تکرار هر کدام از بازهای موجود در توالی دیانای و برابری نرخ جهش در تمام آنها است؛ بنابراین تنها پارامتری که در این مدل استفاده میشود است که برابر نرخ کلی جانشینی در این مدل است. همانطور که پیش از گفته شد، این متغیر در زمان تغییر میانگین نرخ به ۱، به عدد ثابت تبدیل میشود.
زمانی که طول شاخه، ، بر اساس متوسط تعداد تغییرات در هر نقطه از توالی اندازهگیری میشود، داریم:
لازم است ذکر شود که:
که از جمع هر سطر یا ستون ماتریس Q ضرب در زمان به دست آمده به معنی متوسط تعداد جایگزینی در زمان t (طول شاخه) برای هر جایگاه در توالی در زمانی است که نرخ جانشینی برابر باشد.
در صورتی که نسبت p از تغییرات میان دو توالی در یک حرف داده شده باشد، مدل Jukes-Cantor فاصلهٔ فرگشتی میان دو رشته را، بر اساس متوسط تعداد تغییرات، به شکل زیر محاسبه میکند.
متغیر p نشاندهندهٔ تعداد جابهجایی است که با عنوان فاصلهٔ p شناخته شده و یک آمارهٔ بسنده برای محاسبات در مدل Jukes-Cantor است.
مدل (K80 (Kimura, 1980
مدل k80 تفاوت را میان جایگزینیهای انتقالی (پورین به پورین یا پیریمیدین به پیریمیدین) و تراگشت (از یک پورین به یک پیریمیدین یا برعکس) مدل میکند. در توضیح اصلی کیمورا دربارهٔ مدل، α و β برای نشان دادن نرخ جانشینیهای مختلف استفاده شدهاند، اما در حال حاضر، معمولاً نرخ تراگشت برابر ۱ قرار داده شده و از κ به عنوان نسبت جایگزینی انتقالی به تراگشت استفاده میشود. در مدل K80 فرض میشود که تمام حالتهای پایه دارای احتمال برابر هستند (πT=πC=πA=πG=۰٫۲۵).
پارامترهای مدل کیمورا به شکل زیر هستند:
که در آن p درصد تعداد حروفی در توالی است که جایگشت انتقالی رخ داده و q درصد تعداد جایگاههایی است که تراگشت رخ داده است.
مدل (F81 (Felsenstein 1981
این مدل در واقع گسترشیافتهٔ مدل JC69 است بهطوریکه احتمالهای پایهٔ میان بازهای موجود در توالی میتوانند با هم برابر نباشند
ماتریس نرخ به شکل زیر است:
هنگامی که طول شاخه، ν، بر اساس متوسط تعداد تغییرات در هر مکان از توالی اندازهگیری میشود، داریم:
مدل (HKY85 (Hasegawa, Kishino and Yano 1985
این مدل را میتوان به عنوان تلفیقی از مدلهای گسترشیافتهٔ Kimura80 و Felsentein81 در نظر گرفت. مدل HKY85 میان نرخ جایگزینی انتقالی و تراگشت با کمک پارامتر κ تفاوت قایل میشود و از سوی دیگر اجازه میدهد تا فراوانی پایهٔ میان بازهای مختلف متفاوت باشد [مدل F84 در سال ۱۹۸۴ با پارامترهای دیگری با در نظر گرفتن عدم برابر احتمالهای پایه توسط Felsenstein ارائه شد]. ماتریس نرخ تغییرات در این مدل به شکل زیر است:
در صورتی که طول شاخه، ν، را با کمک متوسط تعداد تغییرات صورت گرفته در هر حرف از توالی بیان کنیم داریم:
و فرمول برای سایر حالتهای ممکن از وضعیتها را میتوان با جایگزینی احتمال مناسب به دست آورد.
مدل (T92 (Tamura 1992
T92 یک مدل سادهٔ ریاضیاتی برای تخمین تعداد جانشینیهای نوکلئوتیدها در هر مکان توالی میان دو توالی دیانای با گسترش مدل Kimura80 بوده، بهطوریکه نسبت به پیوند G+C متمایل است. این روش زمانی کاربردی است که جایگزینی انتقالی-تراگشت بالایی وجود داشته و نسبت به G+C متمایل باشد مانند حالتی که در دیانای میتوکندری مگس سرکه اتفاق میافتد.
با داشتن مقدار داریم:
ماتریس تغییرات بازها به شکل زیر است:
فاصلهٔ فرگشتی میان دو رشتهٔ بیرمز بر اساس این مدل به شکل زیر است:
که در آن و محتوای GC است.
مدل (TN93 (Tamura and Nei 1993
این مدل تفاوت میان دو حالت جایگزینی انتقالی را در نظر میگیرید، به این معنی که (A <-> G) میتواند نرخ متفاوتی نسبت به (C<->T) داشته باشد، اما تراگشتها دارای نرخ برابر هستند (هرچند نرخ تراگشت میتواند عددی متفاوت از نرخهای جایگزینی انتقالی باشد).
در این مدل، احتمال هرکدام از پایهها میتوانند متفاوت باشند .
GTR: مدل تعمیمیافته و بازگشتپذیر در زمان (Tavaré 1986)
این مدل، بیطرفترین مدل با استقلال میان حروف و نواحی محدود است که اجازهٔ برگشتپذیری در مدل وجود دارد. مدل برای اولین بار توسط Simon Tavaré در سال ۱۹۸۶ توضیح داده شد.
پارامترهای مدل GTR شامل برداری از احتمالات پایدار برای پایههای مختلف به شکل است. ماتریس ارتباط میان وضعیتهای حروف توالی به شکل زیر است:
که در آن
پارامترهای بالا پارامترهای جایگزینی انتقالی هستند.
بنابراین، GTR نیازمند ۶ پارامتر جانشینی است بوده و ۴ پارامتر برای مقادیر تعادل نهایی است. با توجه به روابط میان پارامترها، تعداد پارامترها میتواند به ۹ پارامتر به اضافهٔ پارامتر (تعداد جانشینیها در واحد زمان) کاهش پیدا کند.
بهطور کلی برای محاسبهٔ تعداد پارامترها، باید تعداد درایههای بالای قطر اصلی در ماتریس را شمارش کنیم، بهطور مثال برای وضعیت ممکن در یک مکان از توالی و سپس وضعیت برای نقاط تعادل اضافه شده و چون ثابت در نظر گرفته میشود، یکی از این تعداد کم میشود.
برای مثال برای توالیهای امینواسیدها (۲۰ نوع امینواسید استاندارد وجود دارد که پروتئینها را تشکیل میدهند)، در این مدل ۲۰۹ پارامتر وجود دارد. در هنگام مطالعهٔ نواحی رمزشده، معمولاً از مدل جانشینی کدون استفاده میشود (هر رمز ژنتیکی یک توالی ۳تایی از حروف پایهٔ دیانای است که یک امینواسید را در پروتئین نشان میدهد). کدون وجود دارد، اما نرخ جانشینی میان کدونهایی که در بیش از یک حرف با هم تفاوت دارند، صفر در نظر گرفته میشود، بنابراین پارامتر در مدل وجود دارد.
جستارهای وابسته
پیوند به بیرون
- DAWG: DNA مجمع با شکاف — رایگان نرمافزار برای شبیهسازی توالی، فرگشت،
فرگشت | ||
---|---|---|
ژنتیک جمعیت | ||
تکوین | ||
آرایه | ||
عضو | ||
فرایند | ||
تمپوها و مدها | ||
گونهزایی | ||
تاریخچه اندیشه فرگشتی | ||
فلسفه | ||
جستارهای وابسته | ||