Продолжая использовать сайт, вы даете свое согласие на работу с этими файлами.
ک تایی
ک تایی یا k-تایی در بیوانفورماتیک، یک زیر رشته به طول k از رشته بیولوژیکی است. در ابتدا، k-تایی در ژنومیک محاسباتی و آنالیز دنباله استفاده میشد که در آن K-تایی تشکیل شده از نوکلئوتایدها (A,T، C,G) هستند. k-تاییها به خاطر بازسازی توالیهای DNA, شناسایی گونهها در نمونههای متاژنومی و تولید واکسن زنده مطرح شدند. معمولاً کلمه k-تایی به همه رشتههای دنبالهای به طول k اشاره دارد. برای مثال، رشتهٔ AGAT میتواند ۴ مونومر (A , G , A , T)، سه ۲-تایی (AG, GA, AT)، دو ۳-تایی (AGA, GAT) و یک ۴-تایی داشته باشد، که زیررشته ۴-تایی برابر خود رشتهاست. بهطور کلی یک رشته به طول L میتواند L-k+1 رشته k-تایی داشته باشد. همچنین برای n مونومر، n^k تا k-تایی ممکن وجود دارد؛ که در رشته DNA تعداد مونومرها برابر با ۴ است.
معرفی
k-تاییها زیر رشتههایی به طول k هستند. برای مثال در جدول زیر تمام k-تاییها برای یک رشته نمونه از DNA را مشاهده میکنید.
k | k-تایی |
---|---|
۱ | G, T, A, G, A, G, C, T, G, T |
۲ | GT, TA, AG, GA, AG, GC, CT, TG, GT |
۳ | GTA, TAG, AGA, GAG, AGC, GCT, CTG, TGT |
۴ | GTAG, TAGA, AGAG, GAGC, AGCT, GCTG, CTGT |
۵ | GTAGA, TAGAG, AGAGC, GAGCT, AGCTG, GCTGT |
۶ | GTAGAG, TAGAGC, AGAGCT, GAGCTG, AGCTGT |
۷ | GTAGAGC, TAGAGCT, AGAGCTG, GAGCTGT |
۸ | GTAGAGCT, TAGAGCTG, AGAGCTGT |
۹ | GTAGAGCTG, TAGAGCTGT |
۱۰ | GTAGAGCTGT |
طیف k-تایی
یک روش برای نمایش دادن k-تاییها استفاده از طیف k-تایی است. طیف k-تایی یک نمایش گرافیکی از یک پایگاه دادهاست که نشان میدهد چند تا k-تایی به تعداد مشخصی تکرار شدهاند؛ بنابراین محور x آن فرکانس تکرار k-تایی را نشان میدهد و محور y تعداد k-تاییهایی که به آن اندازه تکرار شدهاند. شکل توزیع طیف k-تایی اطلاعات مفیدی از ویژگیهای نمونه بیولوژیکی را به ما میدهد. تعداد مدها در توزیع طیف k-تایی برای ژنوم یک گونه میتواند متفاوت باشد. در این بین تکمدیها بیشترین آمار تعداد گونه را دارند. در حالیکه تمام پستانداران توزیع طیف k-تایی چندنمایی دارند. همچنین در یک طیف k-تایی، توزیع در مناطق مختلف ژنوم میتواند متفاوت باشد. برای مثال انسانها در مناطق ترجمه نشده '۵ و اگزونها طیف تکمدی دارند و در مناطق ترجمه نشده '۳ و اینترونها طیف چندنمایی دارند.
عوامل تأثیرگذار در فراوانی k-تایی DNA
تعداد k-تاییها از عوامل متعددی در سطوح مختلف تأثیر میپذیرند که معمولاً با هم در تعارضاند. لازم است ذکر شود که k-تاییها با k بزرگتر از عوامل تأثیرگذار روی k-تایی با k کوچکتر تأثیر میپذیرند. برای مثال اگر مونومر A وجود نداشته باشد، هیچکدام از ۲-تاییهای شامل A هم نمیتوانند وجود داشته باشند. به این ترتیب عوامل مختلف با یکدیگر پیوند میخورند.
k = ۱
در مثال بالا، در حالتی که k=۱ باشد، ۴ تا k-تایی برای DNA داریم (A,T،G,C). در سطح مولکولی ۳ پیوند هیدروژنی بین G,C وجود دارد. در حالی که در بین A,T فقط دو پیوند هیدروژنی برقرار میشود؛ بنابراین، پیوندهای بین G,C قویتر از پیوندهای بین A,T است.
پرندگان و پستانداران تعداد بیشتری G,C نسبت به A,T دارند (محتوی CG). که منجر به فرضیهای شد که ثبات حرارتی یک عامل تفاوت تعداد CGها است. هرچند فرضیه امیدوارکننده بود، این فرضیه مورد بررسی قرار نگرفت، چرا که آنالیز روی انواع پروکاریوتها هیچ شواهدی از رابطهٔ فراوانی CGها با دما نشان نداد. در حقیقت اگر انتخاب طبیعی نیروی محرکهٔ تفاوت فراوانی CGها باشد، منجر به چند ریختی تک نوکلئوتیدی میشود که معمولاً جایگزینی مترادف است و تناسب یک ارگانیسم را تغییر نمیدهد.
فرآیند تبدیل به GC ها بسیار شبیه فرآیند انتخاب طبیعی است. به فرآیند تبدیل A و T ها به G و C تبدیل بایاس GC میگویند و آن را با gBGC نشان میدهند. این فرآیند در طی فرآیند نوترکیبی ژنی رخ میدهد. و جالب است بدانید که GC ها در اعضایی که تبدیلات زیاد دارند بیشتر هستند. و فقط پروکاریوتها نیستند که تبدیل GC دارند. هنوز به طور قطع مشخص نیست که آیا gBGC با انتخاب طبیعی یکی هست یا اینکه کاملا فرآیند متفاوتی است و ممکن است حتی ضعف تکاملی داشته باشد. هنوز مکانیزم دقیق gBGC و مزایا و معایب آن به طور دقیق مشخص نیست.
k=2
برخلاف تغییرات فراوانی در مونومرها که به خاطر وجود تغییرات GC بسیار گسترده بود، تغییرات دو نوکليوتیدی خیلی متداول نیستند. بایاس دو نوکلئوتیدی یعنی فراوانی نسبی دو نوکلئوتید کنار هم و به شکل تعریف میشود که در آن فراوانی دو نوکلئوتید به هم چسبیده XY است و فراوانی نوکلئوتید X و فراوانی نوکلئوتید Y به تنهایی است. شکل ارتقا یافته این فرمول به شکل نمایش داده میشود که شامل فراوانی خود رشته و عکس مکمل آن نیز میشود. برخلاف GCها بایاس دو نوکئوتیدی اکثرا در طول ژنوم ثابت میمانند. بایاس دو نوکلئوتیدی تحت ترجمه به وجود نمیآیند چرا که اگر چنین بود باید الگوهای متنوعی از بایاس در مناطق رمز شده و بیرمز دیانای مشاهده میشد. همچنین،مشاهده شده که دیانای ویروس بیشتر به خانواده آن ویروس شبیه است تا به سلول میزبان آن. بنابراین میتوان نتیجه گرفت که عواملی که باعث به وجود آمدن بایاس دو نوکلئوتیدی میشوند مستقل از ترجمه عمل میکنند.
مطالعات روی بیش از ۵۰ کیلو بایت کانتیگ دیانای از یک جاندار نشان داده که بایاس دو نوکلئوتیدی در کل ژنوم تقریبا یکسان است. همچنین مشخص شده که بایاس دو نوکلئوتیدیدرحالتی که کانتیگها از یک جاندار باشند بیشتر مرتبط هستند تا وقتی که کانتیگها از جدانداران مختلف باشند.