Мы используем файлы cookie.
Продолжая использовать сайт, вы даете свое согласие на работу с этими файлами.
همگذاری ازسرنو ترانسکریپتوم
Другие языки:

همگذاری ازسرنو ترانسکریپتوم

Подписчиков: 0, рейтинг: 0

همگذاری ازسرنو ترانسکریپتوم، یک روش همگذاری دنبالهٔ de novo یا ازسرنو، برای ساخت رشتهٔ ترانسکریپتومیکس بدون کمک گرفتن از ژنوم مرجع است.

مقدمه

به دنبال توسعهٔ تکنولوژی‌های جدید برای توالی‌یابی، در سال‌های ۲۰۰۸ تا ۲۰۱۲ کاهش شدیدی در هزینهٔ توالی‌یابی اتفاق افتاد. هزینهٔ تعیین توالی به ازای هر مگاباز (megabase) و ژنوم به ترتیب به ۱/۱۰۰٬۰۰۰ و ۱/۱۰٬۰۰۰ هزینهٔ قبلی، کاهش پیدا کرد. مهم‌تر، این بود که تنها ترانسکریپتوم مربوط به جاندارانی که در حوزهٔ تحقیقات علمی بیشتر مورد توجه و جالب بودند و امکانات برای آن‌ها فراهم تر بود توالی‌یابی می‌شدند. با این‌حال، این تکنولوژی‌های تازه توسعه یافتهٔ نسل بعدی (یا تکنولوژی با توان عملکردی بالا) از نظر هزینه و نیروی کاری بهینه‌تر هستند و تعداد موجوداتی که از این روش‌ها مطالعه می‌شوند در حال گسترش است. برای نمونه ترانسکریپتوم موجوداتی مانند نخود،پلاناریا (Planarian) و پارائیالا هاواییس و همین‌طور دنبالهٔ مغز موجوداتی شامل تمساح نیل، مار ذرت و لاک‌پشت گوش‌قرمز ساخته شده‌است.

بررسی موجودات غیر مدل می‌تواند دید جدیدی از مکانیزم‌های زیربنای «تنوع نوآوری‌های شگفت‌انگیز مورفولوژیکی» که فراوانی زندگی روی سیارهٔ زمین را ممکن ساخته، فراهم کند. «نوآوری»‌هایی که در حیوانات و گیاهان وجود دارد و نمی‌توان آن‌ها را روی موجودات مدل رایج بررسی کرد، شامل تقلید، هم‌زیستی دوسویه، پاراتیزیسم و تولید مثل غیرجنسی می‌باشد. همگذاری ازسرنو ترانسکریپتوم معمولاً روشی است که در مطالعهٔ موجودات غیر مدل ترجیح داده می‌شود، زیرا این روش کم‌هزینه‌تر و آسان‌تر از ساخت ژنوم است و متدهای مبتنی بر مرجع بدون وجود ژنوم امکان‌پذیر نیستند. ترانسکریپتوم این موجودات می‌تواند پروتئین‌های جدید و ایزوفورم‌های آن‌ها را که در این‌چنین آثار یکتای زیستی وجود دارند آشکار سازد.

همگذاری ازسرنو در مقایسه با روش مبتنی بر مرجع

مجموعه‌ای از ترانسکریپت‌های همگذاری شده، امکان مطالعات ابتدایی بیان ژن را فراهم کرده و می‌کنند. پیش از توسعهٔ برنامه‌های کامپیوتریِ همگذاری ترانسکریپتوم، داده‌های ترانسکریپتوم ابتدائاً با نگاشت روی ژنوم مرجع تحلیل می‌شدند. اگرچه هم‌ردیفی ژنوم، راهی مطمئن برای مشخص کردن توالی ترانسکریپت می‌باشد، این روش به خاطر ناتوانی در توجیه رخدادهایی مانند جابجایی ساختارمند ترانسکریپ‌های mRNA از جمله جابجایی جایگزین (alternative splicing) در این مورد کاربرد بهینه‌ای ندارد. ژنوم شامل همهٔ اینترونها و اگزونهایی است که ممکن است در ترانسکریپت قرار بگیرند. تنوع جایگزینی، بعضی از اگزون‌ها را (نه لزوماً تمام آن‌ها را) دقیقاً به ترتیب آمدنشان در ژنوم، کنار هم قرار می‌دهد که این می‌تواند به نوعی ایزوفورم‌های مختلف پروتئین را بسازند و همین تنوع درآمدن اگزوم‌هاست که باعث این تنوع و تفاوت می‌شود. حتی در زمانی که ژنوم مرجع در دسترس است، همگذاری ازسرنو باید انجام گیرد، این کار ترانسکریپت‌هایی را که از بخش‌هایی از ژنوم، که در ژنوم همگذار شده قرار ندارند و رونویسی کرده‌است را پوشش می‌دهد.

همگذاری ترانسکریپتوم در مقایسه با ژنوم

برخلاف سطح پوشش دنبالهٔ ژنوم- که در نتیجهٔ محتوای تکراری در نواحی غیر کدینگ اینترون دی‌ان‌ای، می‌تواند به صورت تصادفی متفاوت باشد- سطح پوشش توالی ترانسکریپتوم مستقیماً نشان‌دهندهٔ سطح بیان ژن‌هاست. این توالی‌های تکرار شده هم‌چنین می‌توانند باعث ایجاد ابهام در تشکیل contigها در همگذاری ژنوم شوند، در حالیکه ابهام در contigهای فرایند همگذاری ترانسکریپتوم، معمولاً به ایزوفورم‌های تقسیم شده یا تنوع جزئی مربوط به اعضای خانواده‌ای از ژن‌ها ارتباط دارد. همگذاری ژنوم به چندین دلیل، به صورت مستقیم نمی‌تواند در همگذاری ترانسکریپتوم مورد استفاده قرار بگیرد. اول، عمق تعیین توالی ژنوم معمولاً به اندازه سراسر طول ژنوم می‌باشد، اما عمق ترانسکریپتوم می‌تواند متنوع باشد. دوم اینکه هر دو رشتهٔ دی‌ان‌ای همیشه در ژنوم توالی‌یابی می‌شوند، اما دادهٔ RNA-seq می‌تواند فقط یک رشته باشد. سومین دلیل این است که همگذاری ترانسکریپت چالش بیشتری دارد. زیرا تنوع ترانسکریپت حاصل از یک ژن، می‌تواند با استفاده از اگزون‌های مختلف و ترکیب آن‌ها ایجاد شده باشد و حل این ابهام و چندگانگی سخت‌تر است.

انواع روش‌ها

Rna-seq

پس از این‌که آران‌ای از سلول به صورت خالص استخراج شد، به عنوان ورودی به ابزارهای توالی‌یابی با توان عملکردی بالا داده می‌شود، جایی که در ابتدا با استفاده از آنزیمی خاص به صورت معکوس رونویسی می‌شود تا cDNA یا دی‌ان‌ای مکمل ساخته شود. سپس این cDNA بر حسب پلت‌فرمی که استفاده می‌شود می‌تواند به طول‌های متنوعی تقسیم‌بندی شود. هر کدام از پلت‌فرم‌هایی که در ادامه آمده، نوع متفاوتی از تکنولوژی برای تعیین توالی میلیون‌ها read کوتاه را بکار می‌گیرد: 454 Sequencing, Illumina و SOLiD.

الگوریتم‌های همگذاری

Readهای توالی cDNAها بوسیلهٔ برنامه‌های همگذاری ترانسکریپت، به ترانسکریپت همگذار می‌شوند. به احتمال زیاد تنوع بعضی از آمینواسیدها بین ترانسکریپت‌ها، که به طریق دیگری مشابه هستند، ایزوفورمهای متفاوت پروتئین‌ها را ایجاد می‌کنند. هم‌چنین ممکن است ژن‌های متفاوت در یک خانوادهٔ مشابه را نشان دهند، یا می‌تواند ژن‌هایی باشند که فقط بخش حفاظت شده‌ای از ترانسکریپت را به اشتراک دارند و این بستگی به درجهٔ تنوع آن‌ها دارد.

تعدادی برنامه برای همگذاری در دسترس است. با این که این برنامه‌ها در همگذاری ژنوم موفق عملکرده‌اند، همگذاری ترانسکریپتوم چالش‌های منحصربفرد خودش را دارد. درحالی‌که پوشش بالای توالی برای ژنوم، می‌تواند نشان دهندهٔ وجود توالی‌های تکراری باشد و در نتیجه پنهان شود، اما برای ترانسکریپتوم، می‌تواند نشان دهندهٔ فراوانی باشد. علاوه بر این، برخلاف تعیین توالی ژنوم، توالی یابی ترانسکریپتوم می‌تواند یک رشته‌ای باشد. نهایتاً بازسازی ایزوفورم‌های تقسیم شده می‌تواند سخت باشد.

همگذارهای readهای کوتاه، معمولاً یکی از این دو الگوریتم پایه‌ای را انتخاب می‌کنند: گراف هم‌پوشانی و گراف دی براین. گراف هم‌پوشانی برای بیشتر همگذاری‌هایی بکار گرفته می‌شود که برای توالی‌یابی با تکنولوژی Sanger طراحی شده‌اند. هم‌پوشانی بین هر جفت از readها محاسبه می‌شود و به یک گراف، ترجمه و تبدیل می‌شود که در آن هر گره نشان‌دهندهٔ دنبالهٔ یک read است. این الگوریتم از نظر محاسباتی سنگین تر از گراف دی‌براین است، هم‌چنین در همگذاریِ تعداد کمتری از readهای با درجهٔ بالاتری از هم‌پوشانی، مؤثرتر عمل می‌کند. گراف دی براین، k تایی‌های متوالی موجود در هر read را (معمولاً بین ۲۵ تا ۵۰ باز) بر اساس دنبالهٔ k-1 تایی محافظت شده، همگذاری می‌کند تا contigها را بسازد. استفاده از k-تایی‌هایی که طول کوتاه‌تری از خود readها دارند- در گراف دی‌براین، باعث کاهش شدت محاسباتی این روش می‌شود.

تفسیر کاربردی

تفسیر کاربردی‌ ترانسکریپت همگذاری شده، به ما تفسیر و دیدی در مورد کاربردهای مولکولی خاص، مؤلفه‌های سلولی و فرایندهای زیستی‌ای که احتمالاً پروتئین‌هایی در آن‌ها درگیر هستند، می‌دهد. Blast2GO، هستی‌شناسی ژنی را (Gene Ontology که به صورت GO مخفف می‌شود) برای ژن‌هایی که در حال حاضر هیچ تفسیر هستی‌شناسی برایشان در دسترس نداریم، براساس کاوش داده برای تفسیر دنبالهٔ داده‌ها میسر می‌کند. این یک ابزار تحقیقاتی است که در تحقیقات کاربردی ژنوم روی گونه‌های غیر مدل اعمال می‌شود. نحوهٔ کارکردش به این صورت است که contigهای همگذار شده را بین پایگاه داده‌های پروتئین‌های غیر مدل (در NCBI) بلاست می‌کند، سپس بر اساس تشابه دنباله‌ای، آن‌ها را تفسیر می‌کند. Goanna یکی دیگر از برنامه‌های تفسیر هستی‌شناسی ژنی است که مخصوص حیوانات و ژن محصولات گیاهان کشاورزیِ در یک سبک است. این ابزار، بخشی از پایگاه دادهٔ (تأیید آزمایشگاهی شده‌ی) AgBase به عنوان سلسلهٔ قابل دسترس برای ابزارهای محاسباتیِ تفسیر و تحلیل GO است. تفسیرهای بعدی مانند (KEGG (Kyoto Encyclopedia of Genes and Genomes تصویرسازی از فرایندهای سوخت‌وساز و شبکه‌های تعاملات سلولی در ترانسکریپتوم را فراهم می‌کند.

تأیید و کنترل کیفیت

زمانی که ژنوم مرجع موجود نیست، کیفیت contigهای همگذار شده باید تأیید شود. این تأیید یا از طریق مقایسه دنباله‌های تولید شده با readهایی که از آن‌ها ساخته شده‌است بدون نیاز به مرجع انجام می‌گیرد، یا با هم‌ردیفی دنباله‌های محافظت شدهٔ حوزهٔ ژن در mRNA ترانسکریپتوم، با ترانسکریپتوم یا ژنوم گونه‌های مربوطِ نزدیک به مرجع. ابزارهایی از جمله Translate و DETONATE امکان تحلیل آماری کیفیت همگذاری را با این متدهای توضیح داده شده فراهم می‌کنند. یک روش دیگر، طراحی پرایمرهای PCR (واکنش زنجیره‌ای پلیمراز) برای ترانسکریپت پیش‌بینی شده‌است، سپس باید با استفاده از cDNA تقویت و زیاد شوند. معمولاً، readهای کوتاه فیلتر می‌شوند و بیرون داده می‌شوند. دنباله‌های کوتاه (کمتر از ۴۰ آمینواسید) بعید است پروتئین‌های کاربردی را نشان دهند.

همگذارها

در ادامه، خلاصه‌ای از نرم‌افزارها و ابزارهایی که برای تولید ترانسکریپتوم استفاده شده‌اند و هم‌چنین در مقالات علمی به آن‌ها اشاره شده‌است، آورده شده:

seqMan NGen

seqMan NGen، به عنوان بخشی از نرم‌افزار DNASTAR شامل یک همگذار ترانسکریپتوم ازسرنو برای مجموعه داده‌های بزرگ یا کوچک ترانسکریپتوم می‌باشد. seqMan NGen از یک الگوریتمِ ساخته‌شده‌استفاده می‌کند که RefSeq را برای شناسایی و ادغام ترانسکریپت‌ها بهینه می‌کند، و به صورت خودکار ترانسکریپت‌های همگذار شده را با استفاده از ابزار اختصاصیِ تفسیرِ ترانسکریپت DNASTAR برای شناسایی و برجسته کردن ژن‌های جدید و شناخته شده، تفسیر می‌کند.

SOAPdenovo-Trans

SOAPdenovo-Trans یک همگذار ترانسکریپتوم ازسرنو است که از چارچوب SOAPdenovo2 گرفته شده‌است و برای همگذاری ترانسکریپتوم با سطح بیان متفاوت و جابجایی جایگزین طراحی شده‌است. این همگذار در مقایسه با SOAPdenovo2 مسیرهای جامع‌تر و کامل‌تری برای ساخت کامل ترانسکریپتوم فراهم کرده‌است.

Velvet/Oases

الگوریتم velvet از گراف دی‌براین برای همگذاری ترانسکریپت استفاده می‌کند. در شبیه‌سازی، Velvet می‌تواند contigهایی با معیار N50 برابر 50-kb را با استفاده از دادهٔ پروکاریوت، و تا N50 برابر 3-kb در کروموزوم‌های مصنوعی باکتریایی پستانداران تولید کند. ترانسکریپت‌های اولیه به واحه تبدیل می‌شوند، که خود واحه‌ها از readهای جفت دوطرفه و readهای طولانی برای ساخت ایزوفورم‌های ترانسکریپت استفاده می‌کنند.

Trans-ABySS

ABySS یک همگذار دنبالهٔ paired end است که موازی کار می‌کند. Trans-ABySS نرم‌افزاری است که به زبان پایتون و پرل برای تحلیل contigهای ترانسکریپتومِ همگذار شده توسط ABySS نوشته شده‌است. این نرم‌افزار می‌تواند برای همگذاری‌های بازهٔ بزرگی از مقادیر k اعمال شود. ابتدا مجموعه داده‌ها را به مجموعهٔ کوچکتری از contigهای غیر هم‌پوشان کاهش می‌دهد، و رخدادهای پیوند از قبیل پرش از اگزون، اگزون‌های جدید، اینترون‌های حفظ شده، اینترون‌های جدید و جابجایی جایگزینی را تشخیص می‌دهد. این الگوریتم هم‌چنین می‌تواند سطح بیان ژن‌ها را نیز تخمین بزند، مکان‌های محتمل چندآدنینی شدن را شناسایی کند و ژن‌های کاندیدِ ادغام را تشخیص دهد.[۱۹][19]

Trinity

ابزار Trinity ابتدا دنبالهٔ داده‌ها را به تعدادی گراف دی‌براین تبدیل می‌کند، سپس ایزوفورم‌های پیوند شده با طول کامل را استخراج می‌کند و ترانسکریپت‌های استخراج شده از ژن‌های parqalogous از هر گراف دی‌براین را به صورت جداگانه شناسایی می‌کند. Trinity از سه ماژل نرم‌افزاری مستقل که به صورت پشت سر هم برای تولید ترانسکریپت عمل می‌کنند، تشکیل شده‌است:

Inchworm ابتدا داده‌های RNA-seq را به دنباله‌های ترانسکریپت همگذار می‌کند، و معمولاً برای ایزوفورم غالب، ترانسکریپت با طول کامل را تولید می‌کند، اما نهایتاً فقط بخش‌های یکتایی از ترانسکریپت پیوند زده شدهٔ جایگزین را گزارش می‌دهد.

Chrysalis در مرحلهٔ بعد، contigهای Inchworm را خوشه‌بندی می‌کند و برای هر خوشه گراف دی‌براین را به صورت کامل می‌سازد. هر خوشه نمایش‌دهندهٔ پیچیدگی ترانسکریپت به صورت کامل برای یک ژن است (یا یک خانواده یا مجموعه‌ای از ژن‌ها که دارای بخش محافظت‌شدهٔ مشترکی هستند). Chrysalis سپس مجموعهٔ کامل readها را بین این گراف‌های مجزا بخش‌بندی می‌کند.

Butterfly سپس هر گراف را به صورت موازی پردازش می‌کند و مسیر readها را در گراف دنبال می‌کند و نهایتاً ترانسکریپت کامل را برای ایزوفورم‌های پیوند زده شدهٔ جایگزین گزارش می‌کند.


Новое сообщение