Продолжая использовать сайт, вы даете свое согласие на работу с этими файлами.
همگذاری ازسرنو ترانسکریپتوم
همگذاری ازسرنو ترانسکریپتوم، یک روش همگذاری دنبالهٔ de novo یا ازسرنو، برای ساخت رشتهٔ ترانسکریپتومیکس بدون کمک گرفتن از ژنوم مرجع است.
مقدمه
به دنبال توسعهٔ تکنولوژیهای جدید برای توالییابی، در سالهای ۲۰۰۸ تا ۲۰۱۲ کاهش شدیدی در هزینهٔ توالییابی اتفاق افتاد. هزینهٔ تعیین توالی به ازای هر مگاباز (megabase) و ژنوم به ترتیب به ۱/۱۰۰٬۰۰۰ و ۱/۱۰٬۰۰۰ هزینهٔ قبلی، کاهش پیدا کرد. مهمتر، این بود که تنها ترانسکریپتوم مربوط به جاندارانی که در حوزهٔ تحقیقات علمی بیشتر مورد توجه و جالب بودند و امکانات برای آنها فراهم تر بود توالییابی میشدند. با اینحال، این تکنولوژیهای تازه توسعه یافتهٔ نسل بعدی (یا تکنولوژی با توان عملکردی بالا) از نظر هزینه و نیروی کاری بهینهتر هستند و تعداد موجوداتی که از این روشها مطالعه میشوند در حال گسترش است. برای نمونه ترانسکریپتوم موجوداتی مانند نخود،پلاناریا (Planarian) و پارائیالا هاواییس و همینطور دنبالهٔ مغز موجوداتی شامل تمساح نیل، مار ذرت و لاکپشت گوشقرمز ساخته شدهاست.
بررسی موجودات غیر مدل میتواند دید جدیدی از مکانیزمهای زیربنای «تنوع نوآوریهای شگفتانگیز مورفولوژیکی» که فراوانی زندگی روی سیارهٔ زمین را ممکن ساخته، فراهم کند. «نوآوری»هایی که در حیوانات و گیاهان وجود دارد و نمیتوان آنها را روی موجودات مدل رایج بررسی کرد، شامل تقلید، همزیستی دوسویه، پاراتیزیسم و تولید مثل غیرجنسی میباشد. همگذاری ازسرنو ترانسکریپتوم معمولاً روشی است که در مطالعهٔ موجودات غیر مدل ترجیح داده میشود، زیرا این روش کمهزینهتر و آسانتر از ساخت ژنوم است و متدهای مبتنی بر مرجع بدون وجود ژنوم امکانپذیر نیستند. ترانسکریپتوم این موجودات میتواند پروتئینهای جدید و ایزوفورمهای آنها را که در اینچنین آثار یکتای زیستی وجود دارند آشکار سازد.
همگذاری ازسرنو در مقایسه با روش مبتنی بر مرجع
مجموعهای از ترانسکریپتهای همگذاری شده، امکان مطالعات ابتدایی بیان ژن را فراهم کرده و میکنند. پیش از توسعهٔ برنامههای کامپیوتریِ همگذاری ترانسکریپتوم، دادههای ترانسکریپتوم ابتدائاً با نگاشت روی ژنوم مرجع تحلیل میشدند. اگرچه همردیفی ژنوم، راهی مطمئن برای مشخص کردن توالی ترانسکریپت میباشد، این روش به خاطر ناتوانی در توجیه رخدادهایی مانند جابجایی ساختارمند ترانسکریپهای mRNA از جمله جابجایی جایگزین (alternative splicing) در این مورد کاربرد بهینهای ندارد. ژنوم شامل همهٔ اینترونها و اگزونهایی است که ممکن است در ترانسکریپت قرار بگیرند. تنوع جایگزینی، بعضی از اگزونها را (نه لزوماً تمام آنها را) دقیقاً به ترتیب آمدنشان در ژنوم، کنار هم قرار میدهد که این میتواند به نوعی ایزوفورمهای مختلف پروتئین را بسازند و همین تنوع درآمدن اگزومهاست که باعث این تنوع و تفاوت میشود. حتی در زمانی که ژنوم مرجع در دسترس است، همگذاری ازسرنو باید انجام گیرد، این کار ترانسکریپتهایی را که از بخشهایی از ژنوم، که در ژنوم همگذار شده قرار ندارند و رونویسی کردهاست را پوشش میدهد.
همگذاری ترانسکریپتوم در مقایسه با ژنوم
برخلاف سطح پوشش دنبالهٔ ژنوم- که در نتیجهٔ محتوای تکراری در نواحی غیر کدینگ اینترون دیانای، میتواند به صورت تصادفی متفاوت باشد- سطح پوشش توالی ترانسکریپتوم مستقیماً نشاندهندهٔ سطح بیان ژنهاست. این توالیهای تکرار شده همچنین میتوانند باعث ایجاد ابهام در تشکیل contigها در همگذاری ژنوم شوند، در حالیکه ابهام در contigهای فرایند همگذاری ترانسکریپتوم، معمولاً به ایزوفورمهای تقسیم شده یا تنوع جزئی مربوط به اعضای خانوادهای از ژنها ارتباط دارد. همگذاری ژنوم به چندین دلیل، به صورت مستقیم نمیتواند در همگذاری ترانسکریپتوم مورد استفاده قرار بگیرد. اول، عمق تعیین توالی ژنوم معمولاً به اندازه سراسر طول ژنوم میباشد، اما عمق ترانسکریپتوم میتواند متنوع باشد. دوم اینکه هر دو رشتهٔ دیانای همیشه در ژنوم توالییابی میشوند، اما دادهٔ RNA-seq میتواند فقط یک رشته باشد. سومین دلیل این است که همگذاری ترانسکریپت چالش بیشتری دارد. زیرا تنوع ترانسکریپت حاصل از یک ژن، میتواند با استفاده از اگزونهای مختلف و ترکیب آنها ایجاد شده باشد و حل این ابهام و چندگانگی سختتر است.
انواع روشها
Rna-seq
پس از اینکه آرانای از سلول به صورت خالص استخراج شد، به عنوان ورودی به ابزارهای توالییابی با توان عملکردی بالا داده میشود، جایی که در ابتدا با استفاده از آنزیمی خاص به صورت معکوس رونویسی میشود تا cDNA یا دیانای مکمل ساخته شود. سپس این cDNA بر حسب پلتفرمی که استفاده میشود میتواند به طولهای متنوعی تقسیمبندی شود. هر کدام از پلتفرمهایی که در ادامه آمده، نوع متفاوتی از تکنولوژی برای تعیین توالی میلیونها read کوتاه را بکار میگیرد: 454 Sequencing, Illumina و SOLiD.
الگوریتمهای همگذاری
Readهای توالی cDNAها بوسیلهٔ برنامههای همگذاری ترانسکریپت، به ترانسکریپت همگذار میشوند. به احتمال زیاد تنوع بعضی از آمینواسیدها بین ترانسکریپتها، که به طریق دیگری مشابه هستند، ایزوفورمهای متفاوت پروتئینها را ایجاد میکنند. همچنین ممکن است ژنهای متفاوت در یک خانوادهٔ مشابه را نشان دهند، یا میتواند ژنهایی باشند که فقط بخش حفاظت شدهای از ترانسکریپت را به اشتراک دارند و این بستگی به درجهٔ تنوع آنها دارد.
تعدادی برنامه برای همگذاری در دسترس است. با این که این برنامهها در همگذاری ژنوم موفق عملکردهاند، همگذاری ترانسکریپتوم چالشهای منحصربفرد خودش را دارد. درحالیکه پوشش بالای توالی برای ژنوم، میتواند نشان دهندهٔ وجود توالیهای تکراری باشد و در نتیجه پنهان شود، اما برای ترانسکریپتوم، میتواند نشان دهندهٔ فراوانی باشد. علاوه بر این، برخلاف تعیین توالی ژنوم، توالی یابی ترانسکریپتوم میتواند یک رشتهای باشد. نهایتاً بازسازی ایزوفورمهای تقسیم شده میتواند سخت باشد.
همگذارهای readهای کوتاه، معمولاً یکی از این دو الگوریتم پایهای را انتخاب میکنند: گراف همپوشانی و گراف دی براین. گراف همپوشانی برای بیشتر همگذاریهایی بکار گرفته میشود که برای توالییابی با تکنولوژی Sanger طراحی شدهاند. همپوشانی بین هر جفت از readها محاسبه میشود و به یک گراف، ترجمه و تبدیل میشود که در آن هر گره نشاندهندهٔ دنبالهٔ یک read است. این الگوریتم از نظر محاسباتی سنگین تر از گراف دیبراین است، همچنین در همگذاریِ تعداد کمتری از readهای با درجهٔ بالاتری از همپوشانی، مؤثرتر عمل میکند. گراف دی براین، k تاییهای متوالی موجود در هر read را (معمولاً بین ۲۵ تا ۵۰ باز) بر اساس دنبالهٔ k-1 تایی محافظت شده، همگذاری میکند تا contigها را بسازد. استفاده از k-تاییهایی که طول کوتاهتری از خود readها دارند- در گراف دیبراین، باعث کاهش شدت محاسباتی این روش میشود.
تفسیر کاربردی
تفسیر کاربردی ترانسکریپت همگذاری شده، به ما تفسیر و دیدی در مورد کاربردهای مولکولی خاص، مؤلفههای سلولی و فرایندهای زیستیای که احتمالاً پروتئینهایی در آنها درگیر هستند، میدهد. Blast2GO، هستیشناسی ژنی را (Gene Ontology که به صورت GO مخفف میشود) برای ژنهایی که در حال حاضر هیچ تفسیر هستیشناسی برایشان در دسترس نداریم، براساس کاوش داده برای تفسیر دنبالهٔ دادهها میسر میکند. این یک ابزار تحقیقاتی است که در تحقیقات کاربردی ژنوم روی گونههای غیر مدل اعمال میشود. نحوهٔ کارکردش به این صورت است که contigهای همگذار شده را بین پایگاه دادههای پروتئینهای غیر مدل (در NCBI) بلاست میکند، سپس بر اساس تشابه دنبالهای، آنها را تفسیر میکند. Goanna یکی دیگر از برنامههای تفسیر هستیشناسی ژنی است که مخصوص حیوانات و ژن محصولات گیاهان کشاورزیِ در یک سبک است. این ابزار، بخشی از پایگاه دادهٔ (تأیید آزمایشگاهی شدهی) AgBase به عنوان سلسلهٔ قابل دسترس برای ابزارهای محاسباتیِ تفسیر و تحلیل GO است. تفسیرهای بعدی مانند (KEGG (Kyoto Encyclopedia of Genes and Genomes تصویرسازی از فرایندهای سوختوساز و شبکههای تعاملات سلولی در ترانسکریپتوم را فراهم میکند.
تأیید و کنترل کیفیت
زمانی که ژنوم مرجع موجود نیست، کیفیت contigهای همگذار شده باید تأیید شود. این تأیید یا از طریق مقایسه دنبالههای تولید شده با readهایی که از آنها ساخته شدهاست بدون نیاز به مرجع انجام میگیرد، یا با همردیفی دنبالههای محافظت شدهٔ حوزهٔ ژن در mRNA ترانسکریپتوم، با ترانسکریپتوم یا ژنوم گونههای مربوطِ نزدیک به مرجع. ابزارهایی از جمله Translate و DETONATE امکان تحلیل آماری کیفیت همگذاری را با این متدهای توضیح داده شده فراهم میکنند. یک روش دیگر، طراحی پرایمرهای PCR (واکنش زنجیرهای پلیمراز) برای ترانسکریپت پیشبینی شدهاست، سپس باید با استفاده از cDNA تقویت و زیاد شوند. معمولاً، readهای کوتاه فیلتر میشوند و بیرون داده میشوند. دنبالههای کوتاه (کمتر از ۴۰ آمینواسید) بعید است پروتئینهای کاربردی را نشان دهند.
همگذارها
در ادامه، خلاصهای از نرمافزارها و ابزارهایی که برای تولید ترانسکریپتوم استفاده شدهاند و همچنین در مقالات علمی به آنها اشاره شدهاست، آورده شده:
seqMan NGen
seqMan NGen، به عنوان بخشی از نرمافزار DNASTAR شامل یک همگذار ترانسکریپتوم ازسرنو برای مجموعه دادههای بزرگ یا کوچک ترانسکریپتوم میباشد. seqMan NGen از یک الگوریتمِ ساختهشدهاستفاده میکند که RefSeq را برای شناسایی و ادغام ترانسکریپتها بهینه میکند، و به صورت خودکار ترانسکریپتهای همگذار شده را با استفاده از ابزار اختصاصیِ تفسیرِ ترانسکریپت DNASTAR برای شناسایی و برجسته کردن ژنهای جدید و شناخته شده، تفسیر میکند.
SOAPdenovo-Trans
SOAPdenovo-Trans یک همگذار ترانسکریپتوم ازسرنو است که از چارچوب SOAPdenovo2 گرفته شدهاست و برای همگذاری ترانسکریپتوم با سطح بیان متفاوت و جابجایی جایگزین طراحی شدهاست. این همگذار در مقایسه با SOAPdenovo2 مسیرهای جامعتر و کاملتری برای ساخت کامل ترانسکریپتوم فراهم کردهاست.
Velvet/Oases
الگوریتم velvet از گراف دیبراین برای همگذاری ترانسکریپت استفاده میکند. در شبیهسازی، Velvet میتواند contigهایی با معیار N50 برابر 50-kb را با استفاده از دادهٔ پروکاریوت، و تا N50 برابر 3-kb در کروموزومهای مصنوعی باکتریایی پستانداران تولید کند. ترانسکریپتهای اولیه به واحه تبدیل میشوند، که خود واحهها از readهای جفت دوطرفه و readهای طولانی برای ساخت ایزوفورمهای ترانسکریپت استفاده میکنند.
Trans-ABySS
ABySS یک همگذار دنبالهٔ paired end است که موازی کار میکند. Trans-ABySS نرمافزاری است که به زبان پایتون و پرل برای تحلیل contigهای ترانسکریپتومِ همگذار شده توسط ABySS نوشته شدهاست. این نرمافزار میتواند برای همگذاریهای بازهٔ بزرگی از مقادیر k اعمال شود. ابتدا مجموعه دادهها را به مجموعهٔ کوچکتری از contigهای غیر همپوشان کاهش میدهد، و رخدادهای پیوند از قبیل پرش از اگزون، اگزونهای جدید، اینترونهای حفظ شده، اینترونهای جدید و جابجایی جایگزینی را تشخیص میدهد. این الگوریتم همچنین میتواند سطح بیان ژنها را نیز تخمین بزند، مکانهای محتمل چندآدنینی شدن را شناسایی کند و ژنهای کاندیدِ ادغام را تشخیص دهد.[۱۹][19]
Trinity
ابزار Trinity ابتدا دنبالهٔ دادهها را به تعدادی گراف دیبراین تبدیل میکند، سپس ایزوفورمهای پیوند شده با طول کامل را استخراج میکند و ترانسکریپتهای استخراج شده از ژنهای parqalogous از هر گراف دیبراین را به صورت جداگانه شناسایی میکند. Trinity از سه ماژل نرمافزاری مستقل که به صورت پشت سر هم برای تولید ترانسکریپت عمل میکنند، تشکیل شدهاست:
Inchworm ابتدا دادههای RNA-seq را به دنبالههای ترانسکریپت همگذار میکند، و معمولاً برای ایزوفورم غالب، ترانسکریپت با طول کامل را تولید میکند، اما نهایتاً فقط بخشهای یکتایی از ترانسکریپت پیوند زده شدهٔ جایگزین را گزارش میدهد.
Chrysalis در مرحلهٔ بعد، contigهای Inchworm را خوشهبندی میکند و برای هر خوشه گراف دیبراین را به صورت کامل میسازد. هر خوشه نمایشدهندهٔ پیچیدگی ترانسکریپت به صورت کامل برای یک ژن است (یا یک خانواده یا مجموعهای از ژنها که دارای بخش محافظتشدهٔ مشترکی هستند). Chrysalis سپس مجموعهٔ کامل readها را بین این گرافهای مجزا بخشبندی میکند.
Butterfly سپس هر گراف را به صورت موازی پردازش میکند و مسیر readها را در گراف دنبال میکند و نهایتاً ترانسکریپت کامل را برای ایزوفورمهای پیوند زده شدهٔ جایگزین گزارش میکند.