Продолжая использовать сайт, вы даете свое согласие на работу с этими файлами.
ژنیابی
اصولاً ژنیابی یا پیشبینی ژن به زمینهٔ محاسبات بیولوژیکی اشاره دارد که با تعیین الگوریتمیکِ قطعات توالیها، غالباً ژنوم دیانای، که کارکرد بیولوژیکی دارند در ارتباط است. این امر بهطور خاص شامل ژنهای کدکنندهٔ پروتئین است، اما ممکن است شامل سایر عناصر کارکردی از قبیل ژنهای آرانای و نواحی تنظیمکننده نیز بشود. ژنیابی یکی از اولین و مهمترین مراحل شناخت ژنوم یک گونهای که به صورت توالی درآورده شدهاست. در اوایل، «ژنیابی» بر اساس آزمایشهای پرزحمت و دشوار بر روی سلولهای زنده و ارگانیسمها استوار شده بود. تحلیلهای آماری نرخ نوترکیبهای هومولوگ چندین ژن مختلف میتواند ترتیب قرار گرفتن آنها را روی یک کروموزوم خاص تعیین کند و اطلاعات بدست آمده از چنین آزمایشهایی میتواند برای ساختن یک نقشۀ ژنتیکی که موقعیت نسبی ژنهای مرتبط به هم را بهطور تقریبی مشخص کند، استفاده شود. امروزه با در اختیار داشتن توالیهای ژنی وسیع و منابع محاسباتی قدرتمند، تعریف ژنیابی به عنوان مسئلهٔ محاسباتی عظیمی تغییر پیدا کردهاست. تعیین اینکه آیا یک توالی کارکردی است مستلزم تعیین کارکرد یا محصول آن ژن است.
روشهای بیرونی
در سیستمهای ژنیابی خارجی (بر پایهٔ شواهد) ژنوم هدف را در توالیهایی که شبیه به شواهد خارجی هستند را از روی یک توالی شناخته شدهٔ آرانای پیامرسان یا محصول یک پروتئین جستجو میکنند. برای یک توالی آرانای پیامرسان داده شده، بدست آوردن یک توالی دیانای منحصر بفرد واضح است. برای یک توالی پروتئینی، خانوادهای از توالیهای ممکن از دیانای کد شده را میتوان از روی ترجمهٔ معکوس کد ژنتیکی بدست آورد. وقتی توالیهای دیانای مشخص شدند جستجوی کارآمد یک ژنوم هدف برای یافتن تطابقهای کامل یا جزئی، مسئلهٔ الگوریتمیک سرراستی است. یک سیستم بسیار پرکاربرد برای این منظور بلاست است.
روشهای از آغاز
به دلیل دشواری و هزینهٔ زیاد در بدست آوردن شواهد خارجی برای اکثر ژنها، که در زمرهٔ ژنیابیهای از آغاز قرار میگیرند، که در آن توالیهای ژنوم دیانای به تنهایی بهطور سیستماتیک به منظور یافتن نشانههایی از حضور ژنهای کد کنندهٔ پروتئین جستجو میکند. این نشانهها یا میتوانند به عنوان سیگنال، توالیهای خاصی که حضور ژن در اطراف را تشخیص میدهند، یا محتوا، ویژگیهای آماری کد کردن توالیهای پروتئینی، دستهبندی شوند. بهطور دقیق تر ژنیابیِ از آغاز در ردهٔ پیشبینی ژن قرار میگیرد، زیرا که شواهد خارجی کلاً مستلزم این است که کارکرد یک ژن معروف را استنتاج کرده باشد.
در ژنوم پروکاریوتها، ژنها توالیهای پروموتوری (سیگنال) خاص و نسبتاً شناخته شدهای دارند، از قبیل Pinbow box و نواحی اتصال فاکتورهای رونویسی که به راحتی قابل شناسایی هستند. همچنین کد کردن توالی برای پروتئین به صورت یک قالب خواندن باز (ORF) به هم پیوسته اتفاق میافتد که به اندازهٔ صدها یا هزاران جفت بازی درازا دارد. آماری که از کدونهای خاتمه بدست میآید به گونهای است که حتی یافتن یک قالب خواندن باز با این طول نیز حاوی اطلاعات بسیاری است. علاوه براین، دیانای کد کردن پروتئین دارای فراوانی مشخص و سایر ویژگیهای آماری که به سادگی قابل پیدا کردن در توالی ای با این طول هستند، دارد. این ویژگیها سبب میشوند که ژنیابی که پروکاریوتها نسبتاً آسان و سرراست انجام شود و سیستمهای با طراحی مناسب قادر هستند که به سطح بالایی از دقت نیز برسند.
ژنیابی از آغاز در یوکاریوتها مخصوصاً ارگانیسمهای پیچیده مانند انسان، به چندین دلیل چالش بر انگیزتر است. اول اینکه، پروموتر. سایر سیگنالهای تنظیمکننده پیچیدهتر و ناشناخته تر هستند در مقایسه با پروکاریوتها.
دوم اینکه مکانیزمهای پیوند کردن (splicing) در سلولهای یوکاریوتها به کار گرفته میشود؛ به این معنی که یک توالیِ مشخصِ کد کنندهٔ پروتئین در ژنوم به چندین بخش تقسیم میشود (اگزون) که با توالیهای غیر کدکننده (اینترون) جدا شدهاند. یک ژن کد کنندهٔ پرئتئین در انسان ممکن است به دو جین اگزون که هر یک کمتر از دویست جفتِ بازی درازا دارند (البته میتواند به کوتاهی بیست تا سی جفتِ بازی نیز باشد) تقسیم شود؛ بنابراین در یوکاریوتها فراوانی و سایر ویژگیهای محتوایی شناخته شده از دیانای کد کنندهٔ پروتئین بسیار دشوارتر است از پروکاریوتها.
ژن یابهای پیشرفته هم برای ژنوم پرئکاریوتها و هم برای ژنوم یوکاریوتها از مدلهای احتمالی پیچیده استفاده میکنند از قبیل مدلهای مارکوف پنهان، تا اطلاعات سیگنالهای مختلف و متنوع را با هم ترکیب کنند. سیستم GLIMMER یک ژن یاب پرکاربرد و دقیق برای پرئکاریوت هاست. GeneMark دیدگاه معروف دیگری است. ژن یابهای از آغاز برای یوکاریوتها به نسبت موفقیت کمتری بدست آوردهاند؛ برنامههای GENSCAN و geneid نمونههای بازر از این قبیل ژن یابها هستند. ژن یاب SNAP همانند Genscan مبتنی بر HMM است و سعی دارد که قابلیت سازگاری بیشتری با ارگانیسمهای متفاوت داشته باشد. روشهای جدید مانند mSplicer , CONTRAST, یا mGene نیز از تکنیکهای یادگیری ماشین مانند ماشین بردار پشتیبان برای یک پیشبینی ژن موفق استفاده میکنند.
سایر سیگنالها
از بین سیگنالهای بدست آمدهای که برای پیشبینی استفاده میشوند میتوان به آمار k-mer، تبدیل فوریه، Z-curve parameters and certain run features. اشاره کرد. ادعا میشود که سیگنالهایی که بهطور مستقیم در توالی قابل شناسایی نیستند میتوانند در بهبود پیشبینی ژن به کار گرفته شوند. برای مثال تاکنون نقش ساختار دوم در شناسایی موتیفهای تنظیمکننده گزارش شدهاست. علاوه بر این گفته شده که پیشبینی ساختار دوم RNA به پیشبینی نواحی متصل شدگی (splicing) کمک میکند.
شبکههای عصبی
شبکههای عصبی مصنوعی مدلهای محاسباتی هستند که در یادگیری ماشین و بازشناخت الگو، برتری دارند. شبکههای عصبی قبل از اینکه بتوانند دادههای آزمایشی را دستهبندی کنند و در مقابل معیارها سنجیده شوند، باید با داده های نمونه یادگیری کنند. شبکههای عصبی قادر به ارائه راهحلهای تقریبی برای مسائلی هستند که حل الگوریتمی آنها دشوار است، مشروط بر اینکه دادههای یادگیری کافی وجود داشتهباشد. هنگامی که برای پیشبینی ژن استفاده میشود، شبکههای عصبی میتوانند در کنار سایر روشهای "از آغاز" برای پیشبینی یا شناسایی ویژگیهای زیستی مانند مکانهای شکاف استفاده شوند. یک رویکرد، استفاده از یک بازهی حرکتکننده است که روی دادههای دنباله به حالت تداخلی حرکت میکند. خروجی در هر نقطه، امتیازیست که براساس آن است که شبکه فکر میکند این بازه دارای یک مکان شکافدهنده است یا یک مکان شکافشونده است. بازههای بزرگتر، دقت بیشتری دارند اما به قدرت محاسباتی بیشتری نیز نیاز دارند. شبکه عصبی، نمونهای از حسگر سیگنال است زیرا که هدف آن شناسایی محل عملکردی در ژنوم است.
روشهای تطبیق ژنومها
از آنجا که کل توالی ژنومی بسیاری از گونهها به دست آورده شدهاست، یک حرکت امیدوارکننده در تحقیقات فعلی در زمینه ژنیابی، روش ژنومهای تطبیقی است.
این روش بر اساس این پایهگذاری شدهاست که نیروی انتخاب طبیعی باعث میشود که ژنها و سایر عناصر کارکردی، کندتر از بقیه ژنوم تحت جهش واقع شوند؛ بنابراین ژنها میتوانند از روی مقایسه با ژنوم گونههای مربوطه مقایسه شوند. این روش در ابتدا بر روی ژنومهای موش و انسان اعمال شد، که در آن از برنامههایی مانند SLAM، SGP، Twinscan/N-SCAN و CONTRAST استفاده شد.
چند آگاهیدهنده
TWINSCAN تنها همرشتگی انسان-موش را جستجو کرد تا به دنبال ژنهای اَرتاساخت باشد. برنامههایی مانند N-SCAN و CONTRAST امکان تطبیق از موجودات مختلف را دادند، یا در مورد N-SCAN، صرفاًیک موجود متفاوت از موجود هدف. استفاده از چند آگاهیدهنده میتواند باعث پیشرفت چشمگیری در دقت کار شود.
CONTRAST از دو عنصر تشکیل شده است. اولی، یک دستهبند کوچکتر است، که مکانهای مربوط به تقسیمدهنده و مکانهای شکافپذیرنده و همچنین رمزههای (codon) شروعکننده و متوقفکننده را تشخیص میدهد. عنصر دوم شامل ساختن یک مدل کامل با استفاده از یادگیری ماشین است. دو بخش کردن مسئله به این معنی است که می توان از مجموعه دادههای کوچکتر برای آموزش دستهبند استفاده کرد، و دستهبند میتواند مستقل عمل کند و با بازههای کوچکتر آموزش ببیند. مدل کلی میتواند از دستهبند مستقل استفاده کند، و نیازی به اتلاف وقت محاسباتی یا پیچیدگی مدل نیست. مقاله ای که در آن CONTRAST معرفی شدهاست، پیشنهاد میکند که روش آنها (و TWINSCAN و غیره) به عنوان انجمن ژن de novo طبقهبندی شود، که از ژنوم های جایگزین استفاده میکند.
ژنیابی تطبیقی نیز میتواند برای ایجاد تفسیرهای با کیفیت بالا از یک ژنوم به ژنومی دیگر مورد استفاده قرار گیرد. نمونه های قابل توجه شامل Projector، GeneWise ، GeneMapper و GeMoMa میشود. اینگونه تکنیکها اکنون نقش مهمی در تفسیر همه ژنومها دارند.
شبهژن یابی
شبهژنها بسیار به ژنها مرتبطاند، به طوری که دارای ساختار دنبالهی بسیار متشابهاند، اما قادر به کدگذاری برای یک محصول پروتئینی یکسان نیستند. هرچند که یک زمانی به عنوان محصول جانبی توالییابی ژن به شمار میآمدند، با توجه به کشف بیشتر نقشهای نظارتکننده، آنها به خودی خود به اهداف مورد پیشبینی تبدیل میشوند. پیشبینی شبهژنها از روشهای تشابه توالی موجود و روشهای "ab initio" استفاده میکند، که با اضافه کردن فیلتر اضافی و روشهای شناسایی خصوصیات شبهژن، به کار میرود. روشهای تشابه توالی را میتوان برای پیشبینی شبهژنها با استفاده از فیلترهای اضافی برای یافتن شبهژنهای احتمالی تنظیم کرد. این روش میتواند از تشخیص ناتوانی استفاده کند، که به دنبال جهشهای بیمعنی و یا تغییر فریم است که باعث می شود توالی کدنویسی کاربردی کوتاه شود یا به هم بخورد. علاوه بر این، ترجمه DNA به توالی پروتئین می تواند مؤثرتر از یافتن تشابه مستقیم DNA باشد.
تشخیص دهندههای محتوا را می توان با توجه به تفاوت در خصوصیات آماری بین شبهژنها و ژنها، مانند کمتر بودن تعداد جزایر CpG در شبهژنها، یا تفاوت در محتوای G-C بین شبهژنها و همسایگان آنها، فیلتر کرد.
ژنیابی متاژنومیک
متاژنومیک مطالعه مواد ژنتیکی است که از محیط خارج دربافت میشود، که در نتیجه اطلاعات توالی از مجموعهای از موجودات زنده حاصل میشود. پیشبینی ژنها برای متاژنومیک تطبیقی سودمند است.
ابزار Metagenomics همچنین در گروههای اصلی استفاده از هر دو روش تشابه دنباله (MEGAN4) و تکنیکهای "ab initio" مانند (GLIMMER-MG) قرار میگیرد.
Glimmer-MG افزونهای به GLIMMER است که بیشتر به رویکرد "ab initio" برای یافتن ژن و به استفاده از مجموعه دادههای یادگیری از موجودات وابسته متکی است. استراتژی پیشبینی با استفاده از روشهای دستهبندی و خوشهبندی مجموعه ژنها قبل از به کارگیری روشهای پیشبینی ژن "ab initio" افزوده میشود. دادهها توسط گونهها دستهبندی میشوند. این روش دستهبندی از روشهای دستهبندی فیلوژنتیک متاژنومی استفاده میکند.
MEGAN4 از یک رویکرد تشابه توالی، با استفاده از همترازی محلی در برابر پایگاهدادههای توالی شناختهشده استفاده میکند، ولی سعی در دستهبندی با استفاده از اطلاعات اضافی در مورد نقشهای کاربردی ، مسیرهای بیولوژیکی و آنزیمها دارد.
FragGeneScan و MetaGeneAnnotator برنامههای ژنیابی معروف، بر اساس مدل پنهان مارکوف هستند. این پیشبینیکنندهها، خطای توالییابی، ژنهای جزئی و کار برای خواندنهای کوتاه را در نظر میگیرند.
یکی دیگر از ابزارهای سریع و دقیق برای ژنیابی در متاژنومها، MetaGeneMark است. این ابزار توسط مؤسسه DOE Joint Genome Institute برای تفسیر IMG/M است، که بزرگترین مجموعه متاژنوم تا به امروز است.
صفحات مرتبط
پیوند به بیرون
- http://www.geneprediction.org
- FGENESH
- Bibliography on computational gene recognition by Wentian Li
- geneid
- SGP2
- http://cbcb.umd.edu/software/glimmer بایگانیشده در ۲۶ اوت ۲۰۱۱ توسط Wayback Machine
- http://cbcb.umd.edu/software/GlimmerHMM بایگانیشده در ۱۸ اوت ۲۰۱۱ توسط Wayback Machine
- https://web.archive.org/web/20080908011830/http://bio.math.berkeley.edu/genemapper/
- https://web.archive.org/web/20061116041807/http://www.genomethreader.org/
- GENSCAN
- Twinscan/N-SCAN
- CHEMGENOME
- GeneMark
- Gismo
- mGene
- StarORF — A multi-platform and web tool for predicting ORFs and obtaining reverse complement sequence