Мы используем файлы cookie.
Продолжая использовать сайт, вы даете свое согласие на работу с этими файлами.

ژن‌یابی

Подписчиков: 0, рейтинг: 0
Gene structure.svg

اصولاً ژن‌یابی یا پیش‌بینی ژن به زمینهٔ محاسبات بیولوژیکی اشاره دارد که با تعیین الگوریتمیکِ قطعات توالی‌ها، غالباً ژنوم دی‌ان‌ای، که کارکرد بیولوژیکی دارند در ارتباط است. این امر به‌طور خاص شامل ژن‌های کدکنندهٔ پروتئین است، اما ممکن است شامل سایر عناصر کارکردی از قبیل ژن‌های آران‌ای و نواحی تنظیم‌کننده نیز بشود. ژن‌یابی یکی از اولین و مهم‌ترین مراحل شناخت ژنوم یک گونه‌ای که به صورت توالی درآورده شده‌است. در اوایل، «ژن‌یابی» بر اساس آزمایش‌های پرزحمت و دشوار بر روی سلول‌های زنده و ارگانیسم‌ها استوار شده بود. تحلیل‌های آماری نرخ نوترکیب‌های هومولوگ چندین ژن مختلف می‌تواند ترتیب قرار گرفتن آن‌ها را روی یک کروموزوم خاص تعیین کند و اطلاعات بدست آمده از چنین آزمایش‌هایی می‌تواند برای ساختن یک نقشۀ ژنتیکی که موقعیت نسبی ژن‌های مرتبط به هم را به‌طور تقریبی مشخص کند، استفاده شود. امروزه با در اختیار داشتن توالی‌های ژنی وسیع و منابع محاسباتی قدرتمند، تعریف ژن‌یابی به عنوان مسئلهٔ محاسباتی عظیمی تغییر پیدا کرده‌است. تعیین اینکه آیا یک توالی کارکردی است مستلزم تعیین کارکرد یا محصول آن ژن است.

روش‌های بیرونی

در سیستم‌های ژن‌یابی خارجی (بر پایهٔ شواهد) ژنوم هدف را در توالی‌هایی که شبیه به شواهد خارجی هستند را از روی یک توالی شناخته شدهٔ آران‌ای پیام‌رسان یا محصول یک پروتئین جستجو می‌کنند. برای یک توالی آران‌ای پیام‌رسان داده شده، بدست آوردن یک توالی دی‌ان‌ای منحصر بفرد واضح است. برای یک توالی پروتئینی، خانواده‌ای از توالی‌های ممکن از دی‌ان‌ای کد شده را می‌توان از روی ترجمهٔ معکوس کد ژنتیکی بدست آورد. وقتی توالی‌های دی‌ان‌ای مشخص شدند جستجوی کارآمد یک ژنوم هدف برای یافتن تطابق‌های کامل یا جزئی، مسئلهٔ الگوریتمیک سرراستی است. یک سیستم بسیار پرکاربرد برای این منظور بلاست است.

روش‌های از آغاز

به دلیل دشواری و هزینهٔ زیاد در بدست آوردن شواهد خارجی برای اکثر ژن‌ها، که در زمرهٔ ژن‌یابی‌های از آغاز قرار می‌گیرند، که در آن توالی‌های ژنوم دی‌ان‌ای به تنهایی به‌طور سیستماتیک به منظور یافتن نشانه‌هایی از حضور ژن‌های کد کنندهٔ پروتئین جستجو می‌کند. این نشانه‌ها یا می‌توانند به عنوان سیگنال، توالی‌های خاصی که حضور ژن در اطراف را تشخیص می‌دهند، یا محتوا، ویژگی‌های آماری کد کردن توالی‌های پروتئینی، دسته‌بندی شوند. به‌طور دقیق تر ژن‌یابیِ از آغاز در ردهٔ پیش‌بینی ژن قرار می‌گیرد، زیرا که شواهد خارجی کلاً مستلزم این است که کارکرد یک ژن معروف را استنتاج کرده باشد.

در ژنوم پروکاریوت‌ها، ژن‌ها توالی‌های پروموتوری (سیگنال) خاص و نسبتاً شناخته شده‌ای دارند، از قبیل Pinbow box و نواحی اتصال فاکتورهای رونویسی که به راحتی قابل شناسایی هستند. همچنین کد کردن توالی برای پروتئین به صورت یک قالب خواندن باز (ORF) به هم پیوسته اتفاق می‌افتد که به اندازهٔ صدها یا هزاران جفت بازی درازا دارد. آماری که از کدون‌های خاتمه بدست می‌آید به گونه‌ای است که حتی یافتن یک قالب خواندن باز با این طول نیز حاوی اطلاعات بسیاری است. علاوه براین، دی‌ان‌ای کد کردن پروتئین دارای فراوانی مشخص و سایر ویژگی‌های آماری که به سادگی قابل پیدا کردن در توالی ای با این طول هستند، دارد. این ویژگی‌ها سبب می‌شوند که ژن‌یابی که پروکاریوت‌ها نسبتاً آسان و سرراست انجام شود و سیستم‌های با طراحی مناسب قادر هستند که به سطح بالایی از دقت نیز برسند.

ژن‌یابی از آغاز در یوکاریوت‌ها مخصوصاً ارگانیسم‌های پیچیده مانند انسان، به چندین دلیل چالش بر انگیزتر است. اول اینکه، پروموتر. سایر سیگنال‌های تنظیم‌کننده پیچیده‌تر و ناشناخته تر هستند در مقایسه با پروکاریوت‌ها.

دوم اینکه مکانیزم‌های پیوند کردن (splicing) در سلول‌های یوکاریوت‌ها به کار گرفته می‌شود؛ به این معنی که یک توالیِ مشخصِ کد کنندهٔ پروتئین در ژنوم به چندین بخش تقسیم می‌شود (اگزون) که با توالی‌های غیر کدکننده (اینترون) جدا شده‌اند. یک ژن کد کنندهٔ پرئتئین در انسان ممکن است به دو جین اگزون که هر یک کمتر از دویست جفتِ بازی درازا دارند (البته می‌تواند به کوتاهی بیست تا سی جفتِ بازی نیز باشد) تقسیم شود؛ بنابراین در یوکاریوت‌ها فراوانی و سایر ویژگی‌های محتوایی شناخته شده از دی‌ان‌ای کد کنندهٔ پروتئین بسیار دشوارتر است از پروکاریوت‌ها.

ژن یاب‌های پیشرفته هم برای ژنوم پرئکاریوت‌ها و هم برای ژنوم یوکاریوت‌ها از مدل‌های احتمالی پیچیده استفاده می‌کنند از قبیل مدل‌های مارکوف پنهان، تا اطلاعات سیگنال‌های مختلف و متنوع را با هم ترکیب کنند. سیستم GLIMMER یک ژن یاب پرکاربرد و دقیق برای پرئکاریوت هاست. GeneMark دیدگاه معروف دیگری است. ژن یاب‌های از آغاز برای یوکاریوت‌ها به نسبت موفقیت کمتری بدست آورده‌اند؛ برنامه‌های GENSCAN و geneid نمونه‌های بازر از این قبیل ژن یاب‌ها هستند. ژن یاب SNAP همانند Genscan مبتنی بر HMM است و سعی دارد که قابلیت سازگاری بیشتری با ارگانیسم‌های متفاوت داشته باشد. روش‌های جدید مانند mSplicer , CONTRAST, یا mGene نیز از تکنیک‌های یادگیری ماشین مانند ماشین بردار پشتیبان برای یک پیش‌بینی ژن موفق استفاده می‌کنند.

سایر سیگنال‌ها

از بین سیگنال‌های بدست آمده‌ای که برای پیش‌بینی استفاده می‌شوند می‌توان به آمار k-mer، تبدیل فوریه، Z-curve parameters and certain run features. اشاره کرد. ادعا می‌شود که سیگنال‌هایی که به‌طور مستقیم در توالی قابل شناسایی نیستند می‌توانند در بهبود پیش‌بینی ژن به کار گرفته شوند. برای مثال تاکنون نقش ساختار دوم در شناسایی موتیف‌های تنظیم‌کننده گزارش شده‌است. علاوه بر این گفته شده که پیش‌بینی ساختار دوم RNA به پیش‌بینی نواحی متصل شدگی (splicing) کمک می‌کند.

شبکه‌های عصبی

شبکه‌های عصبی مصنوعی مدل‌های محاسباتی هستند که در یادگیری ماشین و بازشناخت الگو، برتری دارند. شبکه‌های عصبی قبل از اینکه بتوانند داده‌های آزمایشی را دسته‌بندی کنند و در مقابل معیار‌ها سنجیده شوند، باید با داده های نمونه یادگیری کنند. شبکه‌های عصبی قادر به ارائه راه‌حل‌های تقریبی برای مسائلی هستند که حل الگوریتمی آن‌ها دشوار است، مشروط بر اینکه داده‌های یادگیری کافی وجود داشته‌باشد. هنگامی که برای پیش‌بینی ژن استفاده می‌شود، شبکه‌های عصبی می‌توانند در کنار سایر روشهای "از آغاز" برای پیش‌بینی یا شناسایی ویژگی‌های زیستی مانند مکان‌های شکاف استفاده شوند. یک رویکرد، استفاده از یک بازه‌ی حرکت‌کننده است که روی داده‌های دنباله به حالت تداخلی حرکت می‌کند. خروجی در هر نقطه، امتیازی‌ست که براساس آن است که شبکه فکر می‌کند این بازه دارای یک مکان شکاف‌دهنده است یا یک مکان شکاف‌شونده است. بازه‌های بزرگ‌تر، دقت بیش‌تری دارند اما به قدرت محاسباتی بیش‌تری نیز نیاز دارند. شبکه عصبی، نمونه‌ای از حس‌گر سیگنال است زیرا که هدف آن شناسایی محل عمل‌کردی در ژنوم است.

روش‌های تطبیق ژنوم‌ها

از آن‌جا که کل توالی ژنومی بسیاری از گونه‌ها به دست آورده شده‌است، یک حرکت امیدوارکننده در تحقیقات فعلی در زمینه ژن‌یابی، روش ژنوم‌های تطبیقی است.

این روش بر اساس این پایه‌گذاری شده‌است که نیروی انتخاب طبیعی باعث می‌شود که ژن‌ها و سایر عناصر کارکردی، کندتر از بقیه ژنوم تحت جهش واقع شوند؛ بنابراین ژن‌ها می‌توانند از روی مقایسه با ژنوم گونه‌های مربوطه مقایسه شوند. این روش در ابتدا بر روی ژنوم‌های موش و انسان اعمال شد، که در آن از برنامه‌هایی مانند SLAM، SGP، Twinscan/N-SCAN و CONTRAST استفاده شد.

چند آگاهی‌دهنده

TWINSCAN تنها هم‌رشتگی انسان-موش را جستجو کرد تا به دنبال ژنهای اَرتاساخت باشد. برنامه‌هایی مانند N-SCAN و CONTRAST امکان تطبیق از موجودات مختلف را دادند، یا در مورد N-SCAN، صرفاًیک موجود متفاوت از موجود هدف. استفاده از چند آگاهی‌دهنده می‌تواند باعث پیش‌رفت چشمگیری در دقت کار شود.

CONTRAST از دو عنصر تشکیل شده است. اولی، یک دسته‌بند کوچکتر است، که مکان‌های مربوط به تقسیم‌دهنده و مکان‌های شکاف‌پذیرنده و هم‌چنین رمزه‌های (codon) شروع‌کننده و متوقف‌کننده را تشخیص می‌دهد. عنصر دوم شامل ساختن یک مدل کامل با استفاده از یادگیری ماشین است. دو بخش کردن مسئله به این معنی است که می توان از مجموعه داده‌های کوچکتر برای آموزش دسته‌بند استفاده کرد، و دسته‌بند می‌تواند مستقل عمل کند و با بازه‌های کوچک‌تر آموزش ببیند. مدل کلی می‌تواند از دسته‌بند مستقل استفاده کند، و نیازی به اتلاف وقت محاسباتی یا پیچیدگی مدل نیست. مقاله ای که در آن CONTRAST معرفی شده‌است، پیشنهاد می‌کند که روش آن‌ها (و TWINSCAN و غیره) به عنوان انجمن ژن de novo طبقه‌بندی شود، که از ژنوم های جایگزین استفاده می‌کند.

ژن‌یابی تطبیقی نیز می‌تواند برای ایجاد تفسیر‌های با کیفیت بالا از یک ژنوم به ژنومی دیگر مورد استفاده قرار گیرد. نمونه های قابل توجه شامل Projector، GeneWise ، GeneMapper و GeMoMa می‌شود. این‌گونه تکنیک‌ها اکنون نقش مهمی در تفسیر همه ژنوم‌ها دارند.

شبه‌ژن یابی

شبه‌ژن‌ها بسیار به ژن‌ها مرتبط‌اند، به طوری که دارای ساختار دنباله‌ی بسیار متشابه‌اند، اما قادر به کدگذاری برای یک محصول پروتئینی یکسان نیستند. هرچند که یک زمانی به عنوان محصول جانبی توالی‌یابی ژن به شمار می‌آمدند، با توجه به کشف بیشتر نقش‌های نظارت‌کننده، آنها به خودی خود به اهداف مورد پیش‌بینی تبدیل می‌شوند. پیش‌بینی شبه‌ژن‌ها از روش‌های تشابه توالی موجود و روش‌های "ab initio" استفاده می‌کند، که با اضافه کردن فیلتر اضافی و روش‌های شناسایی خصوصیات شبه‌ژن، به کار می‌رود. روش‌های تشابه توالی را می‌توان برای پیش‌بینی شبه‌ژن‌ها با استفاده از فیلترهای اضافی برای یافتن شبه‌ژن‌های احتمالی تنظیم کرد. این روش می‌تواند از تشخیص ناتوانی استفاده کند، که به دنبال جهش‌های بی‌معنی و یا تغییر فریم است که باعث می شود توالی کد‌نویسی کاربردی کوتاه شود یا به هم بخورد. علاوه بر این، ترجمه DNA به توالی پروتئین می تواند مؤثرتر از یافتن تشابه مستقیم DNA باشد.

تشخیص دهنده‌های محتوا را می توان با توجه به تفاوت در خصوصیات آماری بین شبه‌ژن‌ها و ژن‌ها، مانند کم‌تر بودن تعداد جزایر CpG در شبه‌ژن‌ها، یا تفاوت در محتوای G-C بین شبه‌ژن‌ها و همسایگان آن‌ها، فیلتر کرد.

ژن‌یابی متاژنومیک

متاژنومیک مطالعه مواد ژنتیکی است که از محیط خارج دربافت می‌شود، که در نتیجه اطلاعات توالی از مجموعه‌ای از موجودات زنده حاصل می‌شود. پیش‌بینی ژن‌ها برای متاژنومیک تطبیقی سودمند است.

ابزار Metagenomics هم‌چنین در گروه‌های اصلی استفاده از هر دو روش تشابه دنباله (MEGAN4) و تکنیک‌های "ab initio" مانند (GLIMMER-MG) قرار می‌گیرد.

Glimmer-MG افزونه‌ای به GLIMMER است که بیش‌تر به رویکرد "ab initio" برای یافتن ژن و به استفاده از مجموعه‌ داده‌های یادگیری از موجودات وابسته متکی است. استراتژی پیش‌بینی با استفاده از روش‌های دسته‌بندی و خوشه‌بندی مجموعه ژن‌ها قبل از به کارگیری روش‌های پیش‌بینی ژن "ab initio" افزوده می‌شود. داده‌ها توسط گونه‌ها دسته‌بندی می‌شوند. این روش دسته‌بندی از روش‌های دسته‌بندی فیلوژنتیک متاژنومی استفاده می‌کند.

MEGAN4 از یک رویکرد تشابه توالی، با استفاده از هم‌ترازی محلی در برابر پایگاه‌داده‌های توالی شناخته‌شده استفاده می‌کند، ولی سعی در دسته‌بندی با استفاده از اطلاعات اضافی در مورد نقش‌های کاربردی ، مسیرهای بیولوژیکی و آنزیم‌ها دارد.

FragGeneScan و MetaGeneAnnotator برنامه‌های ژن‌یابی معروف، بر اساس مدل پنهان مارکوف هستند. این پیش‌بینی‌کننده‌ها، خطای توالی‌یابی، ژن‌های جزئی و کار برای خواندن‌های کوتاه را در نظر می‌گیرند.

یکی دیگر از ابزارهای سریع و دقیق برای ژن‌یابی در متاژنوم‌ها، MetaGeneMark است. این ابزار توسط مؤسسه DOE Joint Genome Institute برای تفسیر IMG/M است، که بزرگترین مجموعه متاژنوم تا به امروز است.


صفحات مرتبط


پیوند به بیرون



Новое сообщение