Мы используем файлы cookie.
Продолжая использовать сайт, вы даете свое согласие на работу с этими файлами.
حاشیه‌نویسی اسنیپ
Другие языки:

حاشیه‌نویسی اسنیپ

Подписчиков: 0, рейтинг: 0
SNP annotation
Classification Bioinformatics
Subclassification Single-nucleotide polymorphism
Type of tools used Functional annotation tools
Other subjects related Genome project, Genomics

حاشیه‌نویسی پلی مورفیسم تک نوکلئوتیدی(SNP) شامل مراحلی برای پیش‌بینی تأثیر یا عملکرد یک SNP منحصربفرد با استفاده از ابزارهای حاشیه‌نویسی SNP می‌باشد. در حاشیه‌نویسی SNP اطلاعات بیولوژیکی به فرمت صریحی استخراج، جمع‌آوری و نمایش داده می‌شوند که برای انجام پرس و جو مناسب می‌باشد. حاشیه‌نویسی عملکردی SNP براساس اطلاعات قابل دسترس برای اسیدنوکلئیک و توالی پروتئین انجام می‌شود.

مقدمه

گراف جهت دار مربوط به ارتباط وب سرورهای پیش بینی SNP و منابع بیوانفورماتیک آنها.

بخاطر اینکه پلی مورفیسم تک نوکلئوتیدی به عنوان اصلی‌ترین نشانگر زیستی شناخته می‌شود در نتیجه یک نقش اساسی در تحقیقات مرتبط با کل ژنوم ایفا می‌کند. SNPها هم‌اکنون نشانگر قابل انتخاب می‌باشند زیرا که تقریباً در همه جمعیت‌ها به تعداد زیاد وجود دارند. مکان این نشانگرها می‌تواند بشدت برای پیش‌بینی اهمیت کاربردی، نقشه ژنتیکی و ژنتیک جمعیت مهم باشد. هر SNP یک تغییر در نوکلئوتید بین دو فرد در یک مکان مشخص را نشان می‌دهد. SNPها فراگیرترین تغییر ژنتیکی شناخته شده بین افراد هستند به‌طوری که در برخی موجودات هر ۱۰۰–۳۰۰ بیس یک SNP وجود دارد. بخاطر اینکه تعداد زیادی SNP در کل ژنوم وجود دارد پس لازم می‌باشد که SNPها را بر اساس تأثیرات آن‌ها اولیت بندی کرد تا بتوان ژنوتیپ و آنلایز آن‌ها را تسریع بخشید.

حاشیه‌نویسی تعداد زیادی SNP یک فرایند مشکل و پیچیده می‌باشد، که برای پشتیبانی از این حجم عظیم داده نیاز به روش‌های محاسباتی می‌باشد. ابزارهای زیادی برای حاشیه‌نویسی SNP در موجودات مختلف توسعه داده شده و در دسترس هستند، برخی از آن‌ها فقط برای یک موجود خاص بهینه‌سازی شده‌اند و تعداد اندکی نیز می‌باشند که به صورت عمومی طراحی شده‌اند و از داده‌های بدون مدل یک موجود خاص نیز پشتیبانی می‌کنند. بیشتر ابزارهای حاشیه‌نویسی SNP اثرات زیانبار پیش‌بینی شده توسط محاسبات برای SNPها را نمایش می‌دهند. این ابزارها با توجه به مکانی که SNP در آن اتفاق استفاده است مانند اگزون‌ها، محل‌های برش یا محل‌های تنظیمی رونویسی به پیش‌بینی تأثیرات عملکردی مرتبط با آن SNP را با استفاده از الگوریتم‌های گوناگون یادگیری ماشین انجام می‌دهند. اما ابزارها و سیستم‌هایی که به عملکردهای قابل توجه SNPها اولیت می‌دهند دارای محدودیت‌هایی هستند.

انواع حاشیه‌نویسی SNP

انواع مختلف حاشیه‌نویسی در ژنومیک

برای حاشیه‌نویسی SNP اطلاعات ژنتیکی و ژنومیک زیادی استفاده می‌شود. براساس ویژگی مختلفی که ابزار حاشیه‌نویسی استفاده می‌کند می‌توان این ابزارها را به گروه‌های زیر دسته‌بندی کرد.

حاشیه‌نویسی براساس ژن

اطلاعات ژنومیک بدست آمده از المان‌های اطراف ژنوم جزو بهترین اطلاعات برای بررسی عملکرد زیستی یک تغییر مشاهده شده هستند. اطلاعات مربوط به یک ژن به عنوان یک منبع برای تشخیص اینکه تغییر مشاهده شده در داخل یا نزدیکی آن ژن می‌باشد استفاده می‌شود و همچنین مشخص می‌کند که آیا آن تغییر پتانسیل برهم زدن توالی یا عملکرد پروتئین ایجاد شده از آن ژن را دارد یا نه. حاشیه‌نویسی براساس ژن بر این اساس است که جهش‌های غیرمترادف می‌توانند توالی پروتئین را تغییر دهند و جهش‌های محل برش می‌توانند الگوهای برش در رونویسی را برهم بزنند.

حاشیه‌نویسی براساس دانش

حاشیه‌نویسی براساس دانش با استفاده از اطلاعات مربوط به ویژگی‌های ژن، عملکرد و متابولیسم پروتئین انجام می‌شود. در این نوع حاشیه‌نویسی تأکید بیشتری بر تغییرات ژنتیکی است که دامین‌های عملکردی پروتئین، تراکنش پروتئین-پروتئین و گذرگاه‌های بیولوژیکی را برهم می‌زنند. ناحیه غیر-کدشونده از یک ژن شامل عوامل تنظیمی مهمی مانند پروموتر، تقویت‌کننده و جداکننده می‌باشد که می‌تواند عملکرد پروتئین را تغییر دهد. جهش در DNA می‌تواند توالی RNA را تغییر دهد و سپس تأثیر بگذارد بر روی ساختار دوم RNA، تشخیص پروتئین اتصال شونده به RNA و فعالیت‌های اتصال miRNA.

حاشیه‌نویسی وظیفه‌ای

این روش عملکرد تغییر را براساس اینکه آیا محل تغییر در مکان‌های شناخته شده به عنوان هاربر ژنومیک یا اپی ژنومیک هستند یا خیر. عملکرد تغییرات غیر-کدشونده برای ناحیه ژنومیک تحت تأثیر بسیار وسیع می‌باشد و آن‌ها در بیشتر فرایندهای تنظیمی ژن از رونویسی تا مراحل بعد از رونویسی دخالت دارند.

تنظیم رونویسی ژن

فرایند تنظیم رونویسی ژن به فاکتورهای فضایی و زمانی زیادی در هسته مانند وضعیت سراسری و محلی کرماتین، موقعیت نوکلزوم، اتصال TF و فعالیت‌های پروموتر بستگی دارد. تغییراتی که باعث عوض شدن عملکرد یکی از این فرایندهای زیسی شود می‌تواند تنظیم ژن را تغییر داده و باعث ایجاد فنوتیپ‌های غیرعادی شود. تغییرات ژنتیکی که در محل‌های کناری تنظیمی ژن رخ می‌دهند می‌تواند اتصال موتیف TF، تنظیم کننده‌های کرماتین را تحت تأثیر قرار دهد که تعامل بین تقویت کننده‌ها و ژن هدف را مختلف می‌کند.

پیرایش جایگزین

پیرایش جایگزین یکی از مؤلفه‌های مهم می‌باشد که پیچیدگی عملکردی ژنوم را نشان می‌دهد. پیرایش تغییر یافته تأثیر بسزایی در در فنوتیپ‌ها دارد که به متابولیسم بیماری‌ها یا داروها مرتب است. یک تغییر در پیرایش می‌تواند توسط تغییر هر کدام از مؤلفه‌های ماشین پیرایش مانند محل‌های پیرایش و تقویت کننده‌های پیرایش انجام شود. تغییر در محل پیرایش جایگزین می‌تواند به فرم متفاوتی از پروتیئن منجر شود که عملکرد متفاوتی را خواهد داشت. انسان‌ها تقریباً از ۱۰۰ هزار پروتئین متفاوت استفاده می‌کنند، پس باید برخی از ژن توانایی تولید بیش از یک پروتئین را داشته باشند. پیرایش جایگزین بیشتر از آنچه قبلاً تصور می‌شود رخ می‌دهد و کنترل آن بسیار سخت است، ژن‌ها می‌توانند ده‌ها هزار رونوشت متفاوت تولید کنند، که ایجاد یک مدل ژن برای پیرایش‌های جایگزین را لازم می‌کند.

پردازش RNA و تنظیمات بعد از رونویسی

جهش‌ها در ناحیه‌های ترجمه نشده(UTR) بر روی بیشتر تنظیمات بعد از رونویسی تأثیر می‌گذارند. ویژگی‌های ساختاری متمایز برای بیشتر مولکول‌های RNA و فعالیت‌های المان‌های سیس تنظیمی، لازم می‌باشد تا بتوانند عملکردهای خود را به‌طور تأثیرگذار در طول تنظیم ژن انجام دهند. SNVها می‌توانند ساختار دوم مولکول RNAها را تغییر دهند و فولد مناسب RNA را مختلف کنند.

ترجمه و تغییرات بعد از ترجمه

تغییر تک نکلوئیدی می‌تواند بر روی فعالیت المان‌های تنظیمی سیس در mRNAها در راستای مهار یا ترویج شروع ترجمه تأثیر بگذارد. تغییر مترادف در ناحیه کدن بخاطر جهش می‌تواند روی راندمان ترجمه تأثیر بگذارد. طول عمر ترجمه نیز می‌تواند توسط جهش در هنگام عبور از پیچ‌های ریبوزم به عقب بیفتد. در مراحل بعد از ترجمه، تغییرات ژنتیکی می‌تواند باعث پروتوئستاز یا تغییرات آمینواسیدی بشود. هرچند مکانیسم‌های تأثیر تغییرات در این زمینه بسیار پیچیده می‌باشد و ابزارهای محدودی برای پیش‌بینی تأثیر تغییرات ژنتیکی بر روی تغییرهای مرتبط با ترجمه در دسترس است.

عملکرد پروتئین

تغییرات غیرمترادف در اگزون‌ها رخ می‌دهند که توالی امینواسیدی که توسط ژن تولید می‌شود را تغییر می‌دهند، که شامل تغییر یک بیس یا حذف و اضافه‌هایی که باعث تغییر فریم نمی‌شوند است. تأثیر تغییرات غیرمترادف بر روی پروتئین بسیار مورد بررسی قرار گرفته‌است و الگوریتم‌های زیادی برای پیش‌بینی زیان آوری و پاتوژنز تغییرات تک نکلئوتیدی توسعه یافته‌است. ابزارهای کلاسیک بیوانفورماتیک مانند SIFT, Polyphen و Mutation Taster تأثیرات جایگزینی غیرمترادف را به‌درستی پیش‌بینی کرده‌اند.

حفاظت تکاملی و انتخاب طبیعی

Comparative genomics روش استفاده شد برای پیش‌بینی عملکرد مربوط به انواع تحت این فرض که عملکردی ژنتیکی منبع باید حفظ سراسر گونه‌های مختلف در یک گسترده فیلوژنتیک فاصله است. از سوی دیگر برخی تطبیقی صفات و جمعیت تفاوت رانده مثبت انتخاب سودمند انواع و این جهش‌های ژنتیکی هستند و عملکرد مربوط به جمعیت خاص فنوتیپ. کاربردی پیش‌بینی از انواع' اثر در فرآیندهای مختلف بیولوژیکی محوری به دقت اشاره کردن مکانیسم مولکولی بیماری ها/صفات مستقیم و تجربی اعتبار سنجی.

لیست ابزارهای حاشیه‌نویسی SNP

امروزه ابزارهای حاشیه‌نویسی SNP زیادی برای حاشیه‌نویسی تعداد زیادی داده NGS وجود دارد. عملکردها و روش‌های استفاده شده در این ابزارها در جدول زیر آمده‌است.

Tools Description External resources use WebsiteURL References
SNPeff SnpEff annotates variants based on their genomic locations and predicts coding effects. Uses an interval forest approach ENSEMBL, UCSC and organism based e.g. FlyBase, WormBase and TAIR http://snpeff.sourceforge.net/SnpEff_manual.htm .
VEP Provides the location of specific variants in individuals. Variants are calculated using sanger-style resequencing data dbSNP, Ensembl, UCSC and NCBI http://www.ensembl.org/ .
ANNOVAR This tool is suitable for pinpointing a small subset of functionally important variants. Uses mutation prediction approach for annotation UCSC, RefSeq and Ensembl https://web.archive.org/web/20181125035022/http://www.openbioinformatics.org/annovar/ .
Jannovar This is a tool and library for genome annotation RefSeq, Ensembl, UCSC, etc. https://github.com/charite/jannovar
PhD-SNP SVM-based method using sequence information retrieved by BLAST algorithm. UniRef90 http://snps.biofold.org/phd-snp/ .
PolyPhen-2 Suitable for predicting damaging effects of missense mutations. Uses sequence conservation, structure to model position of amino acid substitution, and SWISS-PROT annotation UniPort http://genetics.bwh.harvard.edu/pph2/ .
MutationTaster Suitable for predicting damaging effects of all intragenic mutations (DNA and protein level), including InDels. Ensembl, 1000 Genomes Project, ExAC, UniProt, ClinVar, phyloP, phastCons, nnsplice, polyadq (...) http://www.mutationtaster.org/ .
SuSPect An SVM-trained predictor of the damaging effects of missense mutations. Uses sequence conservation, structure and network (interactome) information to model phenotypic effect of amino acid substitution. Accepts VCF file UniProt, PDB, Phyre2 for predicted structures, DOMINE and STRING for interactome http://www.sbg.bio.ic.ac.uk/suspect/index.html .
F-SNP Computationally predicts functional SNPs for disease association studies. PolyPhen, SIFT, SNPeffect, SNPs3D, LS-SNP, ESEfinder, RescueESE, ESRSearch, PESX, Ensembl, TFSearch, Consite, GoldenPath, Ensembl, KinasePhos, OGPET, Sulfinator, GoldenPath https://web.archive.org/web/20170616142058/http://compbio.cs.queensu.ca/F-SNP/ .
AnnTools Design to Identify novel and SNP/SNV, INDEL and SV/CNV. AnnTools searches for overlaps with regulatory elements, disease/trait associated loci, known segmental duplications and artifact prone regions dbSNP, UCSC, GATK refGene, GAD, published lists of common structural genomic variation, Database of Genomic Variants, lists of conserved TFBs, miRNA http://anntools.sourceforge.net/ .
SNPit Analyses the potential functional significance of SNPs derived from genome wide association studies dbSNP, EntrezGene, UCSC Browser, HGMD, ECR Browser, Haplotter, SIFT -/- .
SCAN Uses physical and functional based annotation to categorize according to their position relative to genes and according to linkage disequilibrium (LD) patterns and effects on expression levels -/- http://www.scandb.org/newinterface/about.html بایگانی‌شده در ۲۲ ژوئن ۲۰۱۷ توسط Wayback Machine .
SNAP A neural network-based method for the prediction of the functional effects of non-synonymous SNPs Ensembl, UCSC, Uniprot, UniProt, Pfam, DAS-CBS, MINT, BIND, KEGG, TreeFam http://www.rostlab.org/services/SNAP .
SNPs&GO SVM-based method using sequence information, Gene Ontology annotation and when available protein structure. UniRef90, GO, PANTHER, PDB http://snps.biofold.org/snps-and-go/ .
LS-SNP Maps nsSNPs onto protein sequences, functional pathways and comparative protein structure models UniProtKB, Genome Browser, dbSNP, PD http://www.salilab.org/LS-SNP .
TREAT TREAT is a tool for facile navigation and mining of the variants from both targeted resequencing and whole exome sequencing -/- http://ndc.mayo.edu/mayo/research/biostat/stand-alone-packages.cfm .
SNPdat Suitable for species non-specific or support non-model organism data. SNPdat does not require the creation of any local relational databases or pre-processing of any mandatory input files -/- https://code.google.com/p/snpdat/downloads/ .
NGS – SNP Annotate SNPs comparing the reference amino acid and the non-reference amino acid to each orthologue Ensembl, NCBI and UniProt https://web.archive.org/web/20170504070752/http://stothard.afns.ualberta.ca/downloads/NGS-SNP/ .
SVA Predicted biological function to variants identified NCBI RefSeq, Ensembl, variation databases, UCSC, HGNC, GO, KEGG, HapMap, 1000 Genomes Project and DG http://www.svaproject.org/ .
VARIANT VARIANT increases the information scope outside the coding regions by including all the available information on regulation, DNA structure, conservation, evolutionary pressures, etc. Regulatory variants constitute a recognized, but still unexplored, cause of pathologies dbSNP,1000 genomes, disease-related variants from GWAS,OMIM, COSMIC http://variant.bioinfo.cipf.es/ بایگانی‌شده در ۲۰ مه ۲۰۱۷ توسط Wayback Machine .
SIFT SIFT is a program that predicts whether an amino acid substitution affects protein function. SIFT uses sequence homology to predict whether an amino acid substitution will affect protein function PROT/TrEMBL, or NCBI's https://archive.is/20130708003130/http://blocks.fhcrc.org/sift/SIFT.html .
FAST-SNP A web server that allows users to efficiently identify and prioritize high-risk SNPs according to their phenotypic risks and putative functional effects NCBI dbSNP, Ensembl, TFSearch, PolyPhen, ESEfinder, RescueESE, FAS-ESS, SwissProt, UCSC Golden Path, NCBI Blast and HapMap https://archive.is/20140810031522/http://fastsnp.ibms.sinica.edu.tw/ .
PANTHER PANTHER relate protein sequence evolution to the evolution of specific protein functions and biological roles. The source of protein sequences used to build the protein family trees and used a computer-assisted manual curation step to better define the protein family clusters STKE, KEGG, MetaCyc, FREX and Reactome http://www.pantherdb.org/ .
Meta-SNP SVM-based meta predictor including 4 different methods. PhD-SNP, PANTHER, SIFT, SNAP http://snps.biofold.org/meta-snp .

الگوریتم‌های استفاده شده در ابزارهای حاشیه‌نویسی

ابزارهای حاشیه‌نویسی تغییرات از الگوریتم‌های یادگیری ماشین برای پیش‌بینی استفاده می‌کنند. ابزارهای مختلف از الگوریتم‌های مختلف استفاده می‌کنند. الگوریتم‌های معمول عبارتند از:

  • فاصله/جنگل تصادفی-به عنوان مثال.MutPredهای SNPeff
  • شبکه‌های عصبی-به عنوان مثال. ضربه محکم و ناگهانی
  • Support Vector Machines-به عنوان مثال دکترا-SNPهای SNPs و برو
  • بیزی طبقه‌بندی-به عنوان مثال.PolyPhen-2

مقایسه ابزارهای حاشیه‌نویسی تغییرات

ابزارهای زیادی برای حاشیه‌نویسی تغییرات وجود دارد، ولی در برخی مواقع پیش‌بینی‌های بدست آمده از ابزارها با یکدیگر همخوانی ندارد، زیرا که قوانینی که در ابزارها تعریف شده‌است تفاوت‌های اندکی دارد. مقایسه بی عیب بین ابزارها ممکن نیست زیرا که همه ابزارهای ورودی، خروجی و عملکرد مشابهی ندارند. در جدول زیر ابزارهای اصلی و حوزه کاری آن‌ها آمده‌است:

ابزار فایل ورودی فایل خروجی SNP INDEL CNV وب سایت یا برنامه منبع
AnnoVar VCF pileupهای

CompleteGenomicsهای GFF3-جامد SOAPsnpهای MAQهای CASAVA

TXT بله بله بله برنامه
Jannovar VCF VCF بله بله بله برنامه‌های جاوا
SNPeff VCF pileup/TXT VCF, TXT, HTML بله بله هیچ برنامه
VEP VCF pileupهای HGVSهای

TXT

TXT VCF اچ تی ام ال بله بله هیچ وب/برنامه
AnnTools VCF pileup TXT VCF بله بله هیچ هیچ
SeattleSeq VVCFهای MAQهای CASAVAهای

GATK تخت

VCF SeattleSeq بله بله هیچ وب
نوع VCF GFF2, تخت وب سایت گزارش TXT بله بله بله وب

نتیجه‌گیری

نصل بعدی وب سرورهای حاشیه‌نویسی SNP می‌توانند از افزایش داده‌ها در بیوانفورماتیک استفاده کنند و داده‌ها را از منابع مختلف در صورت نیاز بدست بیاورند. از دید کاربر بدست آوردن نتایج با استفاده از ارسال SNP در یک گام بسیار کارا می‌باشد.


Новое сообщение