Продолжая использовать сайт, вы даете свое согласие на работу с этими файлами.
حاشیهنویسی اسنیپ
Classification | Bioinformatics |
---|---|
Subclassification | Single-nucleotide polymorphism |
Type of tools used | Functional annotation tools |
Other subjects related | Genome project, Genomics |
حاشیهنویسی پلی مورفیسم تک نوکلئوتیدی(SNP) شامل مراحلی برای پیشبینی تأثیر یا عملکرد یک SNP منحصربفرد با استفاده از ابزارهای حاشیهنویسی SNP میباشد. در حاشیهنویسی SNP اطلاعات بیولوژیکی به فرمت صریحی استخراج، جمعآوری و نمایش داده میشوند که برای انجام پرس و جو مناسب میباشد. حاشیهنویسی عملکردی SNP براساس اطلاعات قابل دسترس برای اسیدنوکلئیک و توالی پروتئین انجام میشود.
مقدمه
بخاطر اینکه پلی مورفیسم تک نوکلئوتیدی به عنوان اصلیترین نشانگر زیستی شناخته میشود در نتیجه یک نقش اساسی در تحقیقات مرتبط با کل ژنوم ایفا میکند. SNPها هماکنون نشانگر قابل انتخاب میباشند زیرا که تقریباً در همه جمعیتها به تعداد زیاد وجود دارند. مکان این نشانگرها میتواند بشدت برای پیشبینی اهمیت کاربردی، نقشه ژنتیکی و ژنتیک جمعیت مهم باشد. هر SNP یک تغییر در نوکلئوتید بین دو فرد در یک مکان مشخص را نشان میدهد. SNPها فراگیرترین تغییر ژنتیکی شناخته شده بین افراد هستند بهطوری که در برخی موجودات هر ۱۰۰–۳۰۰ بیس یک SNP وجود دارد. بخاطر اینکه تعداد زیادی SNP در کل ژنوم وجود دارد پس لازم میباشد که SNPها را بر اساس تأثیرات آنها اولیت بندی کرد تا بتوان ژنوتیپ و آنلایز آنها را تسریع بخشید.
حاشیهنویسی تعداد زیادی SNP یک فرایند مشکل و پیچیده میباشد، که برای پشتیبانی از این حجم عظیم داده نیاز به روشهای محاسباتی میباشد. ابزارهای زیادی برای حاشیهنویسی SNP در موجودات مختلف توسعه داده شده و در دسترس هستند، برخی از آنها فقط برای یک موجود خاص بهینهسازی شدهاند و تعداد اندکی نیز میباشند که به صورت عمومی طراحی شدهاند و از دادههای بدون مدل یک موجود خاص نیز پشتیبانی میکنند. بیشتر ابزارهای حاشیهنویسی SNP اثرات زیانبار پیشبینی شده توسط محاسبات برای SNPها را نمایش میدهند. این ابزارها با توجه به مکانی که SNP در آن اتفاق استفاده است مانند اگزونها، محلهای برش یا محلهای تنظیمی رونویسی به پیشبینی تأثیرات عملکردی مرتبط با آن SNP را با استفاده از الگوریتمهای گوناگون یادگیری ماشین انجام میدهند. اما ابزارها و سیستمهایی که به عملکردهای قابل توجه SNPها اولیت میدهند دارای محدودیتهایی هستند.
انواع حاشیهنویسی SNP
برای حاشیهنویسی SNP اطلاعات ژنتیکی و ژنومیک زیادی استفاده میشود. براساس ویژگی مختلفی که ابزار حاشیهنویسی استفاده میکند میتوان این ابزارها را به گروههای زیر دستهبندی کرد.
حاشیهنویسی براساس ژن
اطلاعات ژنومیک بدست آمده از المانهای اطراف ژنوم جزو بهترین اطلاعات برای بررسی عملکرد زیستی یک تغییر مشاهده شده هستند. اطلاعات مربوط به یک ژن به عنوان یک منبع برای تشخیص اینکه تغییر مشاهده شده در داخل یا نزدیکی آن ژن میباشد استفاده میشود و همچنین مشخص میکند که آیا آن تغییر پتانسیل برهم زدن توالی یا عملکرد پروتئین ایجاد شده از آن ژن را دارد یا نه. حاشیهنویسی براساس ژن بر این اساس است که جهشهای غیرمترادف میتوانند توالی پروتئین را تغییر دهند و جهشهای محل برش میتوانند الگوهای برش در رونویسی را برهم بزنند.
حاشیهنویسی براساس دانش
حاشیهنویسی براساس دانش با استفاده از اطلاعات مربوط به ویژگیهای ژن، عملکرد و متابولیسم پروتئین انجام میشود. در این نوع حاشیهنویسی تأکید بیشتری بر تغییرات ژنتیکی است که دامینهای عملکردی پروتئین، تراکنش پروتئین-پروتئین و گذرگاههای بیولوژیکی را برهم میزنند. ناحیه غیر-کدشونده از یک ژن شامل عوامل تنظیمی مهمی مانند پروموتر، تقویتکننده و جداکننده میباشد که میتواند عملکرد پروتئین را تغییر دهد. جهش در DNA میتواند توالی RNA را تغییر دهد و سپس تأثیر بگذارد بر روی ساختار دوم RNA، تشخیص پروتئین اتصال شونده به RNA و فعالیتهای اتصال miRNA.
حاشیهنویسی وظیفهای
این روش عملکرد تغییر را براساس اینکه آیا محل تغییر در مکانهای شناخته شده به عنوان هاربر ژنومیک یا اپی ژنومیک هستند یا خیر. عملکرد تغییرات غیر-کدشونده برای ناحیه ژنومیک تحت تأثیر بسیار وسیع میباشد و آنها در بیشتر فرایندهای تنظیمی ژن از رونویسی تا مراحل بعد از رونویسی دخالت دارند.
تنظیم رونویسی ژن
فرایند تنظیم رونویسی ژن به فاکتورهای فضایی و زمانی زیادی در هسته مانند وضعیت سراسری و محلی کرماتین، موقعیت نوکلزوم، اتصال TF و فعالیتهای پروموتر بستگی دارد. تغییراتی که باعث عوض شدن عملکرد یکی از این فرایندهای زیسی شود میتواند تنظیم ژن را تغییر داده و باعث ایجاد فنوتیپهای غیرعادی شود. تغییرات ژنتیکی که در محلهای کناری تنظیمی ژن رخ میدهند میتواند اتصال موتیف TF، تنظیم کنندههای کرماتین را تحت تأثیر قرار دهد که تعامل بین تقویت کنندهها و ژن هدف را مختلف میکند.
پیرایش جایگزین
پیرایش جایگزین یکی از مؤلفههای مهم میباشد که پیچیدگی عملکردی ژنوم را نشان میدهد. پیرایش تغییر یافته تأثیر بسزایی در در فنوتیپها دارد که به متابولیسم بیماریها یا داروها مرتب است. یک تغییر در پیرایش میتواند توسط تغییر هر کدام از مؤلفههای ماشین پیرایش مانند محلهای پیرایش و تقویت کنندههای پیرایش انجام شود. تغییر در محل پیرایش جایگزین میتواند به فرم متفاوتی از پروتیئن منجر شود که عملکرد متفاوتی را خواهد داشت. انسانها تقریباً از ۱۰۰ هزار پروتئین متفاوت استفاده میکنند، پس باید برخی از ژن توانایی تولید بیش از یک پروتئین را داشته باشند. پیرایش جایگزین بیشتر از آنچه قبلاً تصور میشود رخ میدهد و کنترل آن بسیار سخت است، ژنها میتوانند دهها هزار رونوشت متفاوت تولید کنند، که ایجاد یک مدل ژن برای پیرایشهای جایگزین را لازم میکند.
پردازش RNA و تنظیمات بعد از رونویسی
جهشها در ناحیههای ترجمه نشده(UTR) بر روی بیشتر تنظیمات بعد از رونویسی تأثیر میگذارند. ویژگیهای ساختاری متمایز برای بیشتر مولکولهای RNA و فعالیتهای المانهای سیس تنظیمی، لازم میباشد تا بتوانند عملکردهای خود را بهطور تأثیرگذار در طول تنظیم ژن انجام دهند. SNVها میتوانند ساختار دوم مولکول RNAها را تغییر دهند و فولد مناسب RNA را مختلف کنند.
ترجمه و تغییرات بعد از ترجمه
تغییر تک نکلوئیدی میتواند بر روی فعالیت المانهای تنظیمی سیس در mRNAها در راستای مهار یا ترویج شروع ترجمه تأثیر بگذارد. تغییر مترادف در ناحیه کدن بخاطر جهش میتواند روی راندمان ترجمه تأثیر بگذارد. طول عمر ترجمه نیز میتواند توسط جهش در هنگام عبور از پیچهای ریبوزم به عقب بیفتد. در مراحل بعد از ترجمه، تغییرات ژنتیکی میتواند باعث پروتوئستاز یا تغییرات آمینواسیدی بشود. هرچند مکانیسمهای تأثیر تغییرات در این زمینه بسیار پیچیده میباشد و ابزارهای محدودی برای پیشبینی تأثیر تغییرات ژنتیکی بر روی تغییرهای مرتبط با ترجمه در دسترس است.
عملکرد پروتئین
تغییرات غیرمترادف در اگزونها رخ میدهند که توالی امینواسیدی که توسط ژن تولید میشود را تغییر میدهند، که شامل تغییر یک بیس یا حذف و اضافههایی که باعث تغییر فریم نمیشوند است. تأثیر تغییرات غیرمترادف بر روی پروتئین بسیار مورد بررسی قرار گرفتهاست و الگوریتمهای زیادی برای پیشبینی زیان آوری و پاتوژنز تغییرات تک نکلئوتیدی توسعه یافتهاست. ابزارهای کلاسیک بیوانفورماتیک مانند SIFT, Polyphen و Mutation Taster تأثیرات جایگزینی غیرمترادف را بهدرستی پیشبینی کردهاند.
حفاظت تکاملی و انتخاب طبیعی
Comparative genomics روش استفاده شد برای پیشبینی عملکرد مربوط به انواع تحت این فرض که عملکردی ژنتیکی منبع باید حفظ سراسر گونههای مختلف در یک گسترده فیلوژنتیک فاصله است. از سوی دیگر برخی تطبیقی صفات و جمعیت تفاوت رانده مثبت انتخاب سودمند انواع و این جهشهای ژنتیکی هستند و عملکرد مربوط به جمعیت خاص فنوتیپ. کاربردی پیشبینی از انواع' اثر در فرآیندهای مختلف بیولوژیکی محوری به دقت اشاره کردن مکانیسم مولکولی بیماری ها/صفات مستقیم و تجربی اعتبار سنجی.
لیست ابزارهای حاشیهنویسی SNP
امروزه ابزارهای حاشیهنویسی SNP زیادی برای حاشیهنویسی تعداد زیادی داده NGS وجود دارد. عملکردها و روشهای استفاده شده در این ابزارها در جدول زیر آمدهاست.
Tools | Description | External resources use | WebsiteURL | References |
---|---|---|---|---|
SNPeff | SnpEff annotates variants based on their genomic locations and predicts coding effects. Uses an interval forest approach | ENSEMBL, UCSC and organism based e.g. FlyBase, WormBase and TAIR | http://snpeff.sourceforge.net/SnpEff_manual.htm | . |
VEP | Provides the location of specific variants in individuals. Variants are calculated using sanger-style resequencing data | dbSNP, Ensembl, UCSC and NCBI | http://www.ensembl.org/ | . |
ANNOVAR | This tool is suitable for pinpointing a small subset of functionally important variants. Uses mutation prediction approach for annotation | UCSC, RefSeq and Ensembl | https://web.archive.org/web/20181125035022/http://www.openbioinformatics.org/annovar/ | . |
Jannovar | This is a tool and library for genome annotation | RefSeq, Ensembl, UCSC, etc. | https://github.com/charite/jannovar | |
PhD-SNP | SVM-based method using sequence information retrieved by BLAST algorithm. | UniRef90 | http://snps.biofold.org/phd-snp/ | . |
PolyPhen-2 | Suitable for predicting damaging effects of missense mutations. Uses sequence conservation, structure to model position of amino acid substitution, and SWISS-PROT annotation | UniPort | http://genetics.bwh.harvard.edu/pph2/ | . |
MutationTaster | Suitable for predicting damaging effects of all intragenic mutations (DNA and protein level), including InDels. | Ensembl, 1000 Genomes Project, ExAC, UniProt, ClinVar, phyloP, phastCons, nnsplice, polyadq (...) | http://www.mutationtaster.org/ | . |
SuSPect | An SVM-trained predictor of the damaging effects of missense mutations. Uses sequence conservation, structure and network (interactome) information to model phenotypic effect of amino acid substitution. Accepts VCF file | UniProt, PDB, Phyre2 for predicted structures, DOMINE and STRING for interactome | http://www.sbg.bio.ic.ac.uk/suspect/index.html | . |
F-SNP | Computationally predicts functional SNPs for disease association studies. | PolyPhen, SIFT, SNPeffect, SNPs3D, LS-SNP, ESEfinder, RescueESE, ESRSearch, PESX, Ensembl, TFSearch, Consite, GoldenPath, Ensembl, KinasePhos, OGPET, Sulfinator, GoldenPath | https://web.archive.org/web/20170616142058/http://compbio.cs.queensu.ca/F-SNP/ | . |
AnnTools | Design to Identify novel and SNP/SNV, INDEL and SV/CNV. AnnTools searches for overlaps with regulatory elements, disease/trait associated loci, known segmental duplications and artifact prone regions | dbSNP, UCSC, GATK refGene, GAD, published lists of common structural genomic variation, Database of Genomic Variants, lists of conserved TFBs, miRNA | http://anntools.sourceforge.net/ | . |
SNPit | Analyses the potential functional significance of SNPs derived from genome wide association studies | dbSNP, EntrezGene, UCSC Browser, HGMD, ECR Browser, Haplotter, SIFT | -/- | . |
SCAN | Uses physical and functional based annotation to categorize according to their position relative to genes and according to linkage disequilibrium (LD) patterns and effects on expression levels | -/- | http://www.scandb.org/newinterface/about.html بایگانیشده در ۲۲ ژوئن ۲۰۱۷ توسط Wayback Machine | . |
SNAP | A neural network-based method for the prediction of the functional effects of non-synonymous SNPs | Ensembl, UCSC, Uniprot, UniProt, Pfam, DAS-CBS, MINT, BIND, KEGG, TreeFam | http://www.rostlab.org/services/SNAP | . |
SNPs&GO | SVM-based method using sequence information, Gene Ontology annotation and when available protein structure. | UniRef90, GO, PANTHER, PDB | http://snps.biofold.org/snps-and-go/ | . |
LS-SNP | Maps nsSNPs onto protein sequences, functional pathways and comparative protein structure models | UniProtKB, Genome Browser, dbSNP, PD | http://www.salilab.org/LS-SNP | . |
TREAT | TREAT is a tool for facile navigation and mining of the variants from both targeted resequencing and whole exome sequencing | -/- | http://ndc.mayo.edu/mayo/research/biostat/stand-alone-packages.cfm | . |
SNPdat | Suitable for species non-specific or support non-model organism data. SNPdat does not require the creation of any local relational databases or pre-processing of any mandatory input files | -/- | https://code.google.com/p/snpdat/downloads/ | . |
NGS – SNP | Annotate SNPs comparing the reference amino acid and the non-reference amino acid to each orthologue | Ensembl, NCBI and UniProt | https://web.archive.org/web/20170504070752/http://stothard.afns.ualberta.ca/downloads/NGS-SNP/ | . |
SVA | Predicted biological function to variants identified | NCBI RefSeq, Ensembl, variation databases, UCSC, HGNC, GO, KEGG, HapMap, 1000 Genomes Project and DG | http://www.svaproject.org/ | . |
VARIANT | VARIANT increases the information scope outside the coding regions by including all the available information on regulation, DNA structure, conservation, evolutionary pressures, etc. Regulatory variants constitute a recognized, but still unexplored, cause of pathologies | dbSNP,1000 genomes, disease-related variants from GWAS,OMIM, COSMIC | http://variant.bioinfo.cipf.es/ بایگانیشده در ۲۰ مه ۲۰۱۷ توسط Wayback Machine | . |
SIFT | SIFT is a program that predicts whether an amino acid substitution affects protein function. SIFT uses sequence homology to predict whether an amino acid substitution will affect protein function | PROT/TrEMBL, or NCBI's | https://archive.is/20130708003130/http://blocks.fhcrc.org/sift/SIFT.html | . |
FAST-SNP | A web server that allows users to efficiently identify and prioritize high-risk SNPs according to their phenotypic risks and putative functional effects | NCBI dbSNP, Ensembl, TFSearch, PolyPhen, ESEfinder, RescueESE, FAS-ESS, SwissProt, UCSC Golden Path, NCBI Blast and HapMap | https://archive.is/20140810031522/http://fastsnp.ibms.sinica.edu.tw/ | . |
PANTHER | PANTHER relate protein sequence evolution to the evolution of specific protein functions and biological roles. The source of protein sequences used to build the protein family trees and used a computer-assisted manual curation step to better define the protein family clusters | STKE, KEGG, MetaCyc, FREX and Reactome | http://www.pantherdb.org/ | . |
Meta-SNP | SVM-based meta predictor including 4 different methods. | PhD-SNP, PANTHER, SIFT, SNAP | http://snps.biofold.org/meta-snp | . |
الگوریتمهای استفاده شده در ابزارهای حاشیهنویسی
ابزارهای حاشیهنویسی تغییرات از الگوریتمهای یادگیری ماشین برای پیشبینی استفاده میکنند. ابزارهای مختلف از الگوریتمهای مختلف استفاده میکنند. الگوریتمهای معمول عبارتند از:
- فاصله/جنگل تصادفی-به عنوان مثال.MutPredهای SNPeff
- شبکههای عصبی-به عنوان مثال. ضربه محکم و ناگهانی
- Support Vector Machines-به عنوان مثال دکترا-SNPهای SNPs و برو
- بیزی طبقهبندی-به عنوان مثال.PolyPhen-2
مقایسه ابزارهای حاشیهنویسی تغییرات
ابزارهای زیادی برای حاشیهنویسی تغییرات وجود دارد، ولی در برخی مواقع پیشبینیهای بدست آمده از ابزارها با یکدیگر همخوانی ندارد، زیرا که قوانینی که در ابزارها تعریف شدهاست تفاوتهای اندکی دارد. مقایسه بی عیب بین ابزارها ممکن نیست زیرا که همه ابزارهای ورودی، خروجی و عملکرد مشابهی ندارند. در جدول زیر ابزارهای اصلی و حوزه کاری آنها آمدهاست:
ابزار | فایل ورودی | فایل خروجی | SNP | INDEL | CNV | وب سایت یا برنامه | منبع |
---|---|---|---|---|---|---|---|
AnnoVar | VCF pileupهای
CompleteGenomicsهای GFF3-جامد SOAPsnpهای MAQهای CASAVA |
TXT | بله | بله | بله | برنامه | |
Jannovar | VCF | VCF | بله | بله | بله | برنامههای جاوا | |
SNPeff | VCF pileup/TXT | VCF, TXT, HTML | بله | بله | هیچ | برنامه | |
VEP | VCF pileupهای HGVSهای
TXT |
TXT VCF اچ تی ام ال | بله | بله | هیچ | وب/برنامه | |
AnnTools | VCF pileup TXT | VCF | بله | بله | هیچ | هیچ | |
SeattleSeq | VVCFهای MAQهای CASAVAهای
GATK تخت |
VCF SeattleSeq | بله | بله | هیچ | وب | |
نوع | VCF GFF2, تخت | وب سایت گزارش TXT | بله | بله | بله | وب |
نتیجهگیری
نصل بعدی وب سرورهای حاشیهنویسی SNP میتوانند از افزایش دادهها در بیوانفورماتیک استفاده کنند و دادهها را از منابع مختلف در صورت نیاز بدست بیاورند. از دید کاربر بدست آوردن نتایج با استفاده از ارسال SNP در یک گام بسیار کارا میباشد.