Мы используем файлы cookie.
Продолжая использовать сайт, вы даете свое согласие на работу с этими файлами.

ویونت

Другие языки:

ویونت

Подписчиков: 0, рейтинг: 0

یادگیری ماشین و داده‌کاوی

موضوع‌ها طبقه‌بندی آماری خوشه‌بندی تحلیل رگرسیون روش تشخیص ناهنجاری یادگیری قانون وابستگی یادگیری تقویتی پیش بینی ساختاریافته مهندسی ویژگی یادگیری ویژگی یادگیری ماشین برخط یادگیری نیمه‌نظارتی یادگیری بی‌نظارت Learning to rank Grammar induction
یادگیری با نظارت (طبقه‌بندی آماری • تحلیل رگرسیون) یادگیری درخت تصمیم Ensembles (Bagging, بوستینگ، جنگل تصادفی) k-NN رگرسیون خطی دسته‌بندی کننده بیز ساده شبکه‌های عصبی مصنوعی رگرسیون لجستیک پرسپترون Relevance vector machine (RVM) ماشین بردار پشتیبانی
خوشه‌بندی کاهش و خوشه‌بندی ترازمند و بازکردی با بهره‌گیری از رده‌بندی خوشه‌بندی سلسله‌مراتبی خوشه‌بندی کی-میانگین الگوریتم امید ریاضی–بیشینه کردن DBSCAN OPTICS انتقال میانگین
کاهش ابعاد تحلیل عاملی CCA تحلیل مؤلفه‌های مستقل آنالیز افتراقی خطی فاکتورگیری نامنفی ماتریس تحلیل مؤلفه‌های اصلی t-SNE
پیش‌بینی ساختاریافته مدل‌های گرافیکی (شبکه‌های بیزی، میدان تصادفی شرطی، مدل پنهان مارکف)
روش تشخیص ناهنجاری الگوریتم کی-نزدیکترین همسایه فاکتور پرتی محلی
شبکه عصبی مصنوعی خودرمزگذار یادگیری عمیق پرسپترون چندلایه RNN ماشین بولتزمن محدود شده ترانسفورمر بینایی SOM شبکه عصبی پیچشی
یادگیری تقویتی کیو-یادگیری SARSA یادگیری تفاوت زمانی
نظریه Bias-variance dilemma نظریه یادگیری محاسباتی Empirical risk minimization Occam learning یادگیری احتمالا تقریبا صحیح Statistical learning VC theory
حوزه‌های یادگیری ماشین NIPS ICML ML JMLR ArXiv:cs.LG
ن ب و

WaveNet یک شبکه عصبی عمیق برای تولید صدای خام است. WaveNet توسط محققان شرکت هوش مصنوعی مستقر در لندن DeepMind ایجاد شده‌است. این تکنیک که در مقاله‌ای در سپتامبر ۲۰۱۶ بیان شد، می‌تواند با مدل‌سازی مستقیم شکل موج‌ها با استفاده از روش شبکه عصبی آموزش‌دیده با ضبط گفتار واقعی، صداهایی شبیه به انسان با صدای نسبتاً واقعی ایجاد کند. طبق گزارش‌ها، آزمایش‌ها با انگلیسی US و مَندرین نشان داد که این سیستم از بهترین سیستم‌های تبدیل متن به گفتار (TTS) گوگل بهتر عمل می‌کند، اگرچه تا سال ۲۰۱۶ ترکیب متن به گفتار آن هنوز کمتر از گفتار واقعی انسان قانع‌کننده بود. توانایی WaveNet برای تولید شکل‌های موج خام به این معنی است که می‌تواند هر نوع صوتی از جمله موسیقی را مدل‌سازی کند.

تاریخچه

به لطف محبوبیت نرم‌افزارهایی مانند سیری اپل، کورتانای مایکروسافت، آمازون الکسا و دستیار گوگل، تولید گفتار از متن به‌طور فزاینده ای در حال گسترش است.

اکثر این سیستم‌ها از تکنیکی استفاده می‌کنند که شامل قطعات صوتی به هم پیوسته برای ایجاد صداها و کلمات قابل تشخیص است. رایج‌ترین آنها TTS پیوسته نامیده می‌شود. این شامل کتابخانه بزرگی از قطعات گفتاری است که از یک بلندگو ضبط شده و سپس برای تولید کلمات و صداهای کامل به هم متصل می‌شوند. نتیجه غیرطبیعی به نظر می‌رسد، با آهنگ و آهنگ عجیب و غریب. اتکا به کتابخانه ضبط شده نیز تغییر یا تغییر صدا را دشوار می‌کند.

تکنیک دیگری که به عنوان TTS پارامتریک می‌شود، از مدل‌های ریاضی برای بازآفرینی صداها استفاده می‌کند که سپس در کلمات و جملات جمع می‌شوند. اطلاعات مورد نیاز برای تولید صداها در پارامترهای مدل ذخیره می‌شود. ویژگی‌های گفتار خروجی از طریق ورودی‌های مدل کنترل می‌شود، در حالی که گفتار معمولاً با استفاده از یک ترکیب‌کننده صدا به نام Vocoder ایجاد می‌شود. این همچنین می‌تواند منجر به صدای غیرطبیعی شود.

طراحی و تحقیقات در حال انجام

زمینه

پرونده:WaveNet animation.gif

پشته ای از لایه‌های کانولوشن معمولی گشاد شده

WaveNet نوعی شبکه عصبی پیشخور است که به عنوان یک شبکه عصبی پیچشی عمیق (CNN) شناخته می‌شود. در WaveNet, CNN یک سیگنال خام را به عنوان ورودی می‌گیرد و یک نمونه خروجی را در یک زمان ترکیب می‌کند. این کار را با نمونه‌برداری از یک توزیع softmax (یعنی طبقه‌ای) از یک مقدار سیگنال انجام می‌دهد که با استفاده از تبدیل ترکیبی μ-قانون کدگذاری شده و به ۲۵۶ مقدار ممکن کوانتیزه می‌شود.

مفهوم اولیه و نتایج

طبق مقاله اولیه سپتامبر 2016 DeepMind WaveNet: A Generative Model for Raw Audio، شبکه با شکل موج‌های واقعی گفتار به زبان انگلیسی و مندرین تغذیه شد. همان‌طور که اینها از طریق شبکه عبور می‌کنند، مجموعه ای از قوانین را می‌آموزد که چگونه شکل موج صوتی در طول زمان تکامل می‌یابد. سپس می‌توان از شبکه آموزش دیده برای ایجاد شکل موج‌های گفتاری جدید با سرعت ۱۶۰۰۰ نمونه در ثانیه استفاده کرد. این شکل موج‌ها شامل نفس‌های واقع گرایانه و لب‌ها می‌شود - اما با هیچ زبانی مطابقت ندارد.

WaveNet قادر به مدل‌سازی دقیق صداهای مختلف است، با لهجه و لحن ورودی که با خروجی ارتباط دارد؛ مثلاً اگر با زبان آلمانی آموزش داده شود، گفتار آلمانی تولید می‌کند. این قابلیت همچنین به این معنی است که اگر WaveNet از ورودی‌های دیگر تغذیه شود - مانند موسیقی – خروجی آن موزیکال خواهد بود. در زمان انتشار، DeepMind نشان داد که WaveNet می‌تواند شکل موج‌هایی تولید کند که شبیه موسیقی کلاسیک باشد.

مبادله محتوا (صدا).

بر اساس مقاله ژوئن 2018 Disentangled Sequential Autoencoder , DeepMind با موفقیت از WaveNet برای "تبادل محتواً صدا و صدا استفاده کرده‌است: شبکه می‌تواند صدا را در یک ضبط صوتی با صدای دیگری که از قبل موجود است تعویض کند در حالی که متن و سایر موارد را حفظ می‌کند. ویژگی‌های ضبط اصلی ما همچنین روی داده‌های توالی صوتی آزمایش می‌کنیم. بازنمایی از هم گسیخته ما به ما این امکان را می‌دهد که هویت‌های گوینده را به یکدیگر تبدیل کنیم، در حالی که به محتوای گفتار مشروط می‌شویم." (ص. ۵) "برای صدا، این به ما امکان می‌دهد یک بلندگوی مرد را به یک بلندگوی زن تبدیل کنیم و بالعکس [...] ." (پ. ۱) طبق این مقاله، حداقل دو رقمی ساعت (حدود ۵۰ ساعت) از ضبط‌های گفتاری از قبل موجود هم از صدای منبع و هم صدای هدف باید به WaveNet وارد شود تا برنامه ویژگی‌های فردی خود را قبل از آن یاد بگیرد. می‌تواند تبدیل از یک صدا به صدای دیگر را با کیفیت رضایت بخشی انجام دهد. نویسندگان تأکید می‌کنند که «[a] n مزیت مدل این است که ویژگی‌های دینامیکی را از استاتیک جدا می‌کند [...]». (پ. ۸) یعنی WaveNet قادر است بین متن گفتاری و حالت‌های ارسال (مدولاسیون، سرعت، زیر و بم، حالت و غیره) برای حفظ در حین تبدیل از یک صدا به صدای دیگر از یک طرف، و ویژگی‌های اساسی صداهای منبع و هدف تمایز قائل شود. که لازم است با دیگری مبادله شود.

مقاله بعدی ژانویه ۲۰۱۹، یادگیری بازنمایی گفتار بدون نظارت با استفاده از رمزگذارهای خودکار WaveNet روشی را برای افزایش موفقیت‌آمیز تشخیص خودکار مناسب و تمایز بین ویژگی‌های پویا و ایستا برای «تبادل محتوا»، به ویژه از جمله تعویض صداها در ضبط‌های صوتی موجود، شرح می‌دهد. به منظور قابل اعتمادتر کردن آن مقاله بعدی دیگر، Sample Efficient Adaptive Text-to-Speech مورخ سپتامبر ۲۰۱۸ (آخرین ویرایش ژانویه ۲۰۱۹)، بیان می‌کند که DeepMind با موفقیت حداقل میزان ضبط واقعی مورد نیاز برای نمونه صدای موجود را از طریق WaveNet کاهش داده‌است. به «فقط چند دقیقه داده صوتی» در حالی که نتایج با کیفیت بالا حفظ می‌شود.

توانایی آن در شبیه‌سازی صداها نگرانی‌های اخلاقی را در مورد توانایی WaveNet در تقلید صدای افراد زنده و مرده ایجاد کرده‌است. طبق مقاله‌ای در سال ۲۰۱۶ بی‌بی‌سی، شرکت‌هایی که روی فناوری‌های شبیه‌سازی صدای مشابه (مانند Adobe Voco) کار می‌کنند، قصد دارند برای جلوگیری از جعل، واترمارکی غیرقابل شنیدن برای انسان درج کنند، در حالی که شبیه‌سازی صدا، برای مثال، نیازهای صنعت سرگرمی را برآورده می‌کند. پیچیدگی بسیار کمتری داشته باشد و از روش‌های متفاوتی نسبت به روش‌های مورد نیاز برای فریب دادن روش‌های شواهد پزشکی قانونی و دستگاه‌های شناسایی الکترونیکی استفاده کند، به طوری که صداها و صداهای طبیعی شبیه‌سازی شده برای اهداف سرگرمی-صنعتی هنوز هم می‌توانند به راحتی با تجزیه و تحلیل فن‌آوری از هم جدا شوند.

برنامه‌های کاربردی

در زمان انتشار، DeepMind گفت که WaveNet به قدرت پردازش محاسباتی زیادی برای استفاده در برنامه‌های کاربردی دنیای واقعی نیاز دارد. از اکتبر ۲۰۱۷، گوگل بهبود عملکرد ۱۰۰۰ برابری همراه با کیفیت صدای بهتر را اعلام کرد. سپس WaveNet برای تولید صداهای دستیار Google برای انگلیسی و ژاپنی ایالات متحده در تمام پلتفرم‌های Google استفاده شد. در نوامبر ۲۰۱۷، محققان DeepMind یک مقاله تحقیقاتی منتشر کردند که در آن روش پیشنهادی «تولید نمونه‌های گفتاری با وفاداری بالا با بیش از ۲۰ برابر سریع‌تر از زمان واقعی» به نام «تقطیر چگالی احتمال» را شرح می‌داد. در کنفرانس سالانه توسعه‌دهندگان I/O در ماه می ۲۰۱۸، اعلام شد که صداهای جدید دستیار Google در دسترس بوده و توسط WaveNet امکان‌پذیر شده‌است. WaveNet تعداد ضبط‌های صوتی مورد نیاز برای ایجاد یک مدل صوتی را با مدل‌سازی صدای خام نمونه‌های صداپیشه، بسیار کاهش داد.

پیوند به بیرون

WaveNet: A Generative Model for Raw Audio

رایانش تشخیص‌پذیر

تابع دیفرانسیل‌پذیر

Differentiable programming
ماشین تورینگ عصبی
Differentiable neural computer
Automatic differentiation
نورومورفیک
Cable theory
بازشناخت الگو
نظریه یادگیری محاسباتی
حساب تنسوری

Concepts

گرادیان کاهشی
- گرادیان کاهشی تصادفی
خوشه‌بندی
تحلیل رگرسیون
- بیش‌برازش
یادگیری ماشین خصمانه
توجه (یادگیری ماشین)
هم‌گشت
Loss functions
پس‌انتشار
Normalization
Activation
Regularization
آموزش، اعتبارسنجی و مجموعه‌های آزمایشی
- افزایش داده

Programming languages

پایتون (زبان برنامه‌نویسی)
جولیا

Application

یادگیری ماشینی
شبکه عصبی مصنوعی
- یادگیری عمیق
علم محاسبه
هوش مصنوعی

Hardware

IPU
واحد پردازشی تنسور
VPU
ممریستور
SpiNNaker

Software library

تنسورفلو
پای‌تورچ
کرس (نرم‌افزار)
ثینو

Implementation

Audio-visual	AlexNet ویونت Human image synthesis تشخیص دست خط نویسه‌خوان نوری متن به گفتار بازشناسی گفتار سیستم تشخیص چهره AlphaFold دال-ای
Verbal	Word2vec ترنسفورمر برت (مدل زبانی) NMT پروژه مناظره‌کننده واتسون (رایانه) GPT-2 جی‌پی‌تی-۳
Decisional	آلفاگو کیو-یادگیری SARSA OpenAI Five خودرو خودران MuZero انتخاب کنش Robot control

People

Alex Graves
یان گودفلو
یوشوا بنجیو
جفری اورست هینتون
یان لی کان
اندرو ان‌جی
Demis Hassabis
David Silver
فی-فی لی

Organizations

دیپ‌مایند
اوپن‌ای‌آی
MIT CSAIL
میلا
گوگل برین
FAIR

Portals
- درگاه:برنامه‌نویسی
- درگاه:فناوری
Category
- رده:شبکه‌های عصبی مصنوعی
- رده:یادگیری ماشینی