Мы используем файлы cookie.
Продолжая использовать сайт, вы даете свое согласие на работу с этими файлами.
ویونت
Другие языки:

ویونت

Подписчиков: 0, рейтинг: 0

WaveNet یک شبکه عصبی عمیق برای تولید صدای خام است. WaveNet توسط محققان شرکت هوش مصنوعی مستقر در لندن DeepMind ایجاد شده‌است. این تکنیک که در مقاله‌ای در سپتامبر ۲۰۱۶ بیان شد، می‌تواند با مدل‌سازی مستقیم شکل موج‌ها با استفاده از روش شبکه عصبی آموزش‌دیده با ضبط گفتار واقعی، صداهایی شبیه به انسان با صدای نسبتاً واقعی ایجاد کند. طبق گزارش‌ها، آزمایش‌ها با انگلیسی US و مَندرین نشان داد که این سیستم از بهترین سیستم‌های تبدیل متن به گفتار (TTS) گوگل بهتر عمل می‌کند، اگرچه تا سال ۲۰۱۶ ترکیب متن به گفتار آن هنوز کمتر از گفتار واقعی انسان قانع‌کننده بود. توانایی WaveNet برای تولید شکل‌های موج خام به این معنی است که می‌تواند هر نوع صوتی از جمله موسیقی را مدل‌سازی کند.

تاریخچه

به لطف محبوبیت نرم‌افزارهایی مانند سیری اپل، کورتانای مایکروسافت، آمازون الکسا و دستیار گوگل، تولید گفتار از متن به‌طور فزاینده ای در حال گسترش است.

اکثر این سیستم‌ها از تکنیکی استفاده می‌کنند که شامل قطعات صوتی به هم پیوسته برای ایجاد صداها و کلمات قابل تشخیص است. رایج‌ترین آنها TTS پیوسته نامیده می‌شود. این شامل کتابخانه بزرگی از قطعات گفتاری است که از یک بلندگو ضبط شده و سپس برای تولید کلمات و صداهای کامل به هم متصل می‌شوند. نتیجه غیرطبیعی به نظر می‌رسد، با آهنگ و آهنگ عجیب و غریب. اتکا به کتابخانه ضبط شده نیز تغییر یا تغییر صدا را دشوار می‌کند.

تکنیک دیگری که به عنوان TTS پارامتریک می‌شود، از مدل‌های ریاضی برای بازآفرینی صداها استفاده می‌کند که سپس در کلمات و جملات جمع می‌شوند. اطلاعات مورد نیاز برای تولید صداها در پارامترهای مدل ذخیره می‌شود. ویژگی‌های گفتار خروجی از طریق ورودی‌های مدل کنترل می‌شود، در حالی که گفتار معمولاً با استفاده از یک ترکیب‌کننده صدا به نام Vocoder ایجاد می‌شود. این همچنین می‌تواند منجر به صدای غیرطبیعی شود.

طراحی و تحقیقات در حال انجام

زمینه

پرونده:WaveNet animation.gif
پشته ای از لایه‌های کانولوشن معمولی گشاد شده

WaveNet نوعی شبکه عصبی پیشخور است که به عنوان یک شبکه عصبی پیچشی عمیق (CNN) شناخته می‌شود. در WaveNet, CNN یک سیگنال خام را به عنوان ورودی می‌گیرد و یک نمونه خروجی را در یک زمان ترکیب می‌کند. این کار را با نمونه‌برداری از یک توزیع softmax (یعنی طبقه‌ای) از یک مقدار سیگنال انجام می‌دهد که با استفاده از تبدیل ترکیبی μ-قانون کدگذاری شده و به ۲۵۶ مقدار ممکن کوانتیزه می‌شود.

مفهوم اولیه و نتایج

طبق مقاله اولیه سپتامبر 2016 DeepMind WaveNet: A Generative Model for Raw Audio، شبکه با شکل موج‌های واقعی گفتار به زبان انگلیسی و مندرین تغذیه شد. همان‌طور که اینها از طریق شبکه عبور می‌کنند، مجموعه ای از قوانین را می‌آموزد که چگونه شکل موج صوتی در طول زمان تکامل می‌یابد. سپس می‌توان از شبکه آموزش دیده برای ایجاد شکل موج‌های گفتاری جدید با سرعت ۱۶۰۰۰ نمونه در ثانیه استفاده کرد. این شکل موج‌ها شامل نفس‌های واقع گرایانه و لب‌ها می‌شود - اما با هیچ زبانی مطابقت ندارد.

WaveNet قادر به مدل‌سازی دقیق صداهای مختلف است، با لهجه و لحن ورودی که با خروجی ارتباط دارد؛ مثلاً اگر با زبان آلمانی آموزش داده شود، گفتار آلمانی تولید می‌کند. این قابلیت همچنین به این معنی است که اگر WaveNet از ورودی‌های دیگر تغذیه شود - مانند موسیقی – خروجی آن موزیکال خواهد بود. در زمان انتشار، DeepMind نشان داد که WaveNet می‌تواند شکل موج‌هایی تولید کند که شبیه موسیقی کلاسیک باشد.

مبادله محتوا (صدا).

بر اساس مقاله ژوئن 2018 Disentangled Sequential Autoencoder , DeepMind با موفقیت از WaveNet برای "تبادل محتواً صدا و صدا استفاده کرده‌است: شبکه می‌تواند صدا را در یک ضبط صوتی با صدای دیگری که از قبل موجود است تعویض کند در حالی که متن و سایر موارد را حفظ می‌کند. ویژگی‌های ضبط اصلی ما همچنین روی داده‌های توالی صوتی آزمایش می‌کنیم. بازنمایی از هم گسیخته ما به ما این امکان را می‌دهد که هویت‌های گوینده را به یکدیگر تبدیل کنیم، در حالی که به محتوای گفتار مشروط می‌شویم." (ص. ۵) "برای صدا، این به ما امکان می‌دهد یک بلندگوی مرد را به یک بلندگوی زن تبدیل کنیم و بالعکس [...] ." (پ. ۱) طبق این مقاله، حداقل دو رقمی ساعت (حدود ۵۰ ساعت) از ضبط‌های گفتاری از قبل موجود هم از صدای منبع و هم صدای هدف باید به WaveNet وارد شود تا برنامه ویژگی‌های فردی خود را قبل از آن یاد بگیرد. می‌تواند تبدیل از یک صدا به صدای دیگر را با کیفیت رضایت بخشی انجام دهد. نویسندگان تأکید می‌کنند که «[a] n مزیت مدل این است که ویژگی‌های دینامیکی را از استاتیک جدا می‌کند [...]». (پ. ۸) یعنی WaveNet قادر است بین متن گفتاری و حالت‌های ارسال (مدولاسیون، سرعت، زیر و بم، حالت و غیره) برای حفظ در حین تبدیل از یک صدا به صدای دیگر از یک طرف، و ویژگی‌های اساسی صداهای منبع و هدف تمایز قائل شود. که لازم است با دیگری مبادله شود.

مقاله بعدی ژانویه ۲۰۱۹، یادگیری بازنمایی گفتار بدون نظارت با استفاده از رمزگذارهای خودکار WaveNet روشی را برای افزایش موفقیت‌آمیز تشخیص خودکار مناسب و تمایز بین ویژگی‌های پویا و ایستا برای «تبادل محتوا»، به ویژه از جمله تعویض صداها در ضبط‌های صوتی موجود، شرح می‌دهد. به منظور قابل اعتمادتر کردن آن مقاله بعدی دیگر، Sample Efficient Adaptive Text-to-Speech مورخ سپتامبر ۲۰۱۸ (آخرین ویرایش ژانویه ۲۰۱۹)، بیان می‌کند که DeepMind با موفقیت حداقل میزان ضبط واقعی مورد نیاز برای نمونه صدای موجود را از طریق WaveNet کاهش داده‌است. به «فقط چند دقیقه داده صوتی» در حالی که نتایج با کیفیت بالا حفظ می‌شود.

توانایی آن در شبیه‌سازی صداها نگرانی‌های اخلاقی را در مورد توانایی WaveNet در تقلید صدای افراد زنده و مرده ایجاد کرده‌است. طبق مقاله‌ای در سال ۲۰۱۶ بی‌بی‌سی، شرکت‌هایی که روی فناوری‌های شبیه‌سازی صدای مشابه (مانند Adobe Voco) کار می‌کنند، قصد دارند برای جلوگیری از جعل، واترمارکی غیرقابل شنیدن برای انسان درج کنند، در حالی که شبیه‌سازی صدا، برای مثال، نیازهای صنعت سرگرمی را برآورده می‌کند. پیچیدگی بسیار کمتری داشته باشد و از روش‌های متفاوتی نسبت به روش‌های مورد نیاز برای فریب دادن روش‌های شواهد پزشکی قانونی و دستگاه‌های شناسایی الکترونیکی استفاده کند، به طوری که صداها و صداهای طبیعی شبیه‌سازی شده برای اهداف سرگرمی-صنعتی هنوز هم می‌توانند به راحتی با تجزیه و تحلیل فن‌آوری از هم جدا شوند.

برنامه‌های کاربردی

در زمان انتشار، DeepMind گفت که WaveNet به قدرت پردازش محاسباتی زیادی برای استفاده در برنامه‌های کاربردی دنیای واقعی نیاز دارد. از اکتبر ۲۰۱۷، گوگل بهبود عملکرد ۱۰۰۰ برابری همراه با کیفیت صدای بهتر را اعلام کرد. سپس WaveNet برای تولید صداهای دستیار Google برای انگلیسی و ژاپنی ایالات متحده در تمام پلتفرم‌های Google استفاده شد. در نوامبر ۲۰۱۷، محققان DeepMind یک مقاله تحقیقاتی منتشر کردند که در آن روش پیشنهادی «تولید نمونه‌های گفتاری با وفاداری بالا با بیش از ۲۰ برابر سریع‌تر از زمان واقعی» به نام «تقطیر چگالی احتمال» را شرح می‌داد. در کنفرانس سالانه توسعه‌دهندگان I/O در ماه می ۲۰۱۸، اعلام شد که صداهای جدید دستیار Google در دسترس بوده و توسط WaveNet امکان‌پذیر شده‌است. WaveNet تعداد ضبط‌های صوتی مورد نیاز برای ایجاد یک مدل صوتی را با مدل‌سازی صدای خام نمونه‌های صداپیشه، بسیار کاهش داد.

جستارهای وابسته

پیوند به بیرون


Новое сообщение