Мы используем файлы cookie.
Продолжая использовать сайт, вы даете свое согласие на работу с этими файлами.
یادگیری عمیق سنتز گفتار
Другие языки:

یادگیری عمیق سنتز گفتار

Подписчиков: 0, рейтинг: 0

یادگیری عمیق سنتز گفتار، از شبکه‌های عصبی عمیق (DNN) برای تولید گفتار مصنوعی از متن (متن به گفتار) یا طیف (رمزگذارهای صوتی) استفاده می‌کند. شبکه‌های عصبی عمیق با استفاده از حجم زیادی از گفتار ضبط شده و در مورد سیستم متن به گفتار، برچسب‌های مرتبط و/یا متن ورودی آموزش داده می‌شوند.

بعضی از سنتز کننده‌های گفتار مبتنی بر DNN، رویکرد طبیعت صدای انسان را در پیش می‌گیرند.

فرمول‌های مرتبط

با توجه به یک متن ورودی یا یک سری از واحدهای زبانی ، گفتار هدف را می‌توان توسط رابطهٔ زیر به دست آورد:

که پارامتر مدل است.

معمولاً ابتدا متن ورودی به یک تولید کنندهٔ مشخصهٔ صوتی ارسال می‌گردد، سپس ویژگی‌های آوایی به رمزگذارهای صوتی عصبی فرستاده می‌شود. برای تولیدکنندهٔ ویژگی صوتی، تابع زیان معمولاً L1 loss یا L2 loss است. محدودیتی که این توابع زیان دارند این است که توزیع ویژگی‌های صوتی خروجی باید از نوع گوسی یا لاپلاسی باشد. در عمل، از آنجایی که محدودهٔ صدای انسان در حدود ۳۰۰ تا ۴۰۰۰ هرتز متغیر است، تابع هزینه طوری طراحی می‌شود که جریمه بیشتری در این محدوده داشته باشد:

که تلفات محدودهٔ صدای انسان و یک اسکالر (مقدار عددی) معمولاً در حدود ۰٫۵ است. ویژگی آوایی معمولاً طیف نگار یا طیف نگاری در مقیاس Mel است. این ویژگی‌ها، رابطه زمان-فرکانس سیگنال گفتار را می‌گیرند و بنابراین، تولید خروجی‌های هوشمند با این ویژگی‌های صوتی کافی است. ویژگی Mel-frequency cepstrum مورد استفاده در کار تشخیص گفتار، برای سنتز گفتار مناسب نیست؛ زیرا اطلاعات زیادی را کاهش می‌دهد.

تاریخچه مختصر

پرونده:WaveNet animation.gif
A stack of dilated casual convolutional layers used in WaveNet

در سپتامبر ۲۰۱۶، شرکت DeepMind، مدل WaveNet را پیشنهاد کرد، یک مدل تولید کنندهٔ عمیق از شکل موج‌های صوتی خام، که نشان می‌دهد مدل‌های مبتنی بر یادگیری عمیق قادر هستند شکل موج‌های خام را مدل‌سازی کنند و از روی مشخصه‌های آکوستیک، مانند طیف‌نگارها یا طیف‌نگارهای مل گفتار تولید کنند. اگرچه WaveNet در ابتدا از نظر محاسباتی بسیار گران و کند در نظر گرفته می‌شد که در آن زمان این امکان وجود نداشت که از این مدل در محصولات مصرفی استفاده شود، اما یک سال پس از انتشار، DeepMind نسخه اصلاح‌شده WaveNet را به نام «Paralel WaveNet» معرفی کرد که مدلی تولیدی ۱۰۰۰ سریع‌تر از نسخه اصلی بود.

در اوایل سال ۲۰۱۷، مؤسسهٔ میلا مدل char2wav را پیشنهاد کرد که برای تولید شکل موج خام در یک روش end-to-end بود. در همان سال، گوگل و فیس‌بوک به ترتیب Tacotron و VoiceLoop را برای تولید ویژگی‌های صوتی مستقیماً از متن ورودی پیشنهاد کردند. ماه‌ها بعد، گوگل Tacotron2 را پیشنهاد کرد، که کدصدای WaveNet را با معماری اصلاح‌شده Tacotron ترکیب کرد تا سنتز گفتار سرتاسر را انجام دهد. Tacotron2 می‌تواند گفتاری با کیفیت بالا تولید کند که نزدیک به صدای انسان است. از آن زمان، روش‌های end-end تبدیل به داغ‌ترین موضوع تحقیقاتی شده‌اند، زیرا بسیاری از محققان در سراسر جهان متوجه قدرت ترکیب‌کننده‌های گفتار end-end شده‌اند.

یادگیری نیمه نظارتی

در حال حاضر، یادگیری خود نظارتی به دلیل استفاده بهتر از داده‌های بدون برچسب، توجه زیادی را به خود جلب کرده‌است. تحقیقات نشان داده‌است که با کمک تلفات خود نظارتی، نیاز به داده‌های جفت کاهش می‌یابد.

سازگار بودن گویندهٔ بدون نمونه

سازگاربودن گویندهٔ بدون نمونه امیدوارکننده است زیرا یک مدل واحد می‌تواند گفتاری با سبک‌ها و ویژگی‌های مختلف بلندگو تولید کند. در ژوئن ۲۰۱۸، گوگل پیشنهاد کرد که از مدل‌های اثبات گویندگان از پیش آموزش‌دیده به‌عنوان رمزگذار گوینده برای استخراج تعبیه‌های گوینده استفاده کند. سپس رمزگذارهای گوینده، بخشی از مدل‌های عصبی متن به گفتار می‌شوند، به طوری که می‌توانند سبک و ویژگی‌های گفتار خروجی را تعیین کنند. این رویه به جامعه نشان داده‌است که می‌توان تنها از یک مدل برای تولید گفتار با سبک‌های متعدد استفاده کرد.

رمزگذار صوتی عصبی

Speech synthesis example using the HiFi-GAN neural vocoder

در سنتز گفتار مبتنی بر یادگیری عمیق، رمزگذارهای صوتی عصبی نقش مهمی در تولید گفتار با کیفیت بالا از ویژگی‌های صوتی دارند. مدل WaveNet که در سال ۲۰۱۶ ارائه شد، عملکرد بسیار خوبی در کیفیت گفتار دارد. WaveNet احتمال مشترک یک شکل موج را فاکتور گرفت به عنوان حاصل ضرب احتمالات مشروط به صورت زیر

جایی که پارامتر مدل شامل بسیاری از لایه‌های پیچشی اتساع یافته‌است؛ بنابراین، هر نمونه صوتی ، مشروط به نمونه‌ها در تمام مراحل قبلی است. با این حال، ماهیت رگرسیون خودکار WaveNet روند استنتاج را به‌طور چشمگیری کند می‌کند. برای حل این مشکل، Parallel WaveNet پیشنهاد شد. WaveNet موازی یک مدل مبتنی بر جریان خودهمبستهٔ معکوس است که با knowledge distillationبا یک مدل WaveNet یاددهندهٔ از قبل آموزش دیده، آموزش داده می‌شود. از آنجایی که چنین مدل‌های مبتنی بر جریان خودهمبسته معکوس هنگام انجام استنتاج غیر رگرسیون خودکار هستند، سرعت استنتاج سریع‌تر از زمان واقعی است. در همین حال، Nvidia مدل WaveGlow مبتنی بر جریان را پیشنهاد کرد که می‌تواند گفتار را سریع‌تر از زمان واقعی تولید کند. با این حال، علی‌رغم سرعت استنتاج بالا، WaveNet موازی محدودیت نیاز به یک مدل WaveNet از پیش آموزش دیده را دارد، به طوری که WaveGlow هفته‌ها طول می‌کشد تا با دستگاه‌های محاسباتی محدود همگرا شود. این مشکل توسط موازی WaveGAN حل شده‌است، که یادمی‌گیرد گفتار را از طریق از دست دادن طیفی با وضوح چندگانه و استراتژی‌های یادگیری GAN تولید کند.


Новое сообщение