Продолжая использовать сайт, вы даете свое согласие на работу с этими файлами.
یادگیری عمیق سنتز گفتار
یادگیری ماشین و دادهکاوی |
---|
حوزههای یادگیری ماشین
|
یادگیری عمیق سنتز گفتار، از شبکههای عصبی عمیق (DNN) برای تولید گفتار مصنوعی از متن (متن به گفتار) یا طیف (رمزگذارهای صوتی) استفاده میکند. شبکههای عصبی عمیق با استفاده از حجم زیادی از گفتار ضبط شده و در مورد سیستم متن به گفتار، برچسبهای مرتبط و/یا متن ورودی آموزش داده میشوند.
بعضی از سنتز کنندههای گفتار مبتنی بر DNN، رویکرد طبیعت صدای انسان را در پیش میگیرند.
فرمولهای مرتبط
با توجه به یک متن ورودی یا یک سری از واحدهای زبانی ، گفتار هدف را میتوان توسط رابطهٔ زیر به دست آورد:
که پارامتر مدل است.
معمولاً ابتدا متن ورودی به یک تولید کنندهٔ مشخصهٔ صوتی ارسال میگردد، سپس ویژگیهای آوایی به رمزگذارهای صوتی عصبی فرستاده میشود. برای تولیدکنندهٔ ویژگی صوتی، تابع زیان معمولاً L1 loss یا L2 loss است. محدودیتی که این توابع زیان دارند این است که توزیع ویژگیهای صوتی خروجی باید از نوع گوسی یا لاپلاسی باشد. در عمل، از آنجایی که محدودهٔ صدای انسان در حدود ۳۰۰ تا ۴۰۰۰ هرتز متغیر است، تابع هزینه طوری طراحی میشود که جریمه بیشتری در این محدوده داشته باشد:
که تلفات محدودهٔ صدای انسان و یک اسکالر (مقدار عددی) معمولاً در حدود ۰٫۵ است. ویژگی آوایی معمولاً طیف نگار یا طیف نگاری در مقیاس Mel است. این ویژگیها، رابطه زمان-فرکانس سیگنال گفتار را میگیرند و بنابراین، تولید خروجیهای هوشمند با این ویژگیهای صوتی کافی است. ویژگی Mel-frequency cepstrum مورد استفاده در کار تشخیص گفتار، برای سنتز گفتار مناسب نیست؛ زیرا اطلاعات زیادی را کاهش میدهد.
تاریخچه مختصر
در سپتامبر ۲۰۱۶، شرکت DeepMind، مدل WaveNet را پیشنهاد کرد، یک مدل تولید کنندهٔ عمیق از شکل موجهای صوتی خام، که نشان میدهد مدلهای مبتنی بر یادگیری عمیق قادر هستند شکل موجهای خام را مدلسازی کنند و از روی مشخصههای آکوستیک، مانند طیفنگارها یا طیفنگارهای مل گفتار تولید کنند. اگرچه WaveNet در ابتدا از نظر محاسباتی بسیار گران و کند در نظر گرفته میشد که در آن زمان این امکان وجود نداشت که از این مدل در محصولات مصرفی استفاده شود، اما یک سال پس از انتشار، DeepMind نسخه اصلاحشده WaveNet را به نام «Paralel WaveNet» معرفی کرد که مدلی تولیدی ۱۰۰۰ سریعتر از نسخه اصلی بود.
در اوایل سال ۲۰۱۷، مؤسسهٔ میلا مدل char2wav را پیشنهاد کرد که برای تولید شکل موج خام در یک روش end-to-end بود. در همان سال، گوگل و فیسبوک به ترتیب Tacotron و VoiceLoop را برای تولید ویژگیهای صوتی مستقیماً از متن ورودی پیشنهاد کردند. ماهها بعد، گوگل Tacotron2 را پیشنهاد کرد، که کدصدای WaveNet را با معماری اصلاحشده Tacotron ترکیب کرد تا سنتز گفتار سرتاسر را انجام دهد. Tacotron2 میتواند گفتاری با کیفیت بالا تولید کند که نزدیک به صدای انسان است. از آن زمان، روشهای end-end تبدیل به داغترین موضوع تحقیقاتی شدهاند، زیرا بسیاری از محققان در سراسر جهان متوجه قدرت ترکیبکنندههای گفتار end-end شدهاند.
یادگیری نیمه نظارتی
در حال حاضر، یادگیری خود نظارتی به دلیل استفاده بهتر از دادههای بدون برچسب، توجه زیادی را به خود جلب کردهاست. تحقیقات نشان دادهاست که با کمک تلفات خود نظارتی، نیاز به دادههای جفت کاهش مییابد.
سازگار بودن گویندهٔ بدون نمونه
سازگاربودن گویندهٔ بدون نمونه امیدوارکننده است زیرا یک مدل واحد میتواند گفتاری با سبکها و ویژگیهای مختلف بلندگو تولید کند. در ژوئن ۲۰۱۸، گوگل پیشنهاد کرد که از مدلهای اثبات گویندگان از پیش آموزشدیده بهعنوان رمزگذار گوینده برای استخراج تعبیههای گوینده استفاده کند. سپس رمزگذارهای گوینده، بخشی از مدلهای عصبی متن به گفتار میشوند، به طوری که میتوانند سبک و ویژگیهای گفتار خروجی را تعیین کنند. این رویه به جامعه نشان دادهاست که میتوان تنها از یک مدل برای تولید گفتار با سبکهای متعدد استفاده کرد.
رمزگذار صوتی عصبی
در سنتز گفتار مبتنی بر یادگیری عمیق، رمزگذارهای صوتی عصبی نقش مهمی در تولید گفتار با کیفیت بالا از ویژگیهای صوتی دارند. مدل WaveNet که در سال ۲۰۱۶ ارائه شد، عملکرد بسیار خوبی در کیفیت گفتار دارد. WaveNet احتمال مشترک یک شکل موج را فاکتور گرفت به عنوان حاصل ضرب احتمالات مشروط به صورت زیر
جایی که پارامتر مدل شامل بسیاری از لایههای پیچشی اتساع یافتهاست؛ بنابراین، هر نمونه صوتی ، مشروط به نمونهها در تمام مراحل قبلی است. با این حال، ماهیت رگرسیون خودکار WaveNet روند استنتاج را بهطور چشمگیری کند میکند. برای حل این مشکل، Parallel WaveNet پیشنهاد شد. WaveNet موازی یک مدل مبتنی بر جریان خودهمبستهٔ معکوس است که با knowledge distillationبا یک مدل WaveNet یاددهندهٔ از قبل آموزش دیده، آموزش داده میشود. از آنجایی که چنین مدلهای مبتنی بر جریان خودهمبسته معکوس هنگام انجام استنتاج غیر رگرسیون خودکار هستند، سرعت استنتاج سریعتر از زمان واقعی است. در همین حال، Nvidia مدل WaveGlow مبتنی بر جریان را پیشنهاد کرد که میتواند گفتار را سریعتر از زمان واقعی تولید کند. با این حال، علیرغم سرعت استنتاج بالا، WaveNet موازی محدودیت نیاز به یک مدل WaveNet از پیش آموزش دیده را دارد، به طوری که WaveGlow هفتهها طول میکشد تا با دستگاههای محاسباتی محدود همگرا شود. این مشکل توسط موازی WaveGAN حل شدهاست، که یادمیگیرد گفتار را از طریق از دست دادن طیفی با وضوح چندگانه و استراتژیهای یادگیری GAN تولید کند.