Мы используем файлы cookie.
Продолжая использовать сайт, вы даете свое согласие на работу с этими файлами.

تشخیص صدا

Другие языки:

تشخیص صدا

Подписчиков: 0, рейтинг: 0

تشخیص صدا یا شناسایی گوینده (به انگلیسی: Speaker Recognition یا Speaker Identification) یکی از مسائل علوم رایانه و هوش مصنوعی و مهندسی صدا است که هدف آن شناسایی یک فرد تنها از روی صدای شخص است.

تشخیص صدا توسط مدل پنهان مارکوف

یکی از اصلی‌ترین ابزارهای ریاضی برای حل این مسئله مدل‌های پنهان مارکوف یا به اختصار م.پ.م هستند.

برای حل این مسئله با استفاده از روش فوق، مدل‌های آماری ابتدا باید مورد آموزش قرار بگیرند. بدین منظور ابتدا مقدار قابل توجهی از صدای ضبط شده افراد پردازش می‌شود. داده‌های پردازش شده که در حقیقیت مجموعه عظیمی از اعداد می‌باشند، متناوباً مورد استفاده قرار می‌گیرند تا م.پ.م برای هر گوینده به دست آید. در حقیقت م.پ.م‌ها مانند یک ماشین عمل می‌کنند که ورودی آن‌ها یک سری داده‌است و خروجی‌شان یک عدد برای هر مجموعه‌ای از داده‌ها، به این صورت که آن عدد نشان دهنده اختلاف داده‌های ورودی با م.پ.م هر ماشین است. برای آموزش م.پ.م، در هر تناوب داده‌ها به م.پ.م داده می‌شود و پارامترهای م.پ.م ذره‌ای تغییر داده می‌شود تا عدد خروجی (که نشان دهنده اختلاف داده‌ها با م.پ.م است) کوچک‌تر شود. برای اطمینان از اینکه تغییر پارامترهای م.پ.م در جهت درست انجام می‌گیرد و نهایتاً به حداقل شدن عدد خروجی می‌انجامد از یک روش ریاضی به نام Expectation Maximization استفاده می‌شود.

در نهایت بعد از آموزش این مدل‌ها که با استفاده از صدای مرجع انجام شده، می‌توان برای آزمایش سامانه صدای یکی از افرادی که قبلاً از صدای وی برای آموزش م.پ.م استفاده شده را به هر یک از م.پ.م‌ها داد. م.پ.م‌ای که کوچک‌ترین عدد را تولید می‌کند به عنوان فرد شناسایی شده در نظر گرفته می‌شود.

سامانه فوق به دلایل مختلفی احتمال خطا دارد. شباهت صدای افراد به یکدیگر (که گاهی انسان‌ها را نیز به اشتباه می‌اندازد)، صداهای حاشیه (نوفه)، محدودیت حجم داده‌های مرجع برای آموزش و غیره از جمله این اشتباه‌ها هستند. برای بالا بردن ضریب اطمینان سامانه شناسایی گوینده روش‌های مختلفی بکار می‌رود که هر ساله نیز با پیشرفت تحقیقات در دنیا به آن‌ها اضافه می‌شود. از جمله استفاده ترکیبی از تشخیص گفتار و تشخیص صدا که در آن نه تنها صدای گوینده بلکه کلمه(های) وی نیز مورد آزمایش قرار می‌گیرند. گوینده باید کلمات مشخصی را بکار ببرد تا سامانه به وی اجازه عبور بدهد. همچنین می‌توان از یک عدد حداکثر برای مقایسه اعداد خروجی م.پ.م استفاده کرد، به‌طوری‌که م.پ.م مورد نظر نه تنها باید کوچک‌ترین عدد را بدهد بلکه باید این عدد از یک عدد مرجع نیز کوچک‌تر باشد. در نتیجه این تغییر در سامانه ضریب ایمنی سامانه بالا می‌رود. این ضریب ایمنی به قیمت بالا رفتن درصد ردّ افراد از روی خطا صورت می‌گیرد و باعث می‌شود شخصی که به او باید اجازه عبور داده شود چند بار رمز خود را برای سامانه تکرار کند. مانند تمام سامانه‌هایی بهینه‌سازی پارامترهای مختلف برای بهترین عملکرد سامانه در شرایط مورد نیاز لازم است. (به عنوان مثال در ورودی اتاق کنترل یک نیروگاه هسته‌ای نیاز به حفاظت زیادی دارد که ممکن است در مورد درب ورودی کتابخانه دانشگاه نیاز نباشد!)