حذف سکوت در سیگنال های صوتی در متلب Silence Removal :پروژه متلب
حذف سکوت در سیگنال های صوتی در متلب Silence Removal :پروژه متلب
پروژه آماده متلب :
یکی از نکات مهم در پیاده سازی VADها، انتخاب ویژگی و یا ویژگی هایی است که بتوان به کمک آنها به تمایز دو ناحیه سکوت وگفتار پرداخت. در این مرحله پارامترهای مورد نیاز از فریم مربوطه استخراج می شوند. عموما پارامترهایی انتخاب می شوند که فاکتور خوبی برای تمایز نواحی سکوت و غیر سکوت از هم باشند. از یک دیدگاه میتوان ویژگی های سیگنال گفتار را به دو دسته زیر تقسیم نمود:
۱-ویژگی هایی که با مفاهیم سطح بالایی مانند: گویش(لهجه)، بستر سخن، شیوه ی صحبت کردن فرد خاص و مواردی مانند شرایط احساسی گوینده سرو کار دارند.
۲-ویژگی هایی که با مفاهیم سطح پایینی مانند: فرکانس گام (فرکانس پایه ای که تحت آن ارتعاش تارهای صوتی انجام می شود.) شدت صوت، فرکانس های مشتق ، خود همبستگی طیفی سرو کار دارند. در حالت کلی این ویژگی ها با تحلیل طیف سیگنال در بازه های کوتاه زمانی بدست می آیند.[۷۹] شمای کلی سیستم استخراج ویژگی در شکل (۲-۳) نشان داده شده است.
شکل (۲-۳): شمای کلی سیستم استخراج ویژگی [۷۹]
در ادامه تعدادی از این ویژگی ها شرح داده شده اند.
۲-۲-۲-۱-انرژی
پروژه آماده متلب : انرژی فریم یکی از ساده ترین و قدیمی ترین پارامترهایی است که به تنهایی و یا در کنار پارامترهای دیگر، مورد استفاده قرار گرفته است.[۱۸-۲۱] این پارامتر در SNRهای پایین، بدلیل بالا بودن انرژی نویز نسبت به انرژی سیگنال در نواحی رخداد اصوات با انرژی پایین، به تنهایی عملکرد بالایی ندارد. در [۱۸] با بررسی طولانی مدت انرژی فریم جاری و محاسبه SNR فریم، عملیات تشخیص انجام شده است. در [۶۱] با محاسبه ، که x: انرژی فریم، µ: میانگین انرژی نویز و : واریانس نویز می باشند و استفاده از یک ماشین حالت محدود در جهت تصحیح خروجی VAD، ماهیت فریم ها مشخص شده است. در [۲۲] در ابتدا با یک روش VE مناسب، سیگنال گفتار از نویز جداسازی می شود و سپس با کمک یک الگوریتم VAD مبتنی بر انرژی عملیات جداسازی انجام می شود.
۲-۲-۲-۲-نرخ عبور از صفر
این پارامتر از طریق رابطه (۲-۱) محاسبه می گردد.
پروژه آماده متلب : که در آن k اندازه پنجره وsgn() تابع علامت معمولی می باشد. استفاده از ZCR در شرایطی که انرژی پایین باشد، بسیار کمک کننده خواهد بود. بطور معمول این پارامتر در سیگنال گفتار، در یک رنج بخصوصی می باشد و در فریم های حاوی نویز این عدد تصادفی و اتفاقی خواهد بود. در اکثر الگوریتمهای VAD از پارامترهای انرژی و ZCR در کنار یکدیگر به همراه پارامترهای دیگر استفاده می شود.[۲۷-۲۱]
۲-۲-۲-۳-استخراج ویژگی به کمک ضرایب کپسترال فرکانسی در مقیاس مل(MFCC)
منظور از ضرایب کپسترال، ضرایب کپسترال حقیقی می باشد. مطالعه روی نحوه شنیدن انسان و مدل گوش، نشان می دهد که درک انسان از محتوای فرکانسی، از یک مقیاس خطی پیروی نمی کند. برای شبیه سازی رفتار غیرخطی گوش در مقابل فرکانس ها از فیلتربانک استفاده می کنیم. در شکل (۲ـ۴ ) مراحل استخراج این ضرایب نشان داده شده است. در این سیستم ورودی سیگنال گفتار و خروجی بردارهای ویژگی (بردار ضرایب متناسب با آن گفتار) است. در ادامه توضیح مختصری از مراحل انجام کار داده می شود.[۷۸]
شکل(۲-۴): مراحل استخراج ویژگی با روش MFCC
۱)فیلتر پیش تاکید: فیلتری بالاگذر که روی کل سیگنال اعمال می شود، تا اثرات طیفی نامطلوب مانند تغییرات ناگهانی موجود در سیگنال که در اثر نویزهای لحظه ای شدید به وجود می آید را حذف نماید و باعث یکنواخت شدن سیگنال می گردد. رابطه این فیلتر در حوزه زمان و در حوزه فرکانس بصورت روابط (۲-۴) و (۲-۵) می باشد.
: ضریب پیش تاکید است (معمولا ) در کارهای پردازش گفتار نزدیک به۱ انتخاب می شود.
۲)قاب بندی، پنجره گذاری و همپوشانی: ابتدا سیگنال را به قطعه های کوچکتر که آنرا قاب می نامند، تقسیم و ویژگی ها از هر قاب استخراج می شود. هر فریم یک پروژه آماده متلب : بردار ویژگی را نتیجه می دهد. معمولا طول هر قاب بین ۱۰ تا ۵۰ میلی ثانیه است و قاب ها با هم همپوشانی دارند. میزان همپوشانی بین آنها متفاوت (معمولا ۲۵ تا ۷۵ درصد طول قاب) انتخاب می شود. اگر طول قاب ها کوچکتر انتخاب شود، تعداد بردارهای ویژگی بیشتر و حجم محاسبات بالاتر می رود. و با افزایش طول قاب، تعداد بردارهای ویژگی و حجم محاسبات کمتر می شود ولی فرض ایستان بودن سیگنال در طول قاب خدشه دار می شود و اطلاعات کمتری از سیگنال استخراج می شود. قاب های بدست آمده، در یک پنجره که با w(n) نشان داده می شود، ضرب می شود. تا اثر ناپیوستگی سیگنال در ابتدا و انتهای هر قاب کم شود و تداخلی بین قاب ها در حوزه فرکانسی پیش نیاید. از انواع پنجره، مستطیلی، همینگ، هنینگ، … وجود دارند. همینگ و هنینگ متداول تر هستند. که با رابطه های زیر نشان داده می شوند.[۷۸]
اعمال پنجره به سیگنال مطابق رابطه زیر خواهد بود.
۳)محاسبه طیف و بانک فیلتر در مقیاس مل: برای داشتن محاسبات راحت تر و سریعتر، با استفاده از تبدیل فوریه، سیگنال گفتار به حوزه فرکانسی برده می شود. تخمین طیف با استفاده از تبدیل فوریه سریع انجام می- شود. چون گوش انسان در درک فرکانس های صوتی، با آن فرکانس رابطه خطی ندارد، ایده اعمال یک تبدیل غیرخطی به اسم مقیاس مل روی طیف گفتار انجام می شود تا حساسیت گوش انسان را نسبت به حوزه های مختلف فرکانس مدل کند، یعنی مقیاس مل بیان می کند که گوش انسان به اطلاعات حوزه پایین ارزش بیشتری می دهد. به این ترتیب که برای فرکانس های کمتر از ۱KHZ خطی است و برای فرکانس های بالاتر لگاریتمی عمل می کند. مقیاس مل با رابطه زیر تعریف می شود:
در این رابطه فرکانس Fبه تبدیل می شود. سپس تعدادی فیلتر میان گذر هم اندازه با همپوشانی های یکسان روی طیف اعمال می شود و انرژی هر فیلتر را به عنوان یک ویژگی محاسبه می کنند.[۶۳] شکل (۲-۵) این فیلتر را نمایش می دهد. انجام این کار قاب اولیه سیگنال را از تعداد چند صد تایی نمونه ها، به ۲۰ تا ۳۰ ویژگی (معمولا برابر با تعداد فیلترهاNf ) کاهش می دهد. ویژگی هایی که با حذف اطلاعات اضافی، بسیاری از اطلاعات مفید سیگنال را نیز دارد.
شکل (۲-۵ ): اعمال بانک فیلتر مقیاس مل و محاسبه انرژی در هر زیر باند[۱۶]
۴)اعمال لگاریتم و تبدیل کسینوسی گسسته: با استفاده از رابطه (۲-۱۰) به منظور تعدیل دامنه ویژگی ها و بهبود ویژگی ها تبدیل غیر خطی زیر اعمال می شود.
سیگنال شنیداری پروژه آماده متلب : نمایشی از صدا ست، بهطور معمول از یک سطح ولتاژ الکتریکی برای سیگنالهای آنالوگ و یک سری اعداد باینری برای سیگنالهای دیجیتال استفاده میکنند. سیگنالهای صوتی فرکانسهایی در محدوده فرکانسهای صوتی، تقریباً ۲۰ تا ۲۰٬۰۰۰ هرتز دارند، که مطابق با آستانه پایین و بالای شنوایی انسان است. سیگنالهای صوتی ممکن است بهطور مستقیم بهطور الکترونیکی تولید شوند، یا ممکن است از مبدل مانند میکروفون، پیکاپِ ابزار موسیقی، کارتریج گرامافون یا هد نوار (یا هد ضبط صوت) سرچشمه گرفته باشند. بلندگوها یا هدفونها سیگنال الکتریکی صوتی را به صدا تبدیل میکنند.
سیستمهای صوتی دیجیتال سیگنالهای صوتی را در قالبهای مختلف دیجیتال نشان میدهند.
پروژه آماده متلب :کانال صوتی یا قطعهٔ صوتی یک کانال ارتباطی سیگنال صوتی در یک دستگاه ذخیرهسازی یا میز صداآمیزی است که در عملیاتی مانند ضبط چند آهنگ و تقویت صدا مورد استفاده قرار میگیرد.
خروجی متلب:
دیدگاه ها