مرکزیت طیف:
این ویژگی نقطه تعادل توزیع توان طیفی را در یک فریم ارائه می‌دهد.این ویژگی مرکز فرکانسی را توصیف می‌کند. سیگنال‌هایموسیقی نویز فرکانس بالا و صداهای تصادمی(زدنی) دارند که یک میانگین طیفی بالا را نتیجه می‌دهد.به عبارت دیگر در سیگنال‌هایگفتار،pitch سیگنال صوتی در یک رنج بسیار باریک از مقادیر پایین می‌ماند.به عنوان نتیجه موسیقی مرکزیت طیف بالاتری نسبت به گفتار دارد. مرکزیت طیف برای یک فریم که در زمان t رخ می‌دهد به صورت زیر محاسبه می‌شود:
K ایندکسی متناظر با فرکانس، X(k) توان سیگنال در باند فرکانسی متناظراست.
در ]6،7،10،11،12،13،14،15،18،23،24[از این دسته ویژگی‌ها استفاده شده است.
Spectral Flux:
این ویژگی اختلاف طیف را فریم به فریم اندازه گیری می‌کند بنابراین تغییر در شکل طیف را مشخص می‌کند. گفتار مقدار رنج بالاتری دارد و تغییرات فریم به فریم شدیدتری نسبت به موسیقی دارد. باید به این نکته توجه کرد که گفتار مرتبا بین پریودهایی از گذار( مرزهای مصوت-صامت) و پریودهایی از حالت سکون نسبی(مصوت‌ها ) جابجا می‌شود در حالیکهموسیقی معمولا یک نرخ ثابت‌تری از تغییر را داراست. به عنوان نتیجه مقدار شار طیف(spectral flux) برای گفتار بالاتر است مخصوصا سیگنال‌های بدون صدا. اما مقدار spectral flux برای سیگنال گفتار نسبت به مقدار spectral fluxسیگنال‌های محیطی خیلی کوچک‌تر است زیرا در سیگنال‌های محیطی که تغییرات فریم به فریم نسبت به سیگنال‌هایگفتار بیشتر است.spectral flux به صورت زیر تعریف می‌شود”دومین نرم بردار تفاضل دامنه طیف فریم به فریم” یعنی مجموع مربعات اختلاف‌های فریم به فریم از اندازه DFT. که m وm-1 ایندکس فریم هستند.
شکل2-3 نشان می‌دهد که معیار spectral flux برای speech تقریبا بالا تر از این مقدار برای موسیقی است]24[.
شکل2-3- معیار spectral flux برای گفتار تقریبا بالاتر از این مقدار برای موسیقی است
در ]10،11،13،14،15،21،25،26،27،28،29،30،31[از این دسته ویژگی‌ها استفاده شده است.
درصد فریم‌هایlow energy :
این مقدار نسبت فریم‌هایی با توان RMS کمتر از 50% توان RMS میانگین در یک پریود معین از زمان را اندازه گیری می‌کند. توزیع انرژی برای گفتار نسبت به موسیقی چولگی چپ بیشتری دارد. دلیل این مسئله آن است که فریم‌های سکوت بیشتری در گفتار وجود دارد بنابراین انرژی فریم‌هایی که شامل سکوت هستند نسبت به فریم‌هایی که سکوت ندارند بیشتر است.شکل2-4 نشان می‌دهد که این معیار برای گفتار بالا تر از این مقدار برای موسیقی است]24[.
در]6،7،12،13،14،15،18،24،31[ از این ویژگی استفاده شده است.
شکل2-4- درصد فریم‌های با انرژی پایین
ضرایب پیشگویی خطی(LPC):
ایده پشت پیشگویی خطی این است که نمونه بعدی سیگنال از مجموع وزن دار p نمونه قبلی پیشگویی می‌شود.
ضرایب پیشگویی هستند و p مرتبه پیشگو است. و s(n-i) یک نمونه در زمان n-i است. به عبارت دیگر هر نمونه از یک سیگنال به صورت یک ترکیب خطی از نمونه‌های قبلی مدل می‌شود. ضرایب پیشگویی به وسیله مینیمم کردن خطای بین نمونه‌های واقعی و پیشگویی شده تعیین می‌شوند. خطای پیشگویی به صورت زیر محاسبه می‌شود:
در]10،13،30،32،33[از این ویژگی استفاده شده است.
2-3-2 تقسیم بندی ویژگی‌ها از نظر طول فریم استخراجی
ویژگی‌های صوتی را می‌توان بر اساس طول فریم استخراجی به سه دسته کوتاه متوسط و بلند تقسیم کرد. مجموعه ویژگی‌هایکه از فریم‌هایی با طول 30 میلی ثانیه-ویژگی‌هایی نظیر مجموع ضرب‌ها یا MFCC یا گذر از صفر- را استخراج می‌کنند تحت عنوان ویژگی‌های با طول فریم کوتاه معرفی می‌شود. ویژگی‌های با طول فریم متوسط از تجمیع چندین پنجره متوالی کوتاه فریم حاصل می‌شود همان طور که در جدول 2-2 نمایان است عملگرهایی چون انحراف از معیار و میانگین و مشتق برای تجمیع در فاز فریم‌های متوسط مورد استفاده قرار می‌گیرد. طبقه بعدی ویژگی‌ها،ویژگی‌های با طول فریم طولانی است. که از تجمیع ویژگی‌های با طول فریم‌های متوسط ایجاد می‌شود. ویژگی‌ها با طول فریم متوسط از فریمی به طول 1 ثانیه و ویژگی‌ها با طول فریم طولانی ازفریم‌هایی با طول 10 ثانیه بهره می‌برند.]34[
جدول 2-2- تقسیم بندی ویژگی‌ها از نظر طول فریم استخراجی
ویژگی‌های