اگر باشد و اگر ، و N تعداد نمونه‌ها در یک پنجره می‌باشد.
نرخ گذار از صفر مربوط به صامت‌های انرژی پایین، نسبت به نرخ گذار از صفر مربوط به مصوت‌های انرژی بالا کمتر است. بدیهی است که نرخ گذار از صفر یک الگوریتم حوزه زمان است و به مقدار زیادی به فرکانس سیگنال ورودی x(n) وابستگی دارد. به علاوه نرخ نمونه برداری باید به اندازه کافی بالا باشد تا هر عبور از صفری را نشان دهد. به علاوه چیز مهمی که باید قبل از شروع به شمارش گذرها مورد توجه قرار گیرد نرمال سازی سیگنال است. چون متوسط دامنه در سرتاسر پنجره باید برابر با صفر باشد و این کار با استفاده از شیفت ثابت به هر نمونه در محور دامنه انجام میشود. این ثابت باید معادل با میانگین دامنه واقعی باشد. این به معنی دوباره تنظیم کردن بالانس نرخ گذار از صفر است. این مسئله تضمین می‌کند که هر پنجره فقط یک نرخ گذار از صفر خاص دارد. از معادله مشخص می‌شود کهنرخ گذار از صفر با فرکانس dominant،x(n) متناسب است
در اینجا مفهوم نسبت نرخ گذار از صفر بالا(HZCRR) نیز مطرح می‌شود]4[. کاملا مشخص است که نرخ گذار از صفر برای مشخص کردن سیگنال‌های صوتی مختلف بسیار مفید است و در بسیاری از الگوریتم‌های کلاس بندی گفتار/موسیقی مورد استفاده بود. از طریق آزمایش فهمیده شد که نوسان(تغییرات) نرخ گذار از صفر نسبت به مقدار دقیق نرخ گذار از صفر متمایز کننده تر است. بنابراین HZCRR را می‌توان به عنوان یک ویژگی در نظر گرفت.
HZCRR به صورت نسبت تعداد فریم‌هایی که ZCR شان بالاتر از نرخ گذار از صفر متوسط یک بخش در پنجره یک ثانیه ای است تعریف می‌شود و به صورت زیر بیان می‌شود:
n ایندکس فریم و N تعداد کل فریم‌ها در یک پنجره یک ثانیه ای است و sgn[.] یک تابع علامت و ZCR(n)نرخ گذار از صفر در فریم n ام است.
در]5،6،7،8،9،10،11،12،13،14،15،16[ از این دسته ویژگی‌ها استفاده شده است.
انرژی زمان کوتاه:
دامنه سیگنال به گونه ای محسوس با زمان تغییر می‌کند. دامنه قطعات بی صدا عموما خیلی پایین‌تر از قطعات صدادار است. انرژی زمان کوتاه سیگنال صوت یک نمایش مناسبی را ارائه می‌دهد که این واریانس‌های دامنه را منعکس می‌کند. از آنجاییکه سیگنال موسیقی شامل قطعات بی صدا نیست STE آن معمولا بزرگ‌تر از گفتار است.
انرژی زمان کوتاه یک فریم به صورت مجموع مربعات نمونه‌های سیگنال به صورت زیر تعریف می‌شود:
در اینجا مفهوم دیگری به نام انرژی زمان کوتاه پایین ( LSTER) نیز مطرح می‌شود که با استفاده از این ویژگی به جای مقدار دقیق انرژی زمان کوتاه واریانس و تغییرات را به عنوان یک جز از بردار ویژگی‌مان انتخاب می‌کنیم. در اینجا ما از LSTER برای نمایش تغییرات STE استفاده می‌کنیم. LSTER به صورت نسبت تعداد فریم‌هایی که در آن‌هاSTE کمتر از 0.5برابر STE میانگین در یک پنجره یک ثانیه ای است تعریفمی‌شود. به صورت زیر:
که N تعداد کل فریم‌ها و STE(n) مقدار STE در n امین فریم و STEav،STE میانگین در یک پنجره یک ثانیه ای است. در]5،6،7،8،9،10،11،12،13،14،16،17،18[ از این دسته ویژگی‌ها استفاده شده است.
ضرایب کپسترال فرکانسی مل (MFCC):
هدف اصلی MFCC تقلید رفتار گوش انسان است. تحقیقات فیزیولوژیکی نشان می‌دهند که ادراک بشر از محتوای فرکانسی صداها برای سیگنال‌هایصوتی از یک مقیاس خطی پیروی نمی‌کند بنابراین برای هر تن با فرکانس واقعی f یک pitch روی مقیاس مل محاسبه می‌شود. مقیاس فرکانسی مل در فضای زیر 1kHz به صورت خطی و در بالای 1kHz به صورت لگاریتمی می‌باشد. بنابراین فیلترها در فرکانس‌های پایین به صورت خطی و در فرکانس‌های بالا به صورت لگاریتمی برای پیگیری ویژگی‌های مهم آواشناسی (صدادار و بدون صدا) استفاده می‌شوند. فرمولی که معمولا برای انعکاس ارتباط بین فرکانس مل و فرکانس فیزیکی استفاده می‌شود به صورت زیر است:
محاسبه ضرایب فرکانسی کپسترال مل با گرفتن DFT از فریم X(k) شروع می‌شود و سپس ضرب آن با یک سری از فیلترهای بالاگذر ایده‌ال مثلثی که فرکانس مرکزی و پهنای فیلتر بر اساس مقیاس مل تنظیم شده‌اند. سپس انرژی طیفی کل در هر فیلتر به صورت زیر محاسبه می‌شود:
LiوUiباند‌های بالا و پایین فیلتر و siیک ضریب نرمال سازی و i شماره فیلتر بانک است.( برای جبران پهنای باندهای مختلف فیلترها)
نهایتا دنباله MFCC با محاسبه تبدیل کسینوسی گسسته(DCT) از لگاریتم دنباله انرژی E(i) محاسبه می‌شود:
L شماره ویژگی MFCC و N تعداد نمونه‌ها در یک فریم است. معمولا 12 ضریب به عنوان ویژگی برای نمایش گفتار محاسبه می‌شود. هم چنین می‌توان بردار تفاضل MFCC را بین فریم‌های مختلف محاسبه کرد و نرم اقلیدسی آن بردار به عنوان یک ویژگی اضافی در نظر گرفت.
i ایندکس فریم است. در ]6،7،11،12،13،14،15،16،19،20،21،22[از این دسته ویژگی‌ها استفاده شده است.
:Roll-off point
این ویژگی مقداری را در فرکانس نشان می‌دهد که 95% انرژی سیگنال در زیر آن قرار می‌گیرد. همان طور که قبلا ذکر شد انرژی(توان) درموسیقی در فرکانس‌های بالاتر متمرکز شده است. هرچند گفتار یک رنجی از توان فرکانسی پایین را دارد.گفتار صدادار نسبت بالایی از انرژی را در رنج فرکانسی پایین طیف دارد در حالیکه بیشتر انرژی در گفتار بی صدا و موسیقی در باندهای بالاتر است. در نتیجه نقطه roll-off طیفی برای گفتار بی صدا و موسیقی مقدار بالاتری دارد و برای گفتار صدادار مقدار پایین‌تری دارد. عبارت ریاضی برای پیدا کردن این مقدار از فرکانس به صورت زیر است:
در ]6،7،12،13،14،15،19[از این دسته ویژگی‌ها استفاده شده است.