3-2 تولید مجموعه داده از موسیقی ایرانی
یکی از مهم‌ترین دستاورد‌های این تحقیق تولید مجموعه داده ای جامع است. به دلیل این که تا به امروز هیچ تجربه رده‌بندی و پیشنهاد دهی بر روی موسیقی ایرانی وجود نداشت، در نتیجه مجموعه داده ای که بتوان آن را در تحقیق مورد استفاده قرار داد نیز وجود نداشت. بنابراین پیش از هر کاری تولید یک مجموعه داده مناسب ضروری می‌نمود. مجموعه داده تولید شده بسیار جامع بوده و می‌توان در زمینه‌های رده‌بندی سبک خواننده و حالت موسیقی و همچنین در سیستم‌های پیشنهاد دهنده و تشخیص شباهت موسیقی و حتی گروه‌بندی مورد استفاده قرار گیرد.
3-2-1 جمع آوری داده‌ها و فرا داده‌ها و پیش پردازش
به منظور ایجاد مجموعه داده قبل از هر کاری باید فایل‌های صوتی موسیقی به تعداد کافی در سبک‌های مختلف موسیقی که توسط خوانندگان مختلف خوانده شده‌اندجمع‌آوری شود تعداد 745 فایل موسیقی در فرمت پرکاربردMP3 در نه سبک مختلف جمع آوری شد. به منظور مناسب شدن مجموعه داده برای رده‌بندی خواننده و همچنین به کارگیری در سیستم‌های پیشنهاددهنده، برای بالا بردن جمعیت خوانندگان از سبک پرطرفدار و مشهور پاپ استفاده شده است.از هر خواننده حداقل 10 آهنگ در مجموعه داده موجود است. تعداد 23 خواننده از هر دو جنس زن و مرد با جمعیت بیش از 10 آهنگ به منظور به کارگیری مجموعه داده در رده‌بندی خواننده، وجود دارد. همچنین به منظور اضافه کردن تگ حالت به هر آهنگ از هفت فرد مختلف خواسته شد بدون در نظر گرفتن خاطرات خود نسبت به هر موسیقی خاص تگ حالتی را برای هر فایل موسیقی ارائه دهند. در نهایت با رای‌گیری از تگ‌های ارائه شده یک تگ به عنوان تگ حالت آن فایل موسیقی پذیرفته شد.
از آن جایی که ابزار مور استفاده برای استخراج ویژگی تنها فایل‌هایی با فرمت WAV را به عنوان ورودی می‌پذیردتمامی این فایل‌ها به فرمت WAV وبا ویژگی‌های یکسان نرخ نمونه 8.0KHZ، عمق بیت 8 Bits، تک کانال و با استفاده از رمزنگاری PCM تبدیل شده است. وسپس 40ثانیه میانی ( از ثانیه 40 تا 80) هر فایل به دلیل وابستگی ویژگی‌ها به طول سیگنال صوتی جدا شده است و علاوه بر آنآهنگ‌ها در این مدت اطلاعات کافی در اختیار می‌گذارند. چنانچه قبلا اشاره شد، ویژگی‌هایlong term نیز حداقل به 10 ثانیه از صوت نیازمند هستند.
3-2-2 استخراج ویژگی‌ها
همان طور که در فصل قبل بیان شده است دو مجموعه داده معروف از موسیقی غربی که مورد استفاده قرار می‌گیرد، تنها به ارائه چند ضریب MFCC به عنوان ویژگی محتوایی آهنگ‌ها پرداختند. که به هیچ وجه نمی‌تواند نماینده مناسبی از آهنگ باشد، چرا که ضرایب MFCC در اصل برای تشخیص صدا ارائه شده نه موسیقی.
طبق دسته بندی انجام شده در جدول 2-1ما به استخراج ویژگی‌هایی که بتوانند نماینده، ریتم، تمپو، تون، نواک، رنگ و ویژگی‌های آماری سیگنال صوتی باشد می‌پردازیم. ویژگی‌های استخراج شده مجموعه داده مطابق با ویژگی‌های ارائه شده در جدول 2-1 است.
به منظور استخراج ویژگی‌ها از ابزار JAudio استفاده شده است. این ابزار توسط گروه موسیقی دانشگاه Mcgill ارائه شده است.این ابزار امکان استخراج بیش از 700 ویژگی مربوط به سیگنال صوتی را در اختیار می‌گذارد. بعضی از این ویژگی‌ها دارای چندین بعدیمی‌باشند که این ابزار تمامی ویژگی‌های چند بعدی را مسطح می‌نماید به این صورت که هر یک ازبعدها را به عنوان یک ویژگی در نظر می‌گیرد.
در میان ویژگی‌های مد نظر برای تولید مجموعه داده، ویژگی‌هایMFCC، LPC و Area method of moment MFCC چند بعدی هستند.
3-2-3 ویژگی‌های مجموعه داده
در این بخش ویژگی‌های آماری مجموعه داده از نظر پراکندگی ویژگی‌ها، سبک‌ها، خواننده‌ها و مجموعه داده آورده شده است.
جدول3-1 اطلاعات کلی از مجموعه داده
دسته ویژگی
تعداد ویژگی
حالت
تعداد خواننده
تعداد
ریتم
تمپو
نواک