False Negatives: داده های کلاس مثبت (کلاس یک) که به غلط به عنوان کلاس منفی شناسایی شده اند.
Flase Positives: داده های کلاس منفی (کلاس صفر) که به غلط به عنوان کلاس مثبت شناسایی شده اند.
به دلیل اینکه متناسب نبودن تعداد نمونه های مثبت و منفی، میتواند باعث تمایل الگوریتم ناکارآمد به سمت کلاس با تعداد نمونه بیشتر شده و باعث شود دسته ای که تعداد نمونه های کمتری دارد نادیده گرفته شود. به عناون مثال فرض کنید در میان هزار نمونه های موجود، 950 نمونه جزو نمونه های مثبت باشند و 50 نمونه جزو نمونه های منفی باشند، در اینصورت مدلی که همه نمونه ها را بدون توجه به مشخصات نمونه ها، جزو کلاس مثبت بداند دقت 95% را به دست خواهد آورد در حالی که این مدل عملا ارزشی نداشته و تحت تاثیر پراکندگی نمونه های موجود چنین دقت بالایی را بدست آورده است. از جمله معیارهایی برای ارزیابی بهتر کارایی یک الگوریتم یادگیری بر اساس جدول فوق استفاده میشود عبارتند از:
Accuracy: که عبارتست از نسبت تشخیص های صحیح به کل نمونه های موجود :
(7-2)
Error : که عبارتست از نسبت تشخیص های غلط به تمام نمونه ها :
(8-2)
Precision :که عبارتست از میزان نمونه های مثبت تشخیص داده شده که به درستی تشخیص داده شده اند (میزان قابلیت اعتماد بودن یک تشخیص صحیح):
(9-2)
:TP Rate که عبارتست از میزان نمونه های مثبت واقعی که درست تشخیص داده شده اند:
(10-2)
FP Rate: که عبارتست از میزان نمونه های منفی که به اشتباه درست تشخیص داده شده اند:
(11-2)
TN Rate که عبارتست از میزان نمونه های منفی واقعی که درست تشخیص داده شده اند:
(12-2)
FN Rate که عبارتست از میزان نمونه های مثبت که به اشتباه منفی تشخیص داده شده اند:
(13-2)
2-19 واسط K-Fold Cross Validation
Cross validation به عنوان یک روش برای اعتبار سنجی مدل آموزش داده شده توسط الگوریتمهای دادهکاوی به کار میرود. آموزش یک مدل از دید علم آمار، یعنی برآورد بهینه پارامترهای نامعلوم موجود در یک مدل به طوری که پارامترهای به دست آمده بهترین برازش را برای دادههای آموزشی ارائه شده داشته باشند [36]. با توجه به اینکه ممکن است دادههای آموزشی نمونه خوبی از مدل واقعی موجود نباشند (به عنوان مثال دادهها نویزی باشند، به درستی در فضای نمونه توزیع نشده باشند یا تعداد دادهها برای یک برآورد خوب کافی نباشد) و یا حتی فضای مدل مورد نظر توانایی مدلسازی مساله را نداشته باشد. در این موارد مدل به دست آمده توسط روشهای دادهکاوی اکثرا دچار بیش برازش میشوند. یعنی مدل آموزش داده شده برای کاهش خطای مدل تا حد امکان، سعی میکند تا جایی که میتواند خود را با دادههای آموزشی تطابق دهد در حالی که برای انجام این کار، در حال دور شدن از مدل واقعی میباشد. برای مثال نمونه زیر را در نظر بگیرید:
نمودار(2-1): تقریب خطی
همانطور که در تصویر بالایی دیده میشود با در نظر گرفتن نویز برای دادهها، میتوان مدل را توسط یک تقریب زننده خطی مدل کرد، این در حالی است که در مدل دوم (که پیچیده تر نیز هست) بر اثر برازش بیش از حد مدل با دادههای آموزشی، نتیجه الگوریتم مدلی پیچیدهتر شده که کارایی مدل اول را نیز نخواهد داشت.
برای جلوگیری از بروز این مشکل و داشتن یک برآورد منطقیتر از خطای تولید شده در مدل، میتوان از روشهای cross validation استفاده کرد. در این روشها مقداری از دادههای موجود از دادههای آموزشی جدا شده و برای آموزش مدل در اختیار الگوریتم قرار نمیگیرند. این دادهها برای تست مدل آموزش داده شده استفاده میشوند و چون در فاز آموزش دخالت داده نشده اند، هیچ گاه بیش برازشی بر روی این دادهها رخ نخواهد داد و به همین دلیل میتوان از این دادهها برای برآورد واقعی تر خطای مدل و همچنین تشخیص وقوع بیش برازش در مدل استفاده نمود [35].