یکی از معروفترین روشهای cross validation و البته پرکاربردترین این روشها در داده کاوی، روش K-Fold است که در آن مجموعه دادههای نمونه به k دسته مساوی تقسیم میشوند که داده های این دستهها به صورت تصادفی انتخاب میشوند. سپس در هر مرحله، یکی از این k دسته به عنوان مجموعه اعتبارسنجی و k-1 دسته دیگر به عنوان مجموعه آموزش مورد استفاده قرار میگیرند. در هر یک از k مرحله مدل توسط مجموعه آموزش، آموزش داده شده و خطای آن توسط مجموعه اعتبارسنجی، محاسبه میشود [43].
جدول(2-4): مجموعه اعتبار سنجی
5
4
3
2
K= 1
Train
Train
Train
Train
Validation
پس از تکرار این فرآیند برای هر کدام ازk دسته موجود و محاسبه خطای این k مدل، خطای کلی مدل میتواند توسط میانگین این k خطا، یک برآورد قابل قبول از خطای واقعی مدل باشد.
2-20 قوانین انجمنی
قوانین انجمنی روابط و وابستگی‌های متقابل بین مجموعه بزرگی از اقلام داده‌ای را نشان می‌دهند. چنین قوانینی می‌تواند در حوزه‌های مختلف مورد توجه قرارگرفته و کاربردهای متفاوتی داشته باشد. به عنوان مثال کشف روابط انجمنی بین حجم عظیم تراکنش‌های کسب‌وکار می‌تواند در تشخیص تقلب ، در حوزه پزشکی و همچنین داده کاوی در مورد اطلاعات روش به‌کارگیری وب توسط کاربران و شخصی سازی  مورد استفاده قرار گیرد یا در طراحی کاتالوگ ، بازاریابی و دیگر مراحل فرایند تصمیم‌گیری کسب‌وکار موثر باشد. کاوش قوانین انجمنی یکی از وظایف مهم در داده کاوی، روند یافتن روابطی ما بین خصیصه‌ها یا ما بین مقادیر آن‌ها در یک پایگاه داده بزرگ است که در جهت امر تصمیم‌گیری کمک ساز باشند. یافتن چنین روابطی داخل یک مجموعه وسیعی از داده‌ها به علت ماهیت نمایی آن کار ساده‌ای نیست.
این روابط را می‌توان به صورت عبارات IF-THEN نمایش داد. به شرط بررسی‌شده در قسمت IF ، مقدم و به آنچه که در قسمت THEN می‌آید، نتیجه گفته می‌شود که در آن‌ها را به ترتیب با Aو C نشان می‌دهیم. بنابراین می‌توان یک رابطه را به صورت A→C نشان داد و یک چنین رابطه‌ای که ما بین خصیصه‌های داخل رکورددار یک پایگاه داده با پیروی از ملاک‌های خاصی برقرار باشد قانون انجمنی گوییم.
نوع دیگری از قوانین، که قوانین رده‌بندی نامیده می‌شوند، را نیز می‌توان با ساختار مشابهی نمایش داد ولی کاملاً با قوانین انجمنی متفاوت است. در چنین قوانینی، قسمت نتیجه تنها شامل مقادیری از یک خصیصه از پیش تعیین‌شده به نام رده است، حال آنکه چنین محدودیتی در مورد قوانین انجمنی برقرار نیست یعنی هر خصیصه و هر تعداد خصیصه‌ای می‌تواند در هر دو قسمت قانون داشت.تنها محدودیتی که در مورد قوانین انجمنی باید برقرار باشد این است که دو طرف رابطه دارای خصیصه مشترکی باشد یعنی φ=A∩C[31].
2-21 مرور ادبیات و سوابق مربوطه
در مقاله [32] نویسنده با استفاده از الگوریتم‌های مختلف و ترکیب ویژگی‌های مختلف به پیش‌بینی حمله قلبی هوشمند و موثر با استفاده از داده کاوی پرداخته است . برای پیش‌بینی حمله قلبی، به طور قابل‌توجهی 15 ویژگی‌های ذکر شده است. در نتیجه با استفاده از تکنیک های داده کاوی و پیش‌بینی در همان مجموعه داده نشان می‌دهد که درخت تصمیم‌گیری بهتر از سایر روش‌ها عمل می‌کند و دقت در درخت تصمیم‌گیری و طبقه‌بندی بیزی بعد از اعمال الگوریتم ژنتیک بیشتر شده است.
در مقاله [38] تکنیک های طبقه‌بندی داده کاوی یعنی RIPPER طبقه‌بندی، درخت تصمیم، شبکه‌های عصبی مصنوعی و ماشین بردار پشتیبانی برای پیش‌بینی بیماری‌های قلبی عروقی استفاده می‌شود. عوامل عملکرد مورد استفاده برای مقایسه این تکنیک حساسیت، دقت و صحت، ویژگی، میزان خطا می‌باشد. این مدل با استفاده از ابزار داده کاوی Weka نسخه 6/3 ، توسعه داده شد.در آن 14 ویژگی و 303 نمونه است. از یک آزمایش، نتایج به دست آمده مقایسه شده است. نرخ خطا برای RIPPER، شبکه‌های عصبی مصنوعی، ماشین بردار پشتیبانی و درخت تصمیم‌گیری 2756/0 ، 2248/0 ، 1588/0 و 2755/0بوده است. دقت RIPPER، شبکه‌های عصبی مصنوعی، ماشین بردار پشتیبانی و درخت تصمیم‌گیری، 08/84 ٪، 06/84 ٪، 12/84٪ و 05/79 ٪ بود. نویسنده به این نتیجه رسید که ماشین بردار پشتیبانی بهترین روش برای پیش‌بینی بیماری‌های قلبی عروقی است.
در مقاله [13] نویسنده به بررسی تکنیکهای داده کاوی می‌پردازد که تفاوت این تکنیک ها در میزان خطای آن‌ها بوده است. نویسنده به این نتیجه رسیده است که درخت تصمیم‌گیری از سایر روش‌های به‌کاررفته در پیش‌بینی بیماری قلبی دقیق‌تر عمل می‌کند که دقت این روش در حدود 1/92 بوده است. در این روش شاخص‌های سن، جنس، درد قفسه سینه، فشارخون و سابقه بیمار مورد نظر قرار می‌گیرد.
در مقاله [44] برای پیش‌بینی از تکنیک ساده بیزین استفاده کرده‌اند که زبان پردازش آن نسبت به تکنیکهای درخت تصمیم و شبکه عصبی بیش از حد پایین‌تر است.نویسنده به این نتیجه رسیده است که دقت به دست آمده در روش شبکه‌های عصبی بهتر از سایر روش‌ها بوده است.