در مقاله [15] نویسنده از دو ویژگی چاقی و سیگار کشیدن برای پیش‌بینی بیماری قلبی استفاده کرده است. در اینجا از سه تکنیک تصمیم‌گیری، قاعده بیزین و شبکه‌های عصبی استفاده شده است.که نتایج به دست آمده با نرم‌افزارهای داده کاوی نشان می‌دهد که شبکه‌های عصبی نتایج دقیق‌تری نسبت به درخت تصمیم‌گیری داشته است.
2-22 خلاصه فصل
اهداف داده کاوی شامل پیش‌بینی و توصیف یا ترکیبی از آن‌هاست. هدف پیش‌بینی تمرکز بر روی دقت در توانایی پیش‌بینی بوده و توصیف بر درک فرآیند تولید داده ها تمرکز دارد. در این فصل با مفاهیم و روش های داده کاوی و خصوصیات آن آشنا شدیم. از بین روش های موجود، روش‌های داده کاوی شبکه‌های عصبی، درخت تصمیم مورد بررسی قرار خواهند گرفت و پیاده سازی های مورد نظر بر روی این الگوریتم ها صورت خواهد گرفت. در نهایت بعد از تست و ارزیابی روشها، روشی ترکیبی از بهترین طراحیها ارائه میشود.
فصل سوم
فرایند داده کاوی، معرفی و ارزیابی الگوریتم ها
3-1 معرفی نرم افزار Rapid Miner 5:
مجموعه‌ای از به‌روزترین الگوریتم‌های یادگیری ماشینی و ابزارهایی برای پیش‌پردازش داده‌ها می‌باشد. با توجه به اینکه کلیه امکانات Rapid Miner در قالب واسطه‌ای کاربری مناسب در اختیار کاربران قرار می‌گیرد. بنابراین کاربران می‌توانند متدهای مختلف را بر روی‌داده‌های خود پیاده‌سازی کرده و بهترین الگوریتم را برای کار انتخاب نمایند.
نرم افزار Rapid Miner یک نرم افزار متن باز میباشد و برای تهیه و استفاده از این نرم افزار نیاز به حق امتیاز یا هیچگونه پرداختی نیست، کد منبع باید در دسترس است و به همین دلیل هیچگونه تبعیض و تمایزی بین اشخاص و گروههای مختلف استفاده کننده وجود ندارد. تنوع الگوریتم های آماده سازی و مدلسازی در این ابزار باعث شده تا بسیاری از پروژه های تحقیقاتی، آکادمیک و همچنین پروژه های اجرایی حداقل بخشی از روند پیاده سازی مدل ها را در این ابزار مورد آزمایش قرار دهند.
3-2 واسط کاربری Rapid Miner 5
نرم‌افزار RapidMiner، پیاده‌سازی الگوریتم‌های مختلف یادگیری را فراهم می‌کند و به آسانی می‌توان آن‌ها را به مجموعه‌های داده خود اعمال کرد. همچنین، این نرم‌افزار شامل مجموعه متنوعی از تمامی روشها و الگوریتم‌های شناخته شدهی داده کاوی می‌باشد. در این محیط بسادگی میتوان یک مجموعه داده را پیش‌پردازش کرد، آن را به یک طرح یادگیری وارد نمود، و دسته‌بندی حاصله و کار آیی‌اش را با روشهای مختلف سنجید و مورد تحلیل قرارداد.
یکی از راه‌های به‌کارگیری RapidMiner ، اعمال یک روش یادگیری به یک مجموعه داده و تحلیل خروجی آن برای شناخت چیزهای بیشتری راجع به آن اطلاعات می‌باشد. راه دیگر استفاده از مدل یادگیری شده برای تولید پیش‌بینی‌هایی در مورد نمونه‌های جدید است. سومین راه، اعمال یادگیرنده‌های مختلف و مقایسه کارآیی آن‌ها به منظور انتخاب یکی از آن‌ها برای تخمین می‌باشد.
در شکل(3-1) صفحه نخست نرم افزار نشان داده شده است که مختصری به شرح تبهای علامت گذاری شده میپردازیم. در تب شماره 1 میتوان انبارهای داده را از برنامههای مختلف با انواع دادهی متنوع را به پروژه افزود. در تب شماره 2 میتوان بسادگی از بسیاری از ابزارهای داده کاوی و مدلسازی و ارزیابی استفاده نمود. در تبهای شماره 3 میتوان به طراحی پروژه پرداخت و در صورت آشنایی با زبان XML، کد نویسی نمود. در تبهای شماره 4 به بررسی پارامترهای شئ انتخاب شده از پنجره پردازش (شماره 3) میپردازند. در تبهای شماره 5 میتوان از کمک برنامه جهت راهنمایی شئ انتخاب شده از پنجره پردازش (شماره 3) استفاده نمود و یا پیغامی جهت مرور در آینده و یا استفاده دیگران در آن قرار داد. یکی از نقاط قوت این برنامه را میتوان قسمت کمک آن دانست. در تبهای شماره 6 میتوان سیاههها و خطاهای برنامه را بررسی کرد. شاید کمتر برنامهای هنگام نمایش خطا راه حل خطا را در مقابل آن اشاره کند که با جفت کلیک کردن بر روی آن بتوان مشکل را بسادگی حل کرد.
شکل(3-1): صفحه نخست نرم افزار Rapid Miner 5
3-3 نحوه کار با Rapid Miner 5
3-3-1 انبارهها
در اولین قدم بایستی انبار داده را از تب انبارهها به سیستم اضافه کنیم. هنگام انجام این کار میتوان برای سطرها ویژگی تعیین کرد، مثلا سطر اول را به عنوام نام ستونها انتخاب نمود.
3-3-2 عملگرها
در مرحله بعد یک به یک ابزارها و الگوریتمهاو روشهای مورد نیاز برای ساخت و طراحی سیستم را از تب عمگر انتخاب و به تب پردازش اضافه میکنیم.
هر شئ معمولا دارای دو خروجی هست که در شکل (3-2) نمایش داده شده است. خروجی اول که با رنگ سبز نمایش داده میشود را میتوان در شکل (3-3) مشاهده نمود. این قسمت جهت خروجی مدلها میباشد. خروجی دوم که با رنگ بنفش کمرنگ نمایش داده میشود نیز در شکل (3-4) قابل مشاهده است. این قسمت برای خروجی اطلاعاتی شئ میباشد که خروجی مذکور شامل 4 قسمت میباشد، بطوری که میتوان بیش از 25 نوع گزارش استخراج نمود.
شکل 3-2: خروجی شیها
شکل 3-3: خروجی قسمت مدل (شبکه عصبی)
شکل 3-4: خروجی قسمت اطلاعات