3-6-3-1 تولید دادههای آموزشی
تولید دادههای آموزشی یکی از مراحل حساس فرآیند دادهکاوی میباشد چراکه تأثیر مستقیم بر نتیجه این فرآیند دارد. شبکه عصبی و درخت تصمیم بر مبنای دادههای آموزشی ساخته شده و الگوها را کشف خواهند نمود. در این مرحله انتخاب دستهی مناسب از دادهها بسیار حائز اهمیت است چرا که این دسته بایستی توصیف مناسبی از بارکاری مدل را ارائه دهد. از این رو بایستی نمونههای درستی از جامعه آماری موجود جهت تشکیل دادههای آموزشی مدلها انتخاب شود. در این پروژه دادهها شامل 500 رکورد کنتور خراب و 200 رکورد کنتور سالم میباشد. در دادههای آموزشی سعی بر آن شده است که رکوردهای کنتورهای خراب و سالم از تمام بازه سنی موجود کنتورها انتخاب شود که در کشف الگوها و روابط پایگاه داده توسط الگوریتمها صرفا کنتورهای قدیمی خراب و کنتورهای جدیدتر سالم معرفی نگردد. با توجه به شرح گفته شده و اهمیت موضوع این مرحله از زمانبرترین مرحلههای پروژه است.
3-6-3-2 تولید دادههای تست و ارزیابی
این مرحله از تولید داده نیز بسیار حائز اهمیت است چرا که نتایج پروژه بستگی به این دادهها دارد. مدلهای نهایی تولید شده با استفاده از الگوهایی که از دادههای آموزشی کشف کردهاند بر روی این دادهها تصمیم گیری خواهند کرد. در صورت انتخاب مناسب دادههای آموزشی، الگوهای ایجاد شده جهت پیش بینی دادههای ارزیابی کاملا مأثر عمل خواهند کرد. نکته مهم در این بخش کنترل دادهها میباشد. دادههای تولید شده در این مرحله بایستی کاملا کنترل شده باشد. منظور از کنترل دادهها یعنی سعی شود موارد گفته شده در زیر رعایت شود:
دادههای تست باید کاملا متمایز از دادههای آموزشی باشد.
دادههای تست از تمامی دستههای موجود انتخاب شده باشد.
نتایج دادههای تست برای ارزیاب کاملا معلوم باشد
با رعایت نکات فوق، دادههای تست و ارزیابی را 400 داده از کنتورهای خراب و 200 داده از کنتورهای سالم تشکیل دادند. با توجه به اهمیت این قسمت و شرح گفته شده، این بخش از دادهکاوی نیز زمان قابل توجهی را به خود اختصاص میدهد.
3-6-4 ساخت مدل
برای ساخت مدلها از نرم افزار دادهکاوی Rapid Miner استفاده شده است. در این بخش به اجرای مرحله به مرحله تولید مدلها میپردازیم. در این بخش برای تشخیص و پیش بینی کنتور خراب از درخت تصمیم و شبکه عصبی بصورت جداگانه استفاده شده و نهایتا بهترین نتایج باهم ترکیب میشوند و دو روش ترکیبی با دقت قابل قبول ارائه میشوند. در این مرحله برای اندازه گیری خلوص ارزیابی تقسیمات در متغیر تابع هدف درخت تصمیم از سه روش نسبت بهره اطلاعاتی، آنتروپی، پراکندگی جمعیت (جینی)استفاده شده است. ساخت شبکه عصبی نیز در طی تستهای انواع مختلف توپولوژیهای شبکه عصبی صورت گرفته است.
3-6-4-1 افزودن انبارهای داده به نرم افزار
بعنوان انجام اولین گام در نرم افزار Rapid Miner 5، بایستی از منوی انباردادهها، دادههای مورد نظر را وارد نرم افزار نمود. فایل دادهای مورد نظر ممکن است در پسوندهای مختلف باشد که نحوه انتخاب در شکل (4-2) نمایش داده شده است. فایلهای اطلاعاتی پروژه حاضر از نوع صفحه گسترده ایکسل میباشد.
شکل (4-2): نحوه افزودن فایل دادهای به برنامه
سپس مسیر فایل مورد نظر را پیدا کرده و با انتخاب فایل به مرحله بعد میرویم. در این مرحله صفحهای را که شامل دادههای مورد نظر است را از تبهای موجود انتخاب میکنیم. در مرحله بعد میتوان برای سطرها نوع انتخاب کرد. منظور از نوع این است که سطر مورد نظر میتواند رکورد یا عنوان باشد. شکل (4-3) نحوه انتخاب نوع سطر را نشان میدهد.
شکل (4-3): نحوه انتخاب نوع سطر
بعد از انتخاب نوع سطر، انواع دادهای را تعیین میکنیم. سپس نام و آدرس محلی که انبار داده در آن قرار خواهد گرفت را مشخص و انبارداده را به سیستم اضافه میکنیم.
3-6-4-2 درخت تصمیم
برای تشکیل درخت تصمیم از تب عملیات و پنجره پردازش بهره گیری میکنیم. عملگر درخت تصمیم را از زیر شاخه نشان داده شده در شکل (4-4) به پنجره پردازش اضافه میکنیم.
شکل(4-4): آدرس عملگر درخت تصمیم
سپس برای انتخاب فیلد مورد نظر برای پیشبینی از عملگر set Role واقع در آدرس نشان داده شده در شکل (4-5) استفاده میکنیم.
شکل(4-5): آدرس عملگر Set Role
بعد از افزودن عملگرهای ذکر شده نیاز به انتخاب فیلدهایی که در تصمیم گیری مأثر هستند داریم. برای مثال فیلد شناسه هیچ نقشی در خرابی کنتور ندارد و فقط برای شناسایی مشترک میباشد. برای انجام عمل انتخاب فیلدها از عملگر Select Attributes استفاده میکنیم که آدرس آن در شکل (4-6) نشان داده شده است.