اگر بنا بر دسته بندی کنتورهای خراب در چندین دسته مانند کنتورهای خراب، کنتورهایی با احتمال بالای خرابی، کنتورهایی با احتمال پایین خرابی و… شبکه دارای چندین خروجی خواهد شد.
با استفاده از دادههایی که از شناسایی یکسری محدود دادههای کنتورهای سالم و همچنین یکسری محدود دادههای کنتورهای خراب، شبکه آموزش داده میشود.
اختلافات بوجود آمده بین دادههای یک مشترک در طول زمان و استمرار آن را میتوان دلیل بر خرابی کنتور دانست.
1-7 راهکار ارائه شده
با توجه به حساسیت این شرکت بر روی دادهها قبلا مجوز دسترسی به فیلدهای مربوطه گرفته شده است و منبع دادهها پایگاه داده شرکت ملی گاز کرمانشاه است. الگوریتمهای داده کاوی را از یک دید کلی بر اساس نوع میتوان به 2 گروه تقسیم کرد که عبارتند از دسته بندی و خوشه بندی. دسته بندی شامل بررسی ویژگیهای یک شی جدید و تخصیص آن به یکی ازمجموعههای از قبل تعریف شده میباشد ولی خوشه بندی به عمل تقسیم ناهمگن به تعدادی از زیر مجموعهها یا خوشههای همگن گفته میشود]3[. با توجه به تعاریف، نوع استفاده شده در این پروژه دسته بندی میباشد. با توجه به گسسته بودن اطلاعات روشی مشتمل بر شبکه عصبی و درخت تصمیم برای حل مساله مطرح شده طراحی میشود. با استفاده از پرسشنامه جهت دستیابی به تجارب مسئولین مرتبط با هدف پروژه، معیارهایی برای تعریف کنتور سالم و کنتور خراب از دیدگاه شرکت مشخص خواهد شد. نتیجه این پرسشنامه که ویژگیهای کنتور خراب را از دید مسئولین مشخص خواهد کرد که در تشخیص معیارهای ارزیابی کمک خواهد نمود. با توجه به معیارهای بدست آمده و ترکیب آنها با معیارهای مهندسی شده درمورد ساختار شبکه عصبی تصمیم گرفته خواهد شد و همچنین معیارهای مقایسه در درخت تصمیم مورد نظر بدست میآید. دادههای ارزیابی شده به عنوان مجموعه اعتبارسنجی انتخاب میشود که جدای از دادههای آموزش شبکه میباشد. بعد از آموزش شبکه عصبی و درخت تصمیم نسبت به ارزیابی و اعتبار سنجی آنها با مناسبترین الگوریتم از بین الگوریتمهای نام برده شده در شرح مسأله اقدام خواهد شد. بعد از اتمام طراحی و اعتبار سنجی روش حاصل توسط ابزارهای داده کاوی تست و اجرا میشوند و در صورت بروز مشکل یا احتمال خطا با توجه به تکرارپذیر بودن داده کاوی مراحل گفته شده دوباره تا حصول بهترین نتیجه تکرار خواهند شد. بعد از اتمام کلی و نهایی شدن طراحی، روش حاصله توسط ابزارهای داده کاوی تست و اجرا گشته و در نهایت نتایج جهت کمینه کردن هزینهی پروژهی مذکور در شرکت ملی گاز کرمانشاه به آن شرکت ارائه خواهد گردید.
روند داده کاوی نیز طبق متودلوژی CRISP-DM ]6[ پیش خواهد رفت که در شکل 1 میتوان آن را مشاهده نمود.
شکل 1- مدل فرآیند CRISP-DM برای کاربردهای داده کاوی]6[
با توجه به اینکه داده کاوی یک فرآیند تکرارشونده است این مراحل تا حصول یک نتیجه قابل قبول تکرار خواهند شد.
تکنیکهای داده کاوی را میتوان به منظور ساخت سه نوع مدل، برای سه نوع فعالیت بکار برد که عبارتند از نمایه سازی توصیفی، نمایه سازی هدایت شده و پیش بینی]3[ که پروژه حاضر از نوع نمایه سازی هدایت شده میباشد.
با توجه به استفاده از درخت تصمیم و شبکه عصبی در این پروژه مراحل انجام طراحی برای هر قسمت جداگانه در ادامه توضیح داده خواهد شد.
الگوریتمهای درخت تصمیم در دسته بندی دادههای جدید بهترین عملکرد را ندارد. میتوان اینگونه گفت که درخت، الگوهای کلی را در گرههای بزرگ و الگوهای خاص را در گرههای کوچکتر مییابد. به عبارتی، درخت بر مجموعه آموزشی محاط شده که نتیجه آن یک درخت بیثبات و ناتوان در پیش بینیهای مناسب میباشد. علاج کار، حذف تقسیمات ناپایدار از طریق ادغام برگهای کوچکتر توسط فرآیندی است که هرس کردن نام دارد]10[. برای هرس کردن یکی از الگوریتمهای موجود مانند هرس کارت ]11[، هرس C5 ]11[، هرس ثبات محور ]10[ استفاده خواهد شد.
برای اندازه گیری خلوص ارزیابی تقسیمات در متغیرهای تابع هدف درخت تصمیم با توجه به دستهای یا عددی بودن آن از روشهای رایج مانند جینی ( پراکندگی جمعیت)]12[، آنتروپی (بهره اطلاعاتی)]13[، نسبت بهره اطلاعاتی که بیشترین کارایی را دارد استفاده شده است]10[.
برای طراحی شبکه عصبی در راستای اهداف پروژه مراحل زیر دنبال خواهد شد]10[:
تشخیص مشخصههای ورودی و خروجی
تبدیل ورودیها و خروجیها به نحوی که در یک بازه کوچک قرار گیرند.
ایجاد شبکه با یک ساختار مناسب
آموزش دادن شبکه به کمک مجموعه دادههای آموزشی
استفاده از مجموعه اعتبار سنجی، جهت انتخاب مجموعه اوزانی که خطا را به حداقل میرساند
ارزیابی شبکه با استفاده از مجموعه آزمون به منظور بررسی کیفیت عملکرد آن
به کار گرفتن مدل ساخته شده توسط شبکه جهت پیش بینی نتایج متناظر با ورودیهای نامعلوم
بعد از طراحی شبکه عصبی توسط مراحل گفته شده میتوان به سوالات زیر پاسخ داد:
تابع فعال سازی چیست؟