3-3-3 تب پردازش
در این بخش عملگرها و انباردادههای مورد نیاز را وارد میکنیم و توسط قسمتهای توضیح داده شده در بخش قبل آنها را به یکدیگر برای تست و اجرا متصل میکنیم. آشنایی به بخش انباردادهها و مخصوصا بخش عملگرها میتواند در این بخش بسیار کمک کننده باشد.
3-3-4 تب پارامترها
در این تب میتوان ریز خصوصیات شئ انتخاب شده را مورد بررسی و مورد تغییر قرار داد. برای مثال میتوان تابع هدف درخت تصمیم را تغییر داد و یا اینکه لایههای پنهان شبکه عصبی را طراحی نمود. در تغییر فاکتورهای مربوط به این بخش باید آگاهانه عمل نمود زیرا تأثیر مستقیم بر نتیجه کار را دارد.
3-3-5 تب مشکلات
در این تب مشکلات اجرا مطرح میشود. یکی از مهمترین تبهای برنامه میباشد که از ویژگیهای آن میتوان به ارائه راه حل مشکلات اشاره نمود.
3-3-6 تب کمک
این تب به معرفی هرچه بهتر شئ انتخاب شده میپردازد. در اکثر موارد ورودی و خروجی و نتیجه شئ را مشخص میکند و شرح مختصر و مفیدی را شامل میشود.
3-3-7 تب توضیحات و تب xml
در این تب توضیحات میتوان توضیحات خاص طراحی پروژه را آورد. در تب xml نیز در صورت آشنایی با این زبان میتوان تغییراتی بنیادی در اشیا بوجود آورد.
3-4 مقدمه
به منظور تشخیص و پیش‌بینی کنتورهای خراب، تحقیق میدانی در اداره گاز استان کرمانشاه انجام شد. در این تحقیق با مراجعه به اداره گاز مرکز استان، اطلاعات مربوط به 242365 مشترک از پایگاه داده مشترکین شرکت مورد بررسی قرار گرفت که شامل فیلدهای شناسه، کدپستی، کد آدرس، فرکانس، تاریخ نصب کنتور، تاریخ درخواست کنتور، نوع مصرف، تعداد سرپرست مشترک در یک کنتور، زیربنای ساختمان، گنجایش کنتور، شرکت سازنده کنتور، میانگین مصرف، ترتیب قبوض صادر شده و بیشترین مصرف مشترک می‌باشد. همچنین دادههای پایگاه داده قبوض شامل 140980 رکورد از 3000 مشترک شامل فیلدهای شناسه، شماره ارقام کنتور، قرائت قبلی، قرائت فعلی، مصرف، تاریخ قرائت قبلی، تاریخ قرائت فعلی میباشد. لازم به ذکر است که 3000 مشترک نام برده از هر فرکانس 1000 مشترک میباشد. جهت تمایز بین کنتورهای خراب و سالم 900 رکورد کنتور خراب شامل فیلدهای شناسه، نوع مصرف، ظرفیت کنتور، تاریخ خرابی، آخرین رقم کنتور را در اختیار گرفتیم که از هر فرکانس 300 رکورد را شامل میشد. این رکوردها بنا به مشکلات امنیتی مطرح شده از سمت شرکت گاز فقط شامل رکوردهای مشترکین خانگی میشود که باعث محدودیت پروژه فقط در بخش مصارف خانگی میشود که باعث افزایش دقت و کاهش خطا در پروژه خواهد بود، چرا که در صورت وجود مصارف صنعتی بایستی این دادهها جداگانه مورد تحلیل قرار میگرفتند. از آنجا که در این شرکت بنا به مشکلاتی نمیتوان کنتورهای قطعا سالم را مشخص نمود با همکاری مسئولین شرکت 400 رکورد کنتور سالم با احتمال قریب به یقین شناسایی شدند که نصف آنها در دادههای آموزشی و نصف دیگر در دادهها تست استفاده شدهاند. کنتورهای مورد بررسی در دو گروه سالم و خراب دسته‌بندی شدند. کنتورهای سالم، کنتورهایی بودند که دارای سن کمتر، مصرف کمتر و منظمتر بودند. کنتورهای خراب، کنتورهایی بودند که گزارش خرابی آنها به شرکت داده شده بود و از پایگاه داده خرابیها استخراج شده بود. نتایج حاصل‌شده با توجه به تجارب مسئولین و با در نظر گرفتن داده‌های واقعی حاصل شده است. با توجه به گسسته بودن اطلاعات درخت تصمیم‌گیری مشکلی در دسته بندی و پیش بینی نخواهد داشت. همچنین با در نظر گرفتن حجم انبوه داده و نوع داده میتوان گفت که شبکه عصبی نیز مشکلی در آموزش و تست و پیش بینی نخواهد داشت. کل روال پروژه بر اساس متدولوژی CRISP-DM پیش خواهد رفت.
3-5 متدولوژی CRISP-DM
متدولوژی CRISP-DM یک فرآیند 6 مرحلهای تکرار شونده جهت داده کاوی است]6[. روند داده کاوی در پروژه حاضر بر اساس اصول و مراحل این متدولوژی پیاده شده است. این فرآیند 6 مرحلهای از درک اولیهی کسب و کار شروع نموده و شامل مراحل درک دادهها، آماده سازی دادهها، ساخت مدل، تست و ارزیابی مدل و ارائه گزارش نهایی میشود. شکل (4-1) راهکار ارائه شده در این متدولوژی را نمایش میدهد.
شکل (4-1): متدولوژی CRISP-DM
3-6 شروع داده کاوی
3-6-1 درک کسب و کار
شرکت ملی گاز بایستی هر 7 سال یکبار جهت شناسایی و تعویض کنتورهای خراب اقدام نماید. با توجه به تعداد زیاد کنتورها و هزینهی بسیار بالای مالی و نیاز به نیروی انسانی در این پروژه جهت تست و تعویض کنتورهای خراب، این پروژه به یک مشکل در این اداره تبدیل شده است. از طرفی امروزه علم داده کاوی در فضاهایی که دادههای کافی موجود باشد میتواند برای تشخیص راهکارهای مدیریتی و پیشبینی، کاربرد داشته باشد. از این رو با در اختیار داشتن منبع دادههای شرکت ملی گاز، سعی شده با استفاده از الگوریتمها و روشهای داده کاوی و ترکیب آنها جهت تحلیل پایگاه داده حجیم شرکت ملی گاز، در هزینههای زمانی و مالی پروژه تعویض کنتور صرفه جویی شود.
3-6-2 درک دادهها
بنا به بررسیهای انجام شده بر روی پایگاه دادهی شرکت ملی گاز و با استفاده از تجارب کارکنان آن شرکت در این زمینه، فیلدهای مأثر در خرابی کنتور شناسایی و مورد تحلیل قرار گرفتند. دادههای انتخاب شده در جدول 3-1 آمده است.
جدول) 3-1(: دادههای مورد استفاده در تشخیص کنتور خراب
عنوان داده