2-9-6 نمایه‌سازی توصیفی
بعضی اوقات هدف از داده کاوی ساده‌سازی توصیف و اینکه در پایگاه داده‌های پیچیده از چه طریقی می‌توان با شناخت افراد، میزان عرضه و تقاضای محصولات را افزایش داد. درخت تصمیم‌گیری ابزار قدرتمندی برای پروفایل نمودن مشتری می‌باشد [28].
2-10 معماری سیستم مبتنی بر داده کاوی
معماری سیستم مبتنی بر داده کاوی از اجزای زیر تشکیل شده است :
پایگاه داده، انباره داده تحلیلی، سایر مخزن‌های اطلاعاتی که شامل یک یا مجموعه‌ای از پایگاه داده، انباره داده‌های تحلیلی، صفحات گسترده است و تکنیک های پالایش و تجمیع روی این داده‌ها انجام می‌گردد. سرویس‌دهنده پایگاه داده یا انبار داده تحلیلی که مسئول واکشی داده‌های مرتبط با درخواست‌های داده کاوی کاربران می‌باشد.
بانک دانش: دامنه دانشی است که به منظور راهنمای تحقیق و یا ارزیابی نتایج جالب‌توجه الگوها مورد استفاده قرار می‌گیرد.
موتور داده کاوی :از اجزای اصلی سیستم های داده کاوی است و مشتمل بر مجموعه‌ای از توابع برای وظایف داده کاوی می‌باشد .
الگوها: دانش به دست آمده در قالب الگوهایی ارائه و توسط توابعی صحت و دقت آن‌ها ارزیابی می‌شود .
واسط کاربر: به عنوان ارتباط‌دهنده‌ی میان کاربر و سیستم داده کاوی می‌باشد و ابزاری است برای بصری سازی الگوهای کاوشی در فرم های متفاوت [28].
شکل (2-1): معماری سیستم مبتنی بر داده کاوی [28].
2-11 روش‌های داده کاوی
اهداف داده کاوی شامل پیش‌بینی و توصیف یا ترکیبی از آن‌هاست. هدف پیش‌بینی تمرکز بر روی دقت در توانایی پیش‌بینی بوده و توصیف بر درک فرآیند تولید داد ه ها تمرکز دارد. در پیش‌بینی تا زمانی که مدل قدرت پیش‌بینی دارد، کاربر توجهی به این ندارد که مدل انعکاس دهنده واقعیت است. به هر ترتیب، اهداف داده کاوی با استفاده از روش‌های داده کاوی، محقق می‌شوند. اصطلاح روش‌های داده کاوی در واقع بیانگر جمع کثیری از الگوریتم‌ها و فنون است که از علومی مانند آمار، یادگیری ماشین، پایگاه داده وتجسم سازی، استنتاج شده‌اند. روش‌های داده کاوی مشهوری که در این پژوهش معرفی خواهند شد شامل شبکه‌های عصبی، درختان تصمیم می‌باشد که در ادامه این روش ها را شرح می دهیم و همچنین دو روش ترکیبی جدید از روشهای گفته شده برای حل مسأله تشخیص کنتور خراب معرفی و بررسی خواهیم کرد.
2-12 درخت تصمیم‌گیری
درخت تصمیم‌گیری از نسل جدید تکنیک های داده کاوی بشمار می‌آید که در دو دهه اخیر توسعه زیادی یافته است. از این تکنیک هم می‌توان برای کشف و استخراج دانش از یک پایگاه داده و هم برای ایجاد مدل های پیش‌بینی استفاده نمود. درخت تصمیم‌گیری یکی از ابزارهای قوی و متداول برای دسته‌بندی و پیش‌بینی می‌باشد که قادر به تولید توصیفات قابل‌درک برای انسان، از روابط موجود در یک مجموعه داده‌ای است. ساختار تصمیم‌گیری می‌تواند به شکل تکنیک های ریاضی و محاسباتی که به توصیف، دسته‌بندی و عام سازی یک مجموعه از داده‌ها کمک می‌کنند نیز معرفی شوند.
درخت تصمیم، شیوه منحصر به فردی از ارائه یک سیستم است، که تصمیم‌گیری‌های آتی را تسهیل و سیستم را به نحو مناسبی تعریف می‌کند. با توجه به اینکه اکثر سیستم های مهندسی، اجرایی و محاسباتی را می‌توان در قالب یک سری داده (ویژگی یا ویژگی‌ها و خروجی منطبق با آن‌ها) تعریف کرد، می‌توان با استفاده از یک الگوریتم، (ایجاد درخت) ویژگی‌ها و خروجی‌ها را آنالیز کرد و سیستم را بر اساس این داده‌ها در قالب یک درخت تصمیم ارائه کرد [29]. درخت تصمیم‌گیری، ساختاری بازگشتی برای بیان یک فرآیند طبقه‌بندی متناوب می‌باشد که به وسیله مجموع‌های از صفات تشریح گردیده و یک وضعیت را به مجموع‌های گسسته از طبقات تخصیص می‌دهد [23].
هر برگ درخت تصمیم‌گیری، نماینده یک طبقه می‌باشد. درخت تصمیم روش کارآمد ویژه‌ای برای ایجاد دسته‌بندی کننده‌ها از داده‌ها است. مهم‌ترین خصوصیت درخت‌های تصمیم، قابلیت آن‌ها در شکستن فرآیند پیچیده تصمیم‌گیری به مجموع‌های از تصمیمات ساده‌تر است که به راحتی قابل تفسیر هستند [31،30].
نواحی تصمیم پیچیده سراسری (خصوصاً در فضاهایی با ابعاد زیاد) می‌توانند با اجتماع نواحی تصمیم محلی ساده‌تر در سطوح مختلف درخت تقریب زده شوند. برخلاف دسته‌بندی کننده‌های تک مرحله‌ای رایج که هر نمونه، روی تمام دسته‌ها امتحان می‌شود، در یک دسته‌بندی کننده درخت، یک نمونه روی زیرمجموعه‌های خاصی از دسته‌ها امتحان شده و محاسبات غیر لازم حذف می‌شوند. در دسته‌بندی کننده تک مرحله‌ای، فقط از زیر مجموعه‌های از صفات، برای روش بین دسته‌ها استفاده می‌شود که معمولاً با یک معیار بهینه سراسری انتخاب می‌شود. در دسته‌بندی کننده درخت، انعطاف‌پذیری انتخاب زیرمجموعه‌های مختلفی از صفات در گروه‌های داخلی مختلف درخت وجود دارد، به شکلی که زیرمجموعه انتخاب‌شده به شکل بهینه بین دسته‌های این گروه را تفکیک می‌کند. این انعطاف‌پذیری ممکن است بهبودی در کارایی را نسبت به دسته‌بندی کننده‌های تک مرحله‌ای ایجاد کند [31،23].
2-13 نقاط قوت درخت تصمیم‌گیری
فهم مدل ایجادشده توسط درخت تصمیم‌گیری آسان می‌باشد. به عبارت دیگر با اینکه ممکن است الگوریتم‌هایی که درخت را ایجاد می‌کنند چندان ساده نباشد ولی فهم نتایج آن آسان می‌باشد [33].
درخت تصمیم‌گیری این توانایی را دارد که پیش‌بینی‌های خود را در قالب یک سری قوانین ارائه دهد.
نیاز به محاسبات خیلی پیچیده‌ای برای دسته‌بندی داده‌ها ندارد.
برای انواع مختلف داده‌ها قابل‌استفاده می‌باشد.