“گودیچی”، نیز داده کاوی را فرایند انتخاب، اکتشاف ومدل سازی مقادیر زیادی از داده‌ها برای به دست آوردن نتایج روشن و مفید برای پایگاه داده‌ها تعریف می‌کند [18].
اما تعریفی که در اکثر مراجع به اشتراک ذکرشده عبارت است از: “استخراج اطلاعات و دانش و کشف الگوهای پنهان از یک پایگاه داده‌های بسیار بزرگ و پیچیده”[17].
داده کاوی یک متدلوژی بسیار قوی و با پتانسیل بالا می‌باشد که به سازمان‌ها کمک می‌کند که بر روی مهم‌ترین اطلاعات از مخزن داده‌های خود تمرکز نمایند [19].
ابزارهای داده کاوی الگوهای پنهانی را کشف و پیش‌بینی می‌کنند که متخصصان ممکن است به دلیل اینکه این اطلاعات و الگوها خارج از انتظار آن‌ها باشد، آن‌ها را مدنظر قرار ندهند و به آن‌ها دست نیابند [19].
2-3 آیا داده کاوی سودمند است؟
داده کاوی به دو دلیل سودآور است:
داده کاوی منجر به تصمیمات واقع‌بینانه می‌شود.
داده کاوی منجر به تکرار تصمیمات سودآور اتفاق افتاده در گذشته می‌شود.
با استفاده از داده کاوی تصمیمات احساسی کنار گذاشته میشوند و بر اساس واقعیت‌ها تصمیمات گرفته میشوند. بنابراین ضررهای ناشی از ناآگاهی مدیران حذف می‌شود. داده کاوی همچنین فضای سال‌های گذشته‌ی شرکت شما را بازبینی می‌کند و در نهایت نشان می‌دهد کدام تصمیمات منجر به سود شده است درحالی‌که شما از آن تصمیمات اطلاعی ندارید. شرکت‌ها و سازمان‌ها هر لحظه در حال اتخاذ تصمیمات جدیدی هستند که منجر به سود یا زیان آن مجموعه می‌شود. بسیاری از تصمیمات بر اساس واقعیات موجود گرفته نمی‌شود و عواملی چون «فراموشی»، «تخلفات و تقلبات»، «اشکالات خط تولید»، «منافع شخصی» و «سیاست‌های اعمال نفوذ شده از جاهای دیگر» منجر به اتخاذ تصمیمات غیر شفاف و در نتیجه زیانبار می‌شود[20].
اما داده کاوی فضای حاکم بر کسب‌ وکار شما را شفاف می‌کند و شما را ملزم می‌کند واقع‌بینانه تصمیم بگیرید. تصمیم‌گیری واقع‌بینانه کلید از بین بردن تصمیمات احساسی و در نتیجه از بین بردن بهره‌وری پایین و ضررهای ناشی از ناآگاهی است. به طور کلی فضای تصمیم‌گیری در یک کسب‌ و کار شباهت بسیار زیادی به فضاهای تصمیم‌گیری اتفاق افتاده در 10 سال گذشته‌ی آن مجموعه دارد. این شباهت در یاد تصمیم‌گیرندگان آن کسب‌ و کار باقی نمی‌ماند و اغلب آشکار نیز نمی‌شود. داده کاوی فضای سال‌های گذشته‌ی کسب‌ و کار شما را بازخوانی می‌کند و به شما می‌گوید کدام تصمیمات منجر به سود شده است و کدام تصمیمات منجر به زیان کسب‌ و کار شده است. بنابراین داده کاوی باعث می‌شود تصمیمات زیان ده کسب و کارتان در گذشته را تکرار نکنید ولی تصمیمات سودآور اتفاق افتاده در گذشته را دوباره تکرار کنید. به لحاظ فنی، داده کاوی عبارت از فرآیندی است که در میان حوزه‌های گوناگون بانک‌های اطلاعاتی ارتباطی بزرگ، همبستگی‌ها یا الگوهایی را پیدا می‌کند [21].
2-4 آمار و داده کاوی
تلاش برای الگوهای موجود در دادهها مدت زمان طولانی در بسیاری از زمینه ها، از جمله آمار، الگوشناسی ، و تجزیه و تحلیل دادههای اکتشافی مورد مطالعه قرار گرفته شده است]4[. داده کاوی اساساً یک رشته کاربردی است و یک داده کاوی باید از روش‌های آماری درک خوبی داشته باشد. در داده کاوی تلاش می‌شود بین آمار و علوم رایانه‌ای رابطه‌ای برقرار گردد. برقراری این ارتباط به دلیل وجود یک سلسله از فرضیات ضمنی و غیر واضح و دشوار بودن تبدیل مفاهیم نظری به الگوریتم‌های رایانه‌ای در ادبیات آماری و به دلیل وجود الگوریتم‌های فراوان در ادبیات رایانه‌ای دشوار است. لذا داشتن درکی درست از مدل‌سازی و الگوریتم‌های محاسباتی برای کارهای داده کاوی ضروری است.
روابط در داده کاوی غالباً به صورت الگوها و مدلهایی از قبیل معادلات رگرسیونی، سری‌های زمانی، خوشه‌ها، رده‌بندی‌ها، گراف‌ها و غیره ارائه می‌شوند. در داده کاوی نیز همانند آمار غالباً داده‌هایی که تحلیل می‌شوند، نمونه‌ای از جامعه هستند که به تبع بزرگ بودن جامعه با نمونه‌ای حجیم مواجه هستیم. در هنگام کار با مجموعه داده‌های حجیم مشکلات تازه‌ای بروز می‌کند. برخی از این مشکلات به نحوه ذخیره‌سازی یا فراخوانی داده‌ها مربوط می‌شود و برخی دیگر مربوط به مسائلی مانند نحوه تحلیل داده‌ها در زمانی مناسب و استخراج الگوها و مدلهای حاکم بر داده‌ها است [22]. به طور کلی فرآیند کاوش الگوها، مدل ها و روابط مطلوب در یک مجموعه داده شامل مراحل زیر است:
معین ساختن طبیعت و ساختار مورد نظر
تصمیم‌گیری در مورد میزان برازش نمایش‌های متفاوت به داده‌ها، یعنی انتخاب یک تابع امتیاز
اتخاذ یک فرآیند الگوریتمی برای بهینه‌سازی تابع امتیاز
تصمیم‌گیری در مورد اصول مدیریت داده‌ها برای اجرای موثر الگوریتم
با توجه به اینکه مدلها و الگوها، توابع امتیاز، روش‌های بهینه‌سازی و راهکارهای مدیریت داده‌ها چهار مؤلفه اصلی الگوریتم‌های داده کاوی را تشکیل می‌دهند، با توجه به اینکه ماهیت داده‌ها در آمار با داده کاوی متفاوت است، داده کاوی به برخی از روش‌های آماری که دارای ویژگی‌های خاصی می‌باشند توجه بیشتری نشان می‌دهد.
یکی از ویژگی‌های مورد توجه روش‌های آماری در داده کاوی، سادگی تعبیر آن‌ها است. از این رو به استفاده از مدلهای نسبتاً ساده و قابل تعبیر مانند گراف‌ها گرایش زیادی وجود دارد. در داده کاوی مواردی که در آن‌ها با تعداد بسیار زیادی متغیر، مدل و یا فرضیه مواجه هستیم، فراوان است. از طرفی داده کاوی یک فرآیند اکتشافی و تکراری است به این معنی که در خلال تحلیل داده‌ها اطلاعات جدید کشف می‌شوند و فرضیه‌های قبلی اصلاح و فرضیه‌های جدید ارائه می‌شوند و این کار ممکن است با داده‌های زیاد، بارها تکرار شود. لذا از دیدگاه آمار روش‌هایی با کارایی محاسباتی بالا، تحلیل‌های محاسباتی و تحلیل‌های تقریبی، مورد توجه خاص داده کاوی هستند. تاکید بیشتر داده کاوی بر بعضی روش‌های آماری، به معنی عدم استفاده از سایر روش‌های آماری نیست و در عمل از طیف گسترده‌ای از روش‌های آماری برای تحلیل داده‌ها استفاده می‌شود.
آمار و داده کاوی هر دو با روش‌های تحلیل و مدل بندی داده‌ها مرتبط می‌باشند. بنابراین اشتراک زیادی بین این دو رشته وجود دارد. به عنوان یک شوخی، یکی از نویسندگان در پاسخ سؤال اینکه “داده کاوی چیست؟ بیان می‌کند که “همان آمار است، اما با یک نام خیلی بهتر” البته این ویژگی به معنای یکسان دانستن داده کاوی وآنالیزآماری نیست، در جدول زیر این تفاوت‌ها آورده شده است [23،21].
جدول (2-1): مقایسه آنالیز آماری و داده کاوی [22]
آنالیز آماری