داده کاوی
آمار شناسان همیشه با یک فرضیه شروع به کار می‌کنند.
به فرضیه احتیاجی ندارد.
آمار شناسان باید رابطه‌هایی را ایجاد کنند که به فرضیه آن‌ها مربوط شود
الگوریتم‌های داده کاوی در ابزارها به طور اتوماتیک روابط را ایجاد می‌کنند
آن‌ها از داده‌های عددی استفاده می‌کنند.
ابزارهای داده کاوی از انواع مختلف داده و نه فقط عددی می‌توانند استفاده کنند.
آن‌ها می‌توانند داده‌های نابجا و نادرست را در طول آنالیز تشخیص دهند
داده کاوی به داده‌های صحیح و درست طبقه‌بندی شده بستگی دارد.
آن‌ها می‌توانند نتایج کار خود را تفسیر کنند و برای مدیران بیان کنند.
نتایج داده کاوی آسان نیست و همچنان به متخصصان آمار برای تحلیل آن‌ها و بیان آن‌ها به مدیران نیاز است.
2-5 پیچیدگی و هزینه زمانی
تحلیلگران دریافتهاند که پیچیدگی و زمانبر بودن دسترسی به حجم زیاد دادههای مورد نیاز و پردازش آن‌ها توسط بعضی ابزارهای داده کاوی، استفاده از این ابزارها را در هر نقطه از زمان و مکان غیرممکن ساخته است.
وزارت امنیت داخلی ایالات‌متحده آمریکا در آگوست 2006، به 12 تلاش داده کاوی دست زد که یکی از آن‌ها سیستم TVIS بود. این سیستم به منظور ایجاد و بهبود اشتراک دانش از خطرات تروریستی بالقوه، به روشی واحد دادههای زنده تولیدشده به وسیله خلبانان را ترکیب میکرد. نتایج تحلیلها نشانداد که اگرچه این سیستم در یک دوره تناوب دو ساعته کار می‌کند، کاربران قادر به استفاده روزانه از آن نبوده و فقط دو تحلیلگر امکان استفاده همزمان از آن را دارند. این منجر به اتلاف وقت تحلیلگران در زمان جستجو در پایگاه دادههای مضاعف شد. مشکل پیچیدگی و هزینه زمانی بعضی تکنیکهای داده کاوی، موجب کاهش پذیرش استفاده زمان واقعی از این سیستمها توسط افراد و روی آوردن به سیستمهایی با عملکرد ضعیفتر میشود [24].
2-6 محرمانگی دادهها
با وجود تکنیکهای داده کاوی و اشتراک اطلاعات، توجه بسیاری از تحلیلگران به پیادهسازی محرمانگی و امنیت دادهها معطوفشدهاست. بعضی کارشناسان پیشنهاد کرده‌اند که بعضی کاربردهای ضد تروریسمی داده کاوی میتواند برای یافتن الگوهای تبهکارانه و مقابله با انواع جرمها مفید باشد. تا کنون، با وجود دیدگاه‌های متضاد بحث شده، توافق کمی درباره اینکه داده کاوی به چه صورت باید اجرا شود وجود دارد. بعضی مخالف سبک سنگینی برای ایجاد محرمانگی و تأمین امنیت هستند. بعضی ناظران نیز پیشنهاد کرده‌اند که قوانین و مقررات مربوط به حمایت از محرمانگی کافی هستند و هیچ تهدیدی برای محرمانگی وجود ندارد. هنوز ناسازگاریهایی در باب این مسئله وجود دارد که باید برطرفشوند. به موازات پیشرفت‌های داده کاوی، سؤالات متنوعی افزایش مییابند شامل اینکه نهادهای شهری و دولتی تا چه اندازه می‌بایست دادههای تجاری را با دادههای دولتی استفاده و ترکیب کنند، آیا منابع داده به منظورهایی غیر از هدف اصلی طراحی میشوند و کاربردهای ممکن از اعمال محرمانگی چیست؟ [25]
2-7 محدودیت‌های داده کاوی
“گـرچه داده کاوی پیشرفت شگرفی در نوع ابزارهای تحلیلی موجود به وجود آورده است، لکن محدودیت‌هایی نیز درباره کاربردپذیری آن وجود دارد. یکی از محدودیت‌ها این است که ابزارهای داده کاوی هنوز استانداردسازی نشده‌اند و از نظـر تأثیرگذاری اختـلاف فـاحشـی با یکـدیگـر دارنـد. محدودیت دیگر آن است که گــرچــه داده کـاوی می‌تواند بـه آشکـارسـازی انگاره‌ها و رابطه‌ها کمک کند اما نمی‌تواند ارزش یا اهمیت این انگاره‌ها را به کاربر بگوید. بـنــابــرایــن، خــود کــاربـر بـایـد ایـن اطـلاعـات را مشخـص کنـد. محـدودیـت دیگـر این است که گرچه داده کاوی می‌تواند روابط بین رفتارها یا متغیرها را شناسایی کند، اما لزوما نمی‌تواند یک رابطه تصادفی را شناسایی کند”[26].
2-8 مراحل داده کاوی
چرخهی داده کاوی شامل روشها و مراحل مختلفی میباشد که ما در این پروژه از متدولوژی CRIDP-DM استفاده میکنیم. مراحل متدولوژی نام برده به ترتیب زیر است:
درک کسب و کار: در اولین قدم بایستی یک تعریف مناسب از مسأله و فضایی که قرار است پروژه در آن اجرا شود، داشت.
درک دادهها: در دومین قدم بایستی تمامی دادهها جمع آوری شود و مورد بررسی قرار گیرند. در این مرحله دادهها تعریف و یک دید از هرکدام از دادهها ارائه میشود.