امروزه با گسترش سیستم های پایگاهی و حجم بالای داده ها ی ذخیره شده در این سیستم ها، نیاز به ابزاری است تا بتوان داده های ذخیره شده پردازش کرد و اطلاعات حاصل از این پردازش را در اختیار کاربران
قرار داد.
داده کاوی یکی از مهمترین این روشها است که به وسیله آن الگوهای مفید در داده ها با حداقل دخالت کاربران شناخته می شوند و اطلاعاتی را در اختیار کاربران و تحلیل گران قرار می دهند تا براساس آنها تصمیمات مهم و حیاتی در سازمانها اتخاذ شوند.
داده کاوی را می توان یک شاخه از یادگیری ماشین دانست.
به دلیل عدم وجود یک چارچوب تئوریک برای داده کاوی، در نظر گرفتن آن به عنوان زیر مجموعه ای از یادگیری ماشین می تواند مورد بحث قرار گیرد.
تلاشهای اندکی برای توسعه یک چارچوب تئوریک برای داده کاوی انجام گرفته است.
این میزان تلاش کافی نبوده و به نتیجه قابل قبولی نرسیده است.
تفسیر داده کاوی به عنوان زیر مجموعه ای از آمار، چندان قانع کننده نیست: مسائل با فضای حالت دارای ابعاد زیاد مهمترین وجه این تمایزند.
تفسیر داده کاوی به عنوان فرآیندی جهت تخمین تابع توزیع احتمال توأم نمونه ها: تکراری بودن داده کاوی چنین طبقه بندی را رد می کند.
نظریه داده کاوی معادل فشرده سازی، داده کاوی را فرآیندی برای فشرده سازی اطلاعات ورودی، از طریق پیدا کردن یک ساختار مناسب برای آن در نظر می گیرد.