داده كاوی
داده كاوی فرایندی تحلیلی است كه برای كاوش داده ها ( معمولا حجم عظیمی از داده ها - در زمینه های كسب وكار و بازار) صورت میگیرد و یافتههابابهكارگیری الگوهایی،احراز اعتبار میشوند . هدف اصلی داده كاوی پیش بینی است. فرایند داده كاوی شامل سه مرحله می باشد : 1. كاوش اولیه 2. ساخت مدل یا شناسایی الگو با كمك احراز اعتبار/ تایید و 3. بهره برداری.
مرحله 1 : كاوش. معمولااینمرحله با آماده سازی داده ها صورت می گیرد كه ممكن است شامل پاك سازی داده ها ،تبدیل داده هاوانتخاب زیرمجموعههايي از ركوردهاباحجمعظیمیازمتغييرها( فیلدها ) باشد . سپس با توجهبهماهیتمساله تحلیلی، اینمرحلهبهمدلهاي پیش بیني ساده یا مدلهایآماریوگرافیكی برای شناسایی متغیرهاي مورد نظر و تعیین پیچیدگی مدلها برای استفاده در مرحله بعدی نیاز دارد .

مرحله 2:ساخت و احراز اعتبار مدل. اینمرحلهبه بررسیمدلهاي مختلف و گزینش بهترین مدل با توجه به كارآیی پيشبيني آن می پردازد. شاید این مرحله ساده به نظر برسد، اما اينطورنیست. تكنیكهایمتعددیبرایرسیدنبهاینهدف توسعه یافتند.و " ارزیابی رقابتی مدل ها"نام گرفتند. بدین منظور مدلهای مختلف برای مجموعه دادههای یكسانبهكارمیروندتاكارآییشانباهم مقایسهشود ،سپس مدلی كهبهترین كارآیی راداشته باشد، انتخاب میشود.اینتكنیكها عبارتند از : Bagging,Boosting ,Stacking و Meta-learning.
مرحله 3 : بهره برداری. آخرینمرحلهمدلیراكهدرمرحله قبلانتخابشده است، در دادههایجدیدبه كارمیگیردتا پیشبینیهايخروجیهای مورد انتظاررا تولید نماید.داده كاویبهعنوانابزارمدیریتاطلاعاتبرایتصمیم گیری،عمومیتیافتهاست. اخیرا،توسعه تكنیك های تحلیلی جدید در این زمینه مورد توجه قرار گرفته است (مثلا Classification Trees)،اما هنوز داده كاوی مبتنی بر اصول آماری نظیر(Exploratory Data Analysis (EDA)می باشد.
بااین وجود تفاوت عمده ای بین داده كاوی و EDA وجوددارد.دادهكاویبیشتربهبرنامههایكاربردی گرایش دارد تا ماهیت اصلی پدیده .به عبارتیداده كاوی كمتر با شناسایی روابط بین متغیرها سروكار دارد .
مفاهیم اساسی در داده كاوی
Bagging: این مفهوم برای تركیب رده بندی های پیش بینی شده از چند مدل به كار می رود.فرض كنیدكه قصدداریدمدلی برای رده بندی پیش بيني بسازیدو مجموعه داده های مورد نظرتان كوچك است.شمامی توانید نمونه هایی( با جایگزینی) را از مجموعه داده ها انتخاب و برای نمونه های حاصل ازدرخت رده بندی (مثلا C&RT وCHAID )استفاده نمایید.به طوركلی برای نمونه های مختلف به درخت های متفاوتی خواهید رسید.سپس برای پیش بینی با كمك درخت های متفاوت به دست آمده از نمونه ها ،یك رای گیری ساده انجام دهید.رده بندی نهایی ، رده بندی ایخواهد بود كه درخت های مختلف آنرا پیش بینی كرده اند .
Boosting: این مفهوم برای تولید مدلهای چندگانه (برای پیش بینی یا رده بندی)به كار میرود. Boosting نیزاز روش C&RT یا CHAID استفاده وترتیبی از classifier ها را تولید خواهد كرد .
Meta-Learning : این مفهوم برای تركیب پیش بینیهای حاصل از چند مدل به كار میرود.و هنگامی كه انواع مدلهای موجود در پروژه خیلی متفاوت هستند، كاربرد دارد. فرض كنید كه پروژه داده كاوی شما شامل Tree classifierها نظیر C&RTو CHAID، تحلیل خطی و شبكه های عصبی است.هر یك از كامپیوترها،رده بندی هایی رابرای نمونه هاپیش بینی كرده اند.تجربه نشان میدهدكه تركیب پیش بینی های چند روش دقیق تراز پیش بینی های هریك از روشهاست.پیش بینی های حاصل از چند classifier را می توان به عنوان ورودی meta-linear مورد استفاده قرار داد. meta-linear پیش بینی هارا تركیب می كند تا بهترین رده بندی پیش بینی شده حاصل شود.