چکیده:
امروزه به دلیل وجود ابزارهای مختلف برای جمع آوری داده ها و پیشرفت قابل قبول تکنولوژی پایگاه داده حجم انبوهی از اطلاعات در انبار داده های مختلف ذخیره شده است. این رشد انفجاری داده ها، احتیاج به یک سری تکنیک ها و ابزارهای جدید که توانایی پردازش هوشمندانه اطلاعات را دارا باشند، نمایان می سازد. با استفاده ار پرسش هاي ساده در SQL و ابزارهاي گوناگون گزارش گیري معمولی، می توان اطلاعاتی را در اختیار کاربران قرار داد تا بتوانند به نتیجه گیري در مورد داده ها و روابط منطقی میان آنها بپردازند اما وقتی که حجم داده ها بالا باشد، کاربران هر چقدر حرفه اي و با تجربه باشند نمی توانند الگوهاي مفید را در میان حجم انبوه داده ها تشخیص دهند و یا اگر قادر به این کار هم باشند، هزینه عملیات از نظر نیروي انسانی و مالی بسیار بالا است.
در حال حاضر داده کاوی در پایگاه داده های بزرگ، توسط بسیاری از محققان به عنوان یک موضوع تحقیقاتی مهم به شمار می آید. محققان در بسیاری از رشته ها نظیر پایگاه داده ها، یادگیری ماشین و آمار این موضوع را پیگیری کرده و تکنیک های مختلفی را در این زمینه ارائه دادند. داده کاوي یکی از مهمترین روشهایی است که به وسیله آن الگوهاي مفید در داده ها با حداقل دخالت کاربران شناخته می شوند و اطلاعاتی را در اختیار کاربران و تحلیل گران قرار می دهند تا براساس آنها تصمیمات مهم و حیاتی در سازمان ها اتخاذ شوند. در داده کاوي از بخشـی به نام تحلیل اکتشــافی داده ها استفاده می شود که در آن بر کشف اطلاعات نهفته و ناشناخته از درون حجم انبوه داده ها تاکید می شود بنابراین می توان گفت در داده کاوي تئوری هاي پایگاه داده ها، هوش مصنوعی، یادگیري ماشین وعلم آمار را در هم می آمیزند تا زمینه کاربردي فراهم شود.
مقدمه
در دو دهه قبل توانایی های فنی بشر برای تولید و جمع آوری داده ها به سرعت افزایش یافت. از زمانیکه رایانه در تحلیل و ذخیره سازی داده ها به کار رفت، حجم داده ها در پایگاه داده ها، هردو سال یک بار دو برابر شد و نسبت به گذشته با سرعت بیشتری در حال افزایش است. با وجود شبکه جهانی وب، سیستم های یکپارچه اطلاعاتی، تجارت الکترونیکی و ... لحظه به لحظه به حجم داده ها در پایگاه داده ها اضافه شده و باعث به وجود آمدن توده ی عظیمی از داده ها شده است. این رشد انفجاری در داده های ذخیره شده نیاز مبرم وجود تکنولوژی های جدید و ابزارهای خودکاری را ایجاد کرده که به صورت هوشمند به انسان یاری رسانند تا این حجم زیاد را به اطلاعات و دانش تبدیل کند. شدت رقابت ها در عرصه های علمی ، اجتماعی ، اقتصادی ، سیاسی و نظامی نیز اهمیت سرعت یا زمان دسترسی به اطلاعات را دو چندان کرده است.
در حال حاضر، داده کاوی مهم ترین فناوری برای بهره وری موثر، صحیح و سریع از داده¬های حجیم است و اهمیت آن رو به فزونی است. داده کاوی فرآیندی پیچیده جهت شناسایی الگوها و مدل¬های صحیح، در حجم وسـیعی از داده ها میباشد. بنابراین بهره گیری از قدرت فرآیند داده¬کاوی، جهت کشف دانش نهفته در داده-ها و نهایتا تبدیل داده¬ها به اطلاعات، روز به روز ضروری تر میشود. داده کاوی را می توان نسل سوم تکنولوژی هایی نامید که با داده سر و کار دارند. در نسل اول یا سنتی فقط پرس وجوهای ساده امکان پذیر بود.در نسل دوم یا همان "پردازش لحظه ای بر خط" امکان پرس و جوهای همزمان چند بعدی فراهم گردید که به صورت لحظه ای و با استفاده از مکعب تصمیم و گزارش ماتریسی پاسخ داده میشود. اما در نسل سوم یا همان داده کاوی فقط مسئله پرس وجو و دریافت گزارشها از داده ها نیست، بلکه از حجم انبوه دادهها الگوهایی کشف میشود که هیچ وقت امکان کشف این الگوها در دو نسل قبل وجود نداشت.
مراحل مختلف استخراج دانش در پایگاه داده ها:
- درک دامنه مسئله
- استخراج یک مجموعه داده
- آماده سازی و پاک سازی
- یکپارچه سازی داده ها
- کاهش و تغییر شکل داده ها
- انتخاب نوع کاوش داده ها
- انتخاب الگوریتم کاوش داده ها
- استفاده از دانش کشف شده
فهرست مطالب:
چکیده
1. مقدمه
1-1. تاريخچه
2. داده کاوی
2-1. مفاهیم اساسی در داده کاوی
2-2. جایگاه داده کاوی
2-3. بعضی از کابردهای داده کاوی
3. مراحل داده کاوی
3-1. مرحله اول شناخت کسب و کار
3-2. مرحله دوم شناخت اطلاعات
3-2-1. جمع آوری داده های اولیه و اصلی
3-2-2. شرح وتوصیف داده ها
3-2-3. کاوش داده ها
3-2-4. تحقیق در مورد کیفیت داده ها
3-3. مرحله سوم آماده سازی داده ها
3-3-1. انتخاب داده ها
3-3-2. تمیز کردن داده ها
3-3-3. تبدیل داده ها
3-3-4. تلفیق داده ها
3-4. مرحله چهارم مدلسازی
3-4-1. استقرار مدل ها
3-5. مرحله پنجم ارزیابی
3-5-1. ارزیابی مدل هاي توصیفی
3-5-2. ارزیابی مدل هاي جهتدار
3-5-3. ارزیابی طبقه بندها و پیشگوها
3-5-4. ارزیابی تخمین گرها
3-6. مرحله ششم پیاده سازی
3-6-1. گسترش برنامه
3-6-2. نگهداری و قوت برنامه
3-6-3. تولیدگزارش نهایی
3-6-4. تجدید نظر و نشریه کردن پروژه
4. استراتژی های داده کاوی
4-1. یادگیری با نظارت یا یادگیری تحت نظارت
4-2. یادگیری بدون نظارت
5. تکنیک¬های داده ک اوی
5-1. طبقه بندی
5-2. خوشه بندی
5-2-1. نقطه تمایز خوشه بندی از دسته بندی
5-3. رگرسیون گیری
5-3-1. رگرسیون منطقی
5-4. تجمع وهمبستگی
5-5. درخت تصمیم گیری
5-5-1. اهداف اصلی درخت های تصمیم گیری دسته بندی کننده
5-5-2. گام¬های لازم برای طراحی یک درخت تصمیم گیری
5-5-3. جذابیت درختان تصمیم
5-5-4. بازنمایی درخت تصمیم
5-5-5. مسائل عملی در یادگیری درختان تصمیم
5-5-6. اورفیتینگ داده ها
5-5-7. انواع روشهای هرس کردن
5-5-8. مزایا و معایب درختان تصمیم
5-6. الگوریتم ژنتیک
5-6-1. مزایا و معایب الگوریتم های ژنتیک
5-7. شبکه های عصبی
5-7-1. شبکه عصبی با یک لایه نهان
5-7-2. مزایا و معایب شبکه های عصبی
5-7-3. کاربردها
5-7-4.معماری شبکه عصبی مصنوعی
6. گام نهایی فرایند داده کاوی
7. تکنولوژی های مرتبط با داده کاوی
7-1. انبارداده
7-1-1. مشخصات ساختاری انبارداده
7-2. OLAP
8. وظايف داده کاوی
8-1. دسته بندي
8-2. خوشه بندي
8-3. تخمین
8-4. وابستگی
8-5. رگرسیون
8-6. پیشگویی
8-7. تحلیل توالی
8-8. تحلیل انحراف
8-9. نمایه سازي
9. محدودیتهای داده کاوی
10. نرم افزارهای داده کاوی
10-1. نرم افزار وکا
10-1-1. قابلیتهای وکا
10-2. نرم افزار JMP
10-2-1. قابلیت های JMP
11. نتیجه گیری
12. منابع
برچسب ها:
پروژه داده کاوی روش های داده کاوی تکنیک های داده کاوی مفاهیم اساسی در داده کاوی طبقه بندهای داده کاوی پیشگوها در داده کاوی یادگیری با نظارت داده کاوی خوشه بندی در داده کاوی رگرسیون گیری در داده کاوی درختان تصمیم داده کاوی شبکه های عصبی داد