۲- یکپارچه سازی داده ها : ترکیب منابع متعدد، پراکنده و احیاناً ناهمگن داده ها.
۳-انتخاب داده ها : بازیابی داده های مربوط به عمل کاوش از پایگاه دادها.
۴- تبدیل داده ها : تبدیل داده ها به اشکالی مناسب برای به کار بردن روش های مختلف.
پایان نامه - مقاله - پروژه
۵- داده کاوی : مرحله ضروری از فرایند KDD است که در آن از روش های مختلف آماری و یادگیری ماشین برای استخراج الگوها استفاده می شود، که شامل مراحل زیر است:
الف- انتخاب استراتژی داده کاوی : رده بندی، خوشه بندی، پیش بینی، تعیین وابستگی.
ب- انتخاب روش داده کاوی : شبکه های عصبی، درخت تصمیم، ماشین های بردار پشتیبان، تقویت کننده تطبیقی، توابع پیش بینی کننده خطی و غیر خطی.
ج- داده کاوی و جستجو برای یافتن الگوی مناسب.
۶- ارزیابی الگوها شناسایی الگوهای جذاب ارائه دانش، براساس معیارهای جذابیت.
۷- ارائه دانش ارائه دانش استخراج شده با بهره گرفتن از تکنیک های نمایش اطلاعات.
شکل ۳-۱ مراحل داده کاوی: ۱.پاکسازی داده ­ها ۲.یکپارچه سازی داده ­ها ۳.انتخاب داده ­ها ۴. تبدیل داده ­ها ۵.تبدیل داده ­ها[۴۰]
در دیدگاه دیگر، داده کاوی به عنوان مجموعه ای از فرآیندها که از تعریف اهداف تا ارزیابی
نتایج را در بر می گیرد، معرفی شده است. مراحل مختلف داده کاوی عبارتند از:
الف- تعریف اهداف تحلیل
ب- انتخاب و سازماندهی داده ها
پ- تحلیل کاوشگرانه داده ها و انجام تبدیلات
ت- مشخص کردن روش های آماری مورداستفاده در مرحله تحلیل
ج- تحیلی داده ها بر اساس روش انتخابی
چ- ارزیابی و مقایسه روش های مورداستفاده و انتخاب مدل نهایی برای تحلیل
ح- تفسیر مدل حاصل و استفاده از آن در فرایند تصمیم گیری.
پیش پردازش داده ها
کیفیت داده ها در استخراج نتایج مطلوب و اطلاعات حقیقی بسیار موثر هستند. پایگاه داده های بزرگ شامل داده های مزاحم، گمشده و ناایستا هستند. به همین جهت برای ارتقاء کیفیت داده ها، لازم است داده ها به صورت مراحل زیر پیش پردازش شوند:
پاکسازی داده ها
برای انجام یک داده کاوی مطلوب لازم است مقادیر گمشده جایگزین شوند، داده ­های مزاحم شناسایی و به نحو مناسب با آنها برخورد و نا ایستایی ها اصلاح شوند.
الف- مقادیر گمشده: داده هایی هستند که به هر دلیلی در هنگام تحلیل داده ها در اختیار تحلیلگر قرار ندارند. در مورد مقادیر گمشده در داده ها بایستی به گونه ای مناسب تصمیم گیری شود به عنوان مثال ممکن است رکورد مربوطه حذف یا به جای آن یک مقدار ثابت، میانگین مقادیر صفت مورد نظر، میانگین نمونه­های مشابه یا محتمل ترین مقدار جایگزین گردد. این جایگذاری ممکن است با بهره گرفتن از رگرسیون یا سایر روش های مدلسازی انجام شود.
ب- داده های مزاحم: انحرافی تصادفی یا غیرتصادفی در یک متغیر اندازه گیری شده هستند، که به عنوان مثال می توانند نتیجه خطای اندازه گیری یا یک اثر پنهان باشند و باید علت وجود یک داده مزاحم به خوبی بررسی و در مورد آن تصمیم گیری شود. خوشه بندی و برازش یک تابع رگرسیونی به داده ها از جمله راه های هموارسازی داده ها هستند.
ج- داده های ناپایدار: این گونه داده ها شامل تغییراتی بی قاعده هستند که تحلیل آنها را دچار مشکل می سازد. برخی از انواع این داده ها را می توان با تبدیل مناسب اصلاح کرد.
یکپارچه سازی داده ها
با توجه به اینکه داده ­ها از منابع مختلف جمع آوری می شوند، ممکن است دارای ناسازگاری هایی مانند تفاوت در مقیاس باشند یا خصیصه­ های مختلف به گونه ای با یکدیگر مرتبط باشند که برخی از آنها بر حسب تعدادی دیگر قابل حصول باشند. در این گونه موارد لازم است داده ها به گونه ای یکپارچه شوند که حتی الامکان دارای کمترین تفاوت باشند و از ورود خصائص مشابه یا تکراری در تحلیل داده ها پرهیز شود. برخی از خصائص زائد را می توان از طریق تحلیل همبستگی کشف کرد. همبستگی بین دو متغیر به این معنی است که می توان اطلاعات یکی را از دیگری به دست آورد و بنابراین حضور هر دوی این خصیصه ها لزومی ندارد.
تبدیل داده ­ها
گاهی برای خلاصه سازی یا بکارگیری روش های تحلیل داده ها، لازم است به یکی از روش های زیر، داده ها به شکلی مناسب تبدیل شوند:
الف- هموارسازی : برای حذف افت و خیز شدید در داده ها از تکنیک های هموارسازی مانند خوشه بندی و رگرسیون استفاده می شود.
ب-انبوهش: نوعی خالصه سازی است که با عملیات جبری بر روی برخی مقادیر و به دست آوردن مقادیر کلی تر اجرا می شوند. به عنوان مثال مقادیر فروش روزانه می توانند به صورت مقادیر ماهانه یا سالانه انباشته شوند.
ج- تعمیم داده ها :با بهره گرفتن از سلسله مراتب مفاهیم، داده های ابتدایی یا سطح پایین مانند سن بوسیله مفاهیم سطح بالاتر مانند جوان، میانسال و کهنسال جایگزین می شوند.
د- نرمال سازی داده ها :داده ها به یک نحوی مقیاس بندی می شوند که در داخل یک محدوده مشخص و کوچک قرار گیرند.
تلخیص داده ها
برای کاهش داده ­ها از تکنیک هایی مانند کاهش بعد، فشرده سازی و مجزاسازی داده استفاده می شود .
وظایف داده کاوی
داده کاوی با همه عظمت و بزرگی خود که امروزه در تمامی موضوعات جهان ورود پیدا کرده است شامل شش عمل و وظیفه مهم است که میتوان بسیاری از مسائل محیط اطراف خود را در قالب یکی از این شش عمل و وظیفه زیر گنجاند [۵] :
دسته بندی
تخمین
پیش بینی
گروه بندی شباهت
خوشه بندی
توصیف و نمایه سازی
دسته بندی، تخمین و پیش بینی همگی داده کاوی هدایت شده هستند که هدف آنها یافتن ارزش یک متغیر هدف خاص است. گروه بندی شباهت و خوشه بندی جزو داده کاوی غیرهدایت شده هستند که در آن هدف، یافتن ساختار پنهان درون داده ها بدون توجه به یک متغیر هدف خاص است. نمایه سازی، عملی توصیفی است که میتواند هم هدایت شده و هم غیرهدایت شده باشد.
دسته بندی
دسته بندی که یکی از معمولترین کارکردهای داده کاوی است، یکی از واجبات بشر است. ما برای و درجه بندی شناخت و برقراری رابطه درباره دنیا، به طور مداوم دسته بندی، طبقه بندی می کنیم. دسته بندی شامل بررسی ویژگیهای یک شیء جدید و تخصیص آن به یکی از مجموعه های از قبل تعیین شده میباشد. عمل دسته بندی با تعریف درستی از دسته ها و مجموعهای از ویژگی­ها که حاوی موارد از پیش دسته بندی شده هستند، مشخص می گردد. این عمل شامل ساختن مدلی است که بتوان از آن برای دسته بندی کردن داده های دسته بندی نشده، استفاده نمود. اشیایی که باید دسته بندی شوند، معمولاً به وسیله اطلاعاتی در جدول پایگاه داده یا یک فایل ارائه می شوند و عمل دسته بندی شامل افزودن ستون جدیدی با کد دسته بندی خاصی است. از جمله تکنیک تکنیک­های درخت تصمیم و نزدیکترین همسایهای دسته بندی می باشند. شبکه های عصبی و تحلیل پیوند نیز در شرایط خاصی عمل دسته بندی را انجام می دهند.
تخمین
تخمین، با نتایج مجزایی که با ارقام پیوسته نشان داده شده ­اند، سروکار دارد. در تخمین، داده ­های ورودی در قالب متغیرهای ورودی مختلف به سیستم داده می­ شود و متغیرهای خروجی آن رقمی مثل درآمد یا تراز کارت اعتباری می­باشد. در عمل تخمین اغلب برای انجام دسته بندی استفاده می­ شود. روش تخمین فواید زیادی دارد که مهمترین آنها، این است که در آن اطلاعات را می توان مطابق تخمین به دست آمده مرتب نمود. مدل­های رگرسیون و شبکه های عصبی از جمله تکنیک­های مناسب داده کاوی برای تخمین می­باشند.
پیش بینی
پیشبینی مانند دسته بندی یا تخمین است با این تفاوت که اطلاعات، مطابق برخی از رفتارهای پیش بینی شده آینده یا ارقام تخمین زده آینده، دسته بندی می­شوند. در عمل پیش بینی، تنها روش برای بررسی صحت دسته بندی، انتظار دیدن آینده است.هر یک از تکنیک­های استفاده شده در دسته بندی و تخمین را می­توان برای استفاده در پیش بینی تطبیق داد، جایی که متغیری باید پیش بینی شود از قبل معلوم است و داده ­های پیشین برای آن وجود دارد. از داده ­های پیشین برای تهیه یک مدل که بیانگر رفتار مشاهده شده کنونی است استفاده می­ شود؛ وقتی این مدل برای ورودی­های کنونی به کار رفت، نتیجه کار، پیش بینی رفتار آینده خواهد بود. بسیاری از تکنیک های داده کاوی در صورت وجود داده ­های مناسب، برای استفاده در پیش بینی مناسب هستند. انتخاب تکنیک به ماهیت داده های ورودی و نوع متغیری که باید پیش بینی شود بستگی دارد.
گروه بندی شباهت یا قوانین وابستگی
گروه بندی شباهت یا قوانین وابستگی برای تعیین ویژگی های همزمانی هستند که در وقوع یک پدیده رخ می دهند. به عبارت دیگر عمل گروه بندی شباهت احتمال وقوع و یا عدم وقوع همزمان ویژگی­ها را تعیین می نماید. به عبارت ساده تر عمل گروه بندی شباهت تعیین می کند که چه چیزهایی با هم جورند؛ مثال معمول این موضوع تعیین کالاهایی است که با هم در یک سبد خرید قرار می گیرند، چیزی که آن را تحلیل سبد بازار نام دارد. فروشگاه های زنجیرهای خرده فروشی می توانند از گروه بندی شباهت برای تعیین چیدمان کالاها در قفسه های فروشگاه، در یک کاتالوگ و یا صفحه وب فروش اینترنتی استفاده کنند تا اقلامی که اغلب با هم خریده می شوند در کنار هم قرار گیرند. از گروه بندی شباهت می توان برای تعیین شرایط فروش­های متقابل و همزمان و همچنین برای طراحی بسته بندی­های جذاب و یا دسته بندی محصولات و خدمات استفاده کرد .
خوشه بندی
خوشه بندی به عمل تقسیم جمعیت ناهمگن به تعدادی زیرمجموعه ها یا خوشه های همگن گفته میشود. وجه تمایز خوشه بندی از دسته بندی این است که خوشه بندی به دسته­های از پیش تعیین شده تکیه ندارد. در دسته بندی بر اساس یک مدل هر کدام از داده ­ها به دسته­های از پیش تعیین شده اختصاص می­یابد؛ این دسته ها یا از ابتدا در طبیعت وجود داشته اند مثل جنسیت، رنگ پوست و … یا از طریق یافته­های پژوهشهای پیشین تعیین گردیده­اند. در خوشه بندی هیچ دسته از پیش تعیین شده وجود ندارد و داده ­ها صرفاً براساس تشابه گروه­بندی می­شوند و عناوین هر گروه نیز توسط کاربر تعیین می­گردد. خوشه بندی معمولاً به عنوان پیش درآمدی برای به کارگیری سایر تحلیل­های داده کاوی یا مدلسازی به کار می­روند.
نمایه سازی
گاهی اوقات هدف داده کاوی، تنها توصیف آن چیزی است که در یک پایگاه داده­ای پیچیده در جریان است. نتایج نمایه سازی درک ما را از مردم، محصولات یا فرآیندهایی که داده ­ها را در
مرحله اول تولید کرده ­اند افزایش می دهد. توصیف خوب رفتار، اغلب توضیح خوبی هم به همراه دارد؛ یک توصیف خوب حداقل نشان می­دهد چه زمانی می­توان انتظار یک توضیح مناسب را داشت. درخت­های تصمیم ابزار مفیدی برای نمایه سازی می­باشند؛ قوانین وابستگی و خوشه بندی را نیز می توان برای نمایه سازی ها استفاده نمود.

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...