ﻧﮕﺎرش ﻣﻘﺎﻟﻪ ﭘﮋوهشی با موضوع خوشهبندی فازی دادهها بر اساس منطق فازی- فایل ۲ |
شکل ۴-۲ کلاسبندی دادههای مربوط به Fourclass با بهره گرفتن از الگوریتم پیشنهادی ……… ۳۱
فهرست جداول
عنوان صفحه
جدول ۲-۱ مقایسه چند روش مختلف فازی ………………………………………………………………………………. ۲۰
جدول ۴-۱ مشخصات دادههای مورد استفاده …………………………………………………………………………… ۲۸
جدول ۴-۲ پارامترهای کرنل ………………………………………………………………………………………………………. ۲۸
جدول ۴-۳ مقایسه الگوریتم پیشنهادی و SVM از نظر زمان ………………………………………………….. ۲۸
جدول ۴-۴ مقایسه الگوریتم پیشنهادی و SVMاز نظر دقت …………………………………………………. ۲۹
جدول ۴-۵ مقایسه الگوریتم پیشنهادی و SVM از نظر تعداد بردار پشتیبان ………………………… ۲۹
فصل اول: مقدمه
خوشهبندی
خوشهبندی داده یکی از رایجترین تکنیکهای دادهکاوی[۱]است.خوشهبندی از جمله روشهای پرکاربرد در تجزیه و تحلیل دادهها است. خوشهبندی فرایند خودکاری است که نمونهها به دسته هایی که اعضای آنها شبیه هم باشد تقسیم میشود که به این دسته ها، خوشه گفته میشود. به بیانی دیگر خوشه مجموعهای از اشیا میباشد که در آن اشیا با یکدیگر مشابه بوده و با اشیا موجود در خوشههای دیگر غیر مشابه میباشند.
خوشهبندی در زمینههای بسیاری از جمله در شناسایی الگو[۲]، یادگیری ماشین، دادهکاوی، بازیابی اطلاعات و انفورماتیک زیستی کاربرد دارد. هدف از انجام خوشهبندی ارائه چشم انداز مناسبی از اتفاقات در حال وقوع در پایگاه دادهها به مصرف کننده نهایی اطلاعات میباشد. کاربرد دیگر خوشهبندی را میتوان در تعیین دادههایی که با سایر دادهها تفاوت چشمگیر دارند عنوان نمود.
در خوشهبندی سعی میشود جمعی از دادهها به صورت بدون ناظر به خوشههایی تقسیم شوند که شباهت دادههای درون هر خوشه حداکثر و شباهت بین دادههای درون خوشههای مختلف حداقل شود [۵,۶].
الگوریتمهای خوشهبندی [۷,۸] اشیای دادهای (طرحها، نهادها، نمونهها، مشاهدهها، واحدها) را داخل تعداد خاصی از خوشهها (گروهها، زیر مجموعهها یا مقالهها) تفکیک میکنند. اوریت[۳] (۲۰۰۱) در مورد خوشهبندی بیان میکند که خوشهبندی مجموعهای از نهادهای مشابه است، ولی نهادهای خوشههای مختلف شبیه هم نیستند.
برای مشابه بودن میتوان معیارهای مختلفی را در نظر گرفت مثلا میتوان معیار فاصله را برای خوشهبندی مورد استفاده قرار داد و اشیایی را که به یکدیگر نزدیکتر هستند را به عنوان یک خوشه در نظر گرفت که به این نوع خوشهبندی خوشهبندی مبتنی بر فاصله نیز گفته میشود.
شکل ۱-۱ : خوشهبندی نمونههای ورودی[۱]
در شکل ۱-۱ هر یک از نمونههای ورودی به یکی از خوشهها تعلق دارد و نمونهای وجود ندارد که متعلق به بیش از یک خوشه باشد. بعنوان یک مثال دیگر شکل ۱-۲ را در نظر بگیرید در این شکل هر یک از دایره های کوچک یک وسیله نقلیه (شیء) را نشان میدهد که با ویژگی های وزن و حداکثر سرعت مشخص شدهاند. هر یک از بیضیها یک خوشه میباشد و عبارت کنار هر بیضی برچسب آن خوشه را نشان میدهد. کل دستگاه مختصات که نمونهها در آن نشان داده شدهاند را فضای ویژگی میگویند.
cluster
شکل ۱-۲ : خوشهبندی وسایل نقلیه [۲]
همانطور که در شکل میبینید وسایل نقلیه به سه خوشه تقسیم شدهاند. برای هر یک از این خوشهها میتوان یک نماینده در نظر گرفت مثلا میتوان میانگین وسایل نقلیه باری را محاسبه کرد و بعنوان نماینده خوشه وسایل نقلیه باری معرفی نمود.در واقع الگوریتمهای خوشهبندی اغلب بدین گونهاند که یک سری نماینده اولیه برای نمونههای ورودی در نظر گرفته میشود و سپس از روی میزان تشابه نمونهها با این نمایندههای مشخص میشود که نمونه به کدام خوشه تعلق دارد و بعد از این مرحله نمایندههای جدید برای هر خوشه محاسبه میشود و دوباره نمونهها با این نمایندهها مقایسه میشوند تا مشخص شود که به کدام خوشه تعلق دارند و این کار آنقدر تکرار میشود تا زمانی که نمایندههای خوشهها تغییری نکنند.
معیارشباهت در خوشهبندی : اگر معیار تشابه در تابع هدف بر اساس فاصله تعریف شود میتوان از تعاریف مختلفی که در مورد فاصله وجود دارد استفاده کرد که در زیر چند نمونه از این توابع آورده شده است.
شکل ۱-۳ : معیارهای تشابه بر اساس توابع فاصله مختلف[۳]
خوشهبندی فازی
خوشهبندی فازی را میتوان بخشی از تحلیل داده فازی دانست که دارای دو بخش است: یکی تحلیل دادههای فازی و دیگری تحلیل دادههای قطعی با بهره گرفتن از تکنیکهای فازی.
خوشهبندی فازی به کشف مدلهای فازی از دادهها میپردازد. ایده بنیادین در خوشهبندی فازی به این ترتیب است که فرض کنیم هر خوشه مجموعهای از عناصر است. سپس با تغییر در تعریف عضویت عناصردر این مجموعه از حالتی که یک عنصر فقط بتواند عضو یک خوشه باشد به حالتی که هر عنصر میتواند با درجه عضویتهای مختلف داخل چندین خوشه قرار بگیرد، دسته بندیهایی که انطباق بیشتری با واقعیت دارند ارائه کنیم.
در خوشهبندی کلاسیک هر نمونهی ورودی متعلق به یک و فقط یک خوشه میباشد و نمیتواند عضو دو خوشه و یا بیشتر باشد و به زبان دیگر خوشهها همپوشانی ندارند. حال حالتی را در نظر بگیرید که میزان تشابه یک نمونه با دو خوشه و یا بیشتر یکسان باشد. در خوشهبندی کلاسیک باید تصمیمگیری شود که این نمونه متعلق به کدام خوشه است. تفاوت اصلی خوشهبندی کلاسیک وخوشهبندی فازی در این است که یک نمونه میتواند متعلق به بیش از یک خوشه باشد[۱]
کاربردهای متعدد خوشهبندی فازی در تحلیل دادهها و تشخیص الگو و نیز زمینه های پژوهشی موجود در این زمینه از جمله استفاده از آن در حل مسائل مسیریابی، تخصیص و زمانبندی نیاز به مطالعه الگوریتمهای موجود و بهبود و اصلاح آنها را آشکارتر می کند[۴].
۱-۲-۱ الگوریتمهای پایهای خوشهبندی فازی
یکی از اولین روش های خوشهبندی فازی که بر مبنای تابع هدف و استفاده از فاصله اقلیدسی بنا شده بود در سال ۱۹۷۴توسط دان ارائه و سپس توسط بزدک تعمیم داده شد. الگوریتم حاصل ابرهای کروی از نقاط را در یک فضای P بعدی شناسایی می کند این خوشهها به طور مفروض تقریباً هم اندازه هستند . هر خوشه با مرکزش نمایش داده می شود. این نحوه نمایش خوشهها،مدل یا نمونه نیز نامیده می شود، زیرا اغلب به عنوان نماینده همه دادههای تخصیص داده شده به خوشه انگاشته می شو د .در انتخاب مرکز خوشه، مقدار میانگین مورد استفاده قرار می گیرد. برای محاسبه مرکز خوشه مجموع درجات عضویت هر عنصر به توان m در خودش به حاصلضرب توان m درجه عضویت ها تقسیم میشود. مشکلی که در ارتباط با این الگوریتم مطرح است این است که الگوریتم نمیتواند خوشههایی با اشکال و اندازه ها و چگال ی های متفاوت شناسایی کند. برای شناسایی اشکال دیگر به جای ماتریس همانی در تعیین فاصله می توان از ماتریس های دیگر بهره جست مانند ماتریس قطری برای تشخیص خوشههای بیضوی . از مزایای این الگوریتم، سهولت آن است که منجر به کاهش زمان محاسباتی می شود. در عمل با تکرارهای کمی میتوان به حلی تقریباً نهایی رسید. پس از آن یانگ یک بررسی اجمالی روی روشهای خوشهبندی فازی انجام داد.
با جایگزین کردن فاصله اقلیدسی با متر دیگری (که توسط یک ماتریس متقارن و معین ایجاد شده است) میتوان به شناسایی خوشههای بیضوی نیز دست یافت.این پیشنهاد توسط گوستافسون و کسل در سال ۱۹۷۹ارائه شد.که الگوریتم خوشهبندی فازی را با بهره گرفتن از ماتریس کوواریانس فازی ارائه نمودند.
در این روش هر خوشه علاوه بر مرکز خوشه توسط یک ماتریس متقارن، معین و مثبت مشخص می شود. این ماتریس برای هر خوشه یک نرم ایجاد می کند. باید این موضوع را هم در نظر گرفت که با انتخاب دلخواه و اختیاری ماتریس ها، فاصله ها می توانند به طور دلخواه کوچک شوند . برای اجتناب از حداقل سازی تابع هدف با ماتریس های با ورودی های تقریباً صفر، نیاز به مقداری ثابت برای خوشهها با ماتریسی با دترمینان یک داریم . بنابراین حالا فقط شکل خوشهها متغیر است نه اندازه هایشان. اما گوستافسون و کسل اشکال متفاوت برای خوشهها را نیز مقدور ساختند بدین ترتیب که یک مقدار ثابت e برای هر ماتریس A معرفی کردند و در حالت کلی باید det(A)=e .اگرچه انتخاب ثابت ها نیز نیاز به یک دانش پیشین در مورد خوشهها دارد. کیفیت نتیجه حاصل از این روش به شدت وابسته به دادههای در دسترس است.اشکال بیضوی حاصل از GK در مورد مثال های یکسان با FCM که اشکال کروی حاصل میشد خوشهبندی بهتری را حاصل می کند البته موضوع تجمع نقاط در مراکز خوشهها در مورد خوشه بندی امکانی باGK نیز به صورت مسئله باقی میماند. اگر دادهها با رویکرد امکان خوشه بندی شوند، فاکتورهای توسعه برای خوشهها میتوانند برای تشخیص اشکال در تصاویر مورد استفاده قرار گیرند موقعیت و جهت را از مرکز خوشه و ماتریس می توان بدست آورد در مقایسه با FCM هزینه های محاسباتی GK بسیار بیشتر است یک روش پیشنهادی مؤثر در کاهش گام های تکرار و افزایش سرعت همگرایی، آغاز الگوریتمGK با نتایج حاصل از یک بار اجرای FCM است .
تلفیق رویکرد امکان درخوشهبندی فازی نخستین بار توسط کیم و کریشناپورام در سال ۱۹۹۳ صورت گرفت. این روش بر معیار وزن η استوار است که در آن از تغییر تابع برازندگی و اضافه شدن وزنهای ورودی برای کاهش تأثیر دادههای دور افتاده بر مراکز خوشهها استفاده شده است.
(۱-۱)
در رابطه (۱-۱)، µ تابع عضویت هر نمونه داده،d فاصله اقلیدسی،n تعداد نمونه داده،m یک عدد حقیقی بزرگتر از یک است[۱۶] . تابع برازندگی این الگوریتم به صورت رابطه (۱-۲) در نظر گرفته شده است.
(۱-۲)
(۱-۳)
در رابطه فوق، c تعداد خوشه نهایی، η وزن هر خوشه طبق رابطه (۱-۲)، J تابع برازندگی (هدف) است.
در الگوریتم C میانگین امکانی با در نظر گرفتن وزن η و با بهره گرفتن از رابطه (۱-۳) تعلق (تابع عضویت) برای هر دادهای، تأثیر دادههای دور افتاده را به مراکز خوشهها به حد کمتری میرساند و مجموع مولفه هر داده، عددی بین ۰و ۱ خواهد شد، در صورتی که در الگوریتم C میانگین فازی مجموع مولفه هر داده یک است.
(۱-۴)
با بهره گرفتن از رابطه (۱-۳) تابع عضویت برای هر داده و رابطه (۱-۴) مراکز خوشه محاسبه میشود. تابع برازندگی الگوریتم C میانگین امکانی مقدار بیشتری نسبت به الگوریتم C میانگین فازی ایجاد میکند. اما در الگوریتم C میانگین امکانی تعداد مراحل پیدا کردن خوشه نهایی افزایش مییابد. اگر در این الگوریتم، خوشه اولیه تصادفی در نظر گرفته نشود و مراکز خوشهها، خوشههای نهایی الگوریتم C میانگین فازی در نظر گرفته شود، بیشتر بودن مقدار تابع برازندگی الگوریتم C میانگین امکانی به وضوح دیده شده است.
پس از آن نیز اصلاحات و بهبودهای بسیاری روی الگوریتمهای ارائه شده صورت گرفتهاند طبق دستهبندی صورت گرفته در این مقاله، الگوریتمهای پایهای در زمینه خوشهبندی فازی محدود به Fuzzy C-Means و Possibilistic C-Means شد که از Hard C-Means که در ادبیات موضوع با عنوان الگوریتم K-Means معرفی شده است استخراج شده اند[۵].
الگوریتم Possibilistic C-Means مشخصه نسبی بودن درجه عضویت احتمالی را بیان می کند.
مشخصه نسبی بودن درجه عضویت احتمالی با وجود مناسب بودن در اکثر مواقع، گاه می تواند ایجاد مشکلاتی نماید[ ۷]. به عنوان نمونه ای از این دسته مشکلات می توان به مورد ذیل اشاره نمود.نقطه از هر دو خوشه به یک فاصله است لذا درجه عضویتش به هر دو خوشه ۵٫ است این منطقی است ولی مشکل وقتی پیش می آید که همان درجه تعلقات به هم داده میشود در حالیکه فاصله این دو نقطه از خوشهها به یک اندازه نیست. دلیل این موضوع نرمال سازی و لزوم برابر یک بودن مجموع درجات عضویت یک نقطه در خوشههای مختلف است. نرمال کردن درجات عضویت می تواند منجر به اثرات نامطلوب در ارائه دادههای پرت و دور از مرکز شود. اگر شرط نرمال سازی را در الگوریتم FCM آزاد کنیم، این اثرات نامطلوب هم کمتر خواهند شد. این رویکرد امکان نام دارد[۸,۹,۱۰] تابع هدف نیز که قبلاً فقط مربع فواصل را حداقل مینمود با رویکرد امکان چندان موافق به نظر نمی رسد. با حذف شرط نرمال سازی با اخذ درجات عضویت صفر برای همه نقاط در هر خوشه ای حداقل تابع هدف حاصل می شود و البته این معقول نیست که همه خوش هها خالی باشند. پس بایستی جریمه ای در نظر گرفته شود تا درجات عضویت از صفر دور شوند[۱۰]
الگوریتم k-means توسط مک کویین[۴] مطرح شد، علی رغم سادگی یک روش پایه برای بسیاری از روشهای خوشهبندی دیگر (مانند خوشهبندی فازی) محسوب میشود. این روش برای مجموعه دادههای بزرگ، معمولاً سریعترین راه خوشهبندی است برای این الگوریتم شکلهای مختلفی بیان شده است. ولی همه آنها دارای روال تکراری هستند که برای تعدادی ثابت از خوشهها سعی در تخمین موارد زیر دارند:
بدست آوردن نقاطی به عنوان مراکز خوشهها، این نقاط در واقع همان میانگین نقاط متعلق به هر خوشه هستند.
فرم در حال بارگذاری ...
[یکشنبه 1400-08-02] [ 04:07:00 ق.ظ ]
|