فایل ها درباره : چاپ آخرین فایل.pdf- فایل ۱۴ |
بعد از بدست آوردن وزن شاخص ها، مقادیر استاندارد شده(بیمقیاس شده) را در وزنهای مورد نظر ضرب میکنیم و سپس تحلیل خوشهای را انجام میدهیم.
۴-۳- تعداد بهینه خوشه ها
یکی از ارکان مهم در هر مساًله خوشهبندی آن است که تعداد خوشه را مشخص کنیم. روشهای مختلفی برای تعیین تعداد خوشه ها ارائه شده است که یکی از معتبرترین این روشها، نمودار و ضریب نیمرخ میباشد. به طور کلی،"نمودار نیمرخ"، که بر پایه ماتریس عدم تشابه بنا نهاده شده است، ابزاری برای کیفیت خوشهبندی است(روسیوف، ۱۹۸۷). شاخصی به نام"شاخص نیمرخ” به وسیله روسیوف(۱۹۸۷) ارائه شده است که در زیر مراحل بدست آوردن آن توضیح داده خواهد شد.
ابتدا باید میانگین فاصله هر شی i را از تمام اشیا خوشه خود بدست آوریم که در این صورت آن را با a(i) نشان میدهیم. سپس باید میانگین فاصله همین شی را از تمام اشیا خوشههای دیگر محاسبه کنیم که آن را با b(i) نمایش میدهیم. سپس از طریق فرمول زیر شاخص نیمرخ را برای شی i حساب میکنیم.
-۱≤ S(i) ≤۱
برای اشیا دیگر نیز این روند را انجام میدهیم. هر چقدر s(i) به ۱+ نزدیکتر باشد نشان میدهد که شی i به خوشه خودش نزدیکتر است تا به خوشه همسایهاش; زمانیکه s(i) نزدیک به ۱- باشد به این مفهوم است که فاصله شی i با خوشه خودی زیاد و با خوشه همسایه کم است; زمانی که s(i) نزدیک به صفر باشد روشن نیست که این شی باید در خوشه خودش قرار گیرد یا در خوشه همسایه. سپس متوسط پهنای نیمرخ را که متوسط s(i) همه اشیا است را بدست میآوریم. این شاخص، نشانگر خوبی برای تعیین تعداد خوشه ها است. میتوان تعداد خوشه ها را کم و زیاد کرد، سپس نمودار نیمرخ را رسم و متوسط پهنای نیمرخ را برای هر کدام حساب کرد تا مشخص شود چه تعدادی از خوشه ها بیشترین متوسط پهنای نیمرخ را از آن خود می کند. به بیشترین متوسط پهنای نیمرخ، “ضریب نیمرخ” گفته می شود و آن را با SC نشان می دهیم و از طریق فرمول زیر محاسبه می شود:
k
دامنه SC نیز، [-۱,۱] میباشد، هر چقدر به یک بیشتر باشد، نشان دهنده اعتبار بیشتر خوشهبندی است. در نمودار نیمرخ، s(i) به صورت میلههای افقی نمایش داده می شود که برای هر خوشه به ترتیب نزولی است. نمودار نیمرخ، ابزاری برای سنجش کیفیت یکی از جوابهای خوشهبندی است; که با دیدن این نمودار میتوان تمایزی بین خوشههای به طور کامل مجزا و نه چندان مجزا قائل شد.
با توجه به توضیحات ذکر شده، در این پژوهش برای اینکه تعداد K را بدست آوریم و با توجه به اینکه تعداد داده ها زیاد میباشد، از نرم افزار Matlab برای نشان دادن نمودار نیمرخ و متوسط ضریب نیمرخ استفاده می شود. ابتدا با قرار دادن K=2 خوشهبندی را انجام میدهیم. نمودار نیمرخ و متوسط ضریب نیمرخ توسط نرمافزار به صورت زیر نشان داده می شود.
شکل۴-۴: نمودار و متوسط ضریب نیمرخ به ازای K=2
بدین صورت با قرار دادن Kهای مختلف، نمودار و متوسط ضریب نیمرخ به صورت شکلهای زیر نمایش داده می شود.
شکل ۴-۵: نمودار و متوسط ضریب نیمرخ به ازای ۳=K
شکل ۴-۶: نمودار و متوسط ضریب نیمرخ به ازای ۴=K
شکل ۴-۷: نمودار و متوسط ضریب نیمرخ به ازای ۵=K
همان طور که مشاهده می شود متوسط ضریب نیمرخ ۳ خوشه بهتر از ۲ خوشه میباشد، بنابراین متوسط ضریب نیمرخ را برای ۴ و ۵ خوشه نیز بدست میآوریم. بدین گونه نتیجه گیری می شود، که بعد از ۳ خوشه هر چقدر تعداد خوشه ها را زیادتر کنیم متوسط ضریب نیمرخ کاهش پیدا می کند. بنابراین به این نتیجه میرسیم؛ که در این پژوهش بهترین K برای تعداد خوشه بندی ۳=K میباشد.
۴-۴- تجزیه و تحلیل خوشهای براساس روش K-means
روش K میانگین،کاربردیترین روش خوشهبندی داده ها است. این روش اولین بار توسط(مککویین، ۱۹۶۷) ارائه شد. تعداد خوشه ها در این روش ثابت و از پیش تعیین شده است.
این روش برای خوشهبندی دادههایی طراحی شد که به صورت عددی(کمی) باشند و خوشه دارای مرکزی به نام “میانگین” باشد. در این روش، ایتدا اشیا به صورت تصادفی به K خوشه تقسیم میشوند. در گام بعد، فاصله هر یک از اشیا از مرکز خوشه خود محاسبه می شود. در صورتی که فاصله شی مورد نظر از میانگین خوشه خود زیاد و به خوشه دیگری نزدیکتر باشد، این شی به خوشهای که نزدیکتر است اختصاص مییابد. این کار آنقدر تکرار می شود تا تابع خطا حداقل شود، و یا اعضای خوشه ها تغییر نیابد.
اگر D مجموعه داده ها با n شی باشد، و ۱C، ۲C، … و Ck بیانگر K خوشه مجزای D باشند، در این صورت تابع خطا(EF) که در نحوه محاسبه آن در زیر آمده است، مجموع فواصل هر شی از مرکز خوشه خودش تعریف می شود.
که در آنµ نشان دهنده مرکز(میانگین) خوشه، و d(X, µ(Ci))فاصله هر شی از مرکز خود است. در این نوع ۴ خوشهبندی تابع هدفی وجود دارد که تابع خطا است و ما به دنبال حداقلسازی آن هستیم.
در این نوع خوشهبندی، گامهایی به قرار زیر طی می شود:
گام آغازین: تفکیک داده های اولیه به K خوشه،
گام تکراری: الف) محاسبه فاصله هر شی از مرکز خود،
ب) محاسبه تابع خطا،
گام بهبود: جابجایی عضوی که بیشترین فاصله را با مرکز خوشه خودش دارد، به خوشهای که کمترین فاصله را با آن دارد.
دستور توقف: تغییر نیافتن اعضای خوشه ها یا کاهش نیافتن مقدار تابع خطا.
بعد از بدست آوردن بهترین K (K=3) با توجه به توضیحات بالا، به خوشهبندی داده ها با بهره گرفتن از نرم افزارMatlab به شرح ذیل میپردازیم؛ و دادههایی با ۳۵۳۰ شی را در ۳ خوشه مطابق شکل و جدول ذیل دستهبندی میکنیم.
شکل ۴-۸: وارد کردن داده ها
شکل ۴-۹: خوشه بندی داده ها
جدول ۴-۳: خوشهبندی شرکتها
ردیف | نام شرکت | خوشه | ردیف | نام شرکت | خوشه | ردیف | نام شرکت | خوشه |
۱ |
فرم در حال بارگذاری ...
[یکشنبه 1400-08-02] [ 05:21:00 ق.ظ ]
|