بعد از بدست آوردن وزن شاخص ­ها، مقادیر استاندارد شده(بی­مقیاس شده) را در وزن­های مورد نظر ضرب می­کنیم و سپس تحلیل خوشه­ای را انجام می­دهیم.
۴-۳- تعداد بهینه خوشه ­ها
یکی از ارکان مهم در هر مساًله خوشه­بندی آن است که تعداد خوشه را مشخص کنیم. روش­های مختلفی برای تعیین تعداد خوشه ­ها ارائه شده است که یکی از معتبرترین این روش­ها، نمودار و ضریب نیمرخ می­باشد. به طور کلی،"نمودار نیمرخ"، که بر پایه ماتریس عدم تشابه بنا نهاده شده است، ابزاری برای کیفیت خوشه­بندی است(روسیوف، ۱۹۸۷). شاخصی به نام"شاخص نیمرخ” به وسیله روسیوف(۱۹۸۷) ارائه شده است که در زیر مراحل بدست آوردن آن توضیح داده خواهد شد.
پایان نامه
ابتدا باید میانگین فاصله هر شی i را از تمام اشیا خوشه خود بدست آوریم که در این صورت آن را با a(i) نشان می­دهیم. سپس باید میانگین فاصله همین شی را از تمام اشیا خوشه­های دیگر محاسبه کنیم که آن را با b(i) نمایش می­دهیم. سپس از طریق فرمول زیر شاخص نیمرخ را برای شی i حساب می­کنیم.
-۱≤ S(i) ≤۱
برای اشیا دیگر نیز این روند را انجام می­دهیم. هر چقدر s(i) به ۱+ نزدیکتر باشد نشان می­دهد که شی i به خوشه خودش نزدیکتر است تا به خوشه همسایه­اش; زمانی­که s(i) نزدیک به ۱- باشد به این مفهوم است که فاصله شی i با خوشه خودی زیاد و با خوشه همسایه کم است; زمانی که s(i) نزدیک به صفر باشد روشن نیست که این شی باید در خوشه خودش قرار گیرد یا در خوشه همسایه. سپس متوسط پهنای نیمرخ را که متوسط s(i) همه اشیا است را بدست می­آوریم. این شاخص، نشانگر خوبی برای تعیین تعداد خوشه ­ها است. می­توان تعداد خوشه ­ها را کم و زیاد کرد، سپس نمودار نیمرخ را رسم و متوسط پهنای نیمرخ را برای هر کدام حساب کرد تا مشخص شود چه تعدادی از خوشه ­ها بیشترین متوسط پهنای نیمرخ را از آن خود می­ کند. به بیشترین متوسط پهنای نیمرخ، “ضریب نیمرخ” گفته می­ شود و آن را با SC نشان می دهیم و از طریق فرمول زیر محاسبه می­ شود:
k
دامنه SC نیز، [-۱,۱] می­باشد، هر چقدر به یک بیشتر باشد، نشان دهنده اعتبار بیشتر خوشه­بندی است. در نمودار نیمرخ، s(i) به صورت میله­های افقی نمایش داده می­ شود که برای هر خوشه به ترتیب نزولی است. نمودار نیمرخ، ابزاری برای سنجش کیفیت یکی از جواب­های خوشه­بندی است; که با دیدن این نمودار می­توان تمایزی بین خوشه­های به طور کامل مجزا و نه چندان مجزا قائل شد.
با توجه به توضیحات ذکر شده، در این پژوهش برای اینکه تعداد K را بدست آوریم و با توجه به اینکه تعداد داده ­ها زیاد می­باشد، از نرم افزار Matlab برای نشان دادن نمودار نیمرخ و متوسط ضریب نیمرخ استفاده می­ شود. ابتدا با قرار دادن K=2 خوشه­بندی را انجام می­دهیم. نمودار نیمرخ و متوسط ضریب نیمرخ توسط نرم­افزار به صورت زیر نشان داده می­ شود.
شکل۴-۴: نمودار و متوسط ضریب نیمرخ به ازای K=2
بدین صورت با قرار دادن K­های مختلف، نمودار و متوسط ضریب نیمرخ به صورت شکل­های زیر نمایش داده می­ شود.
شکل ۴-۵: نمودار و متوسط ضریب نیمرخ به ازای ۳=K
شکل ۴-۶: نمودار و متوسط ضریب نیمرخ به ازای ۴=K
شکل ۴-۷: نمودار و متوسط ضریب نیمرخ به ازای ۵=K
همان طور که مشاهده می­ شود متوسط ضریب نیمرخ ۳ خوشه بهتر از ۲ خوشه می­باشد، بنابراین متوسط ضریب نیمرخ را برای ۴ و ۵ خوشه نیز بدست می­آوریم. بدین گونه نتیجه ­گیری می­ شود، که بعد از ۳ خوشه هر چقدر تعداد خوشه ­ها را زیادتر کنیم متوسط ضریب نیمرخ کاهش پیدا می­ کند. بنابراین به این نتیجه می­رسیم؛ که در این پژوهش بهترین K برای تعداد خوشه بندی ۳=K می­باشد.
۴-۴- تجزیه و تحلیل خوشه­ای براساس روش K-means
روش K میانگین،کاربردی­ترین روش خوشه­بندی داده ­ها است. این روش اولین بار توسط(مک­کویین، ۱۹۶۷) ارائه شد. تعداد خوشه ­ها در این روش ثابت و از پیش تعیین شده است.
این روش برای خوشه­بندی داده­هایی طراحی شد که به صورت عددی(کمی) باشند و خوشه دارای مرکزی به نام “میانگین” باشد. در این روش، ایتدا اشیا به صورت تصادفی به K خوشه تقسیم می­شوند. در گام بعد، فاصله هر یک از اشیا از مرکز خوشه خود محاسبه می­ شود. در صورتی که فاصله شی مورد نظر از میانگین خوشه خود زیاد و به خوشه دیگری نزدیک­تر باشد، این شی به خوشه­ای که نزدیک­تر است اختصاص می­یابد. این کار آنقدر تکرار می­ شود تا تابع خطا حداقل شود، و یا اعضای خوشه ­ها تغییر نیابد.
اگر D مجموعه داده ها با n شی باشد، و ۱C، ۲C، … و Cبیانگر K خوشه مجزای D باشند، در این صورت تابع خطا(EF) که در نحوه محاسبه آن در زیر آمده است، مجموع فواصل هر شی از مرکز خوشه خودش تعریف می­ شود.
که در آنµ نشان دهنده مرکز(میانگین) خوشه، و d­(X, µ(Ci))فاصله هر شی از مرکز خود است. در این نوع ۴ خوشه­بندی تابع هدفی وجود دارد که تابع خطا است و ما به دنبال حداقل­سازی آن هستیم.
در این نوع خوشه­بندی، گام­هایی به قرار زیر طی می­ شود:
گام آغازین: تفکیک داده ­های اولیه به K خوشه،
گام تکراری: الف) محاسبه فاصله هر شی از مرکز خود،
ب) محاسبه تابع خطا،
گام بهبود: جابجایی عضوی که بیشترین فاصله را با مرکز خوشه خودش دارد، به خوشه­ای که کمترین فاصله را با آن دارد.
دستور توقف: تغییر نیافتن اعضای خوشه ­ها یا کاهش نیافتن مقدار تابع خطا.
بعد از بدست آوردن بهترین K (K=3) با توجه به توضیحات بالا، به خوشه­بندی داده ­ها با بهره گرفتن از نرم افزارMatlab به شرح ذیل می­پردازیم؛ و داده­هایی با ۳۵۳۰ شی را در ۳ خوشه مطابق شکل و جدول ذیل دسته­بندی می­کنیم.
شکل ۴-۸: وارد کردن داده ­ها
شکل ۴-۹: خوشه بندی داده ­ها
جدول ۴-۳: خوشه­بندی شرکت­ها

 

ردیف نام شرکت خوشه ردیف نام شرکت خوشه ردیف نام شرکت خوشه
۱
موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...