[۸]. Kosala, R., & Blockeel, H. (2000). Web mining research: A survey. ACM Sigkdd Explorations Newsletter۲(۱), ۱-۱۵.
[۹]. Leacock, C., & Chodorow, M. (1998). Combining local context and WordNet similarity for word sense identification. WordNet: An electronic lexical database۴۹(۲), ۲۶۵-۲۸۳.
[۱۰]. Lieberman, H., Van Dyke, N., & Vivacqua, A. (1999). Let’s browse: a collaborative browsing agent. Knowledge-Based Systems۱۲(۸), ۴۲۷-۴۳۱.
[۱۱]. Magnini, B., & Strapparava, C. (2004). User modelling for news web sites with word sense based techniques. User Modeling and User-Adapted Interaction,14(2-3), 239-257.
[۱۲]. Maratea, A., & Petrosino, A. (2009, November). An heuristic approach to page recommendation in web usage mining. In Intelligent Systems Design and Applications, 2009. ISDA’09. Ninth International Conference on (pp. 1043-1048). IEEE.
[۱۳]. Markov, Z., & Larose, D. T. (2007). Data mining the Web: uncovering patterns in Web content, structure, and usage. John Wiley & Sons.
[۱۴]. Masseglia, F., Poncelet, P., & Cicchetti, R. (2000). An efficient algorithm for web usage mining. Networking and Information Systems Journal۲(۵/۶), ۵۷۱-۶۰۴.
[۱۵]. Minio, M., & Tasso, C. (1996, January). User modeling for information filtering on internet services: Exploiting an extended version of the umt shell. In UM96 Workshop on User Modeling for Information Filtering on the WWW (pp. 2-5).
[۱۶]. Miranda, T., Claypool, M., Gokhale, A., Mir, T., Murnikov, P., Netes, D., & Sartin, M. (1999). Combining content-based and collaborative filters in an online newspaper. In In Proceedings of ACM SIGIR Workshop on Recommender Systems.
[۱۷]. Mobasher, B., Cooley, R., & Srivastava, J. (2000). Automatic personalization based on Web usage mining. Communications of the ACM۴۳(۸), ۱۴۲-۱۵۱.
[۱۸]. Mobasher, B., Dai, H., Luo, T., Sun, Y., & Zhu, J. (2000). Integrating web usage and content mining for more effective personalization. In Electronic commerce and web technologies (pp. 165-176). Springer Berlin Heidelberg.
[۱۹]. Nasraoui, O., Frigui, H., Krishnapuram, R., & Joshi, A. (2000). Extracting web user profiles using relational competitive fuzzy clustering. International Journal on Artificial Intelligence Tools۹(۰۴), ۵۰۹-۵۲۶.
[۲۰]. Nina, S. P., Rahman, M., Bhuiyan, K. I., & Ahmed, K. E. U. (2009, November). Pattern discovery of web usage mining. In Computer Technology and Development, 2009. ICCTD’09. International Conference on (Vol. 1, pp. 499-503). IEEE.
[۲۱]. Pamnani, R., & Chawan, P. (2010). Web Usage Mining: A research area in Web mining. Proceedings of ISCET, 73-77.
[۲۲]. Pani, S. K., Panigrahy, L., Sankar, V. H., Ratha, B. K., Mandal, A. K., & Padhi, S. K. (2011). Web usage mining: a survey on pattern extraction from web logs. International Journal of Instrumentation, Control & Automation (IJICA)۱(۱), ۱۵-۲۳.
[۲۳]. Peng, X., Cao, Y., & Niu, Z. (2008, December). Mining Web Access Log for the Personalization Recommendation. In MultiMedia and Information Technology, 2008. MMIT’08. International Conference on (pp. 172-175). IEEE.
[۲۴]. Shinde, S. K., & Kulkarni, U. V. (2008, December). A new approach for on line recommender system in web usage mining. In Advanced Computer Theory and Engineering, 2008. ICACTE’08. International Conference on (pp. 973-977). IEEE.
[۲۵]. Sujatha, N., & Iyakutty, K. (2010). Refinement of Web usage Data Clustering from K-means with Genetic Algorithm. European Journal of Scientific Research۴۲(۳), ۴۷۸-۴۹۰.
[۲۶]. Suryavanshi, B. S., Shiri, N., & Mudur, S. P. (2006, June). Analysis of Fuzzy Clustering Techniques Used for Web Personalization. In Fuzzy Information Processing Society, 2006. NAFIPS 2006. Annual meeting of the North American (pp. 335-340). IEEE.
[۲۷]. Varghese, N. M., & John, J. (2012, October). Cluster optimization for enhanced web usage mining using fuzzy logic. In Information and Communication Technologies (WICT), 2012 World Congress on (pp. 948-952). IEEE.
[۲۸]. Xiao-Gang, W., & Yue, L. (2009, August). Web mining based on user access patterns for web personalization. In Computing, Communication, Control, and Management, 2009. CCCM 2009. ISECS International Colloquium on (Vol. 1, pp. 194-197). IEEE.
[۲۹]. Zhang, Y., Xu, G., & Zhou, X. (2005). A latent usage approach for clustering web transaction and building user profile. In Advanced Data Mining and Applications (pp. 31-42). Springer Berlin Heidelberg.
[۳۰]. Zhao, Q., & Bhowmick, S. S. (2003). Sequential pattern mining: A survey.ITechnical Report CAIS Nayang Technological University Singapore, 1-26.
[۳۱]. بهرنگ مسعودیفر، “ارائه روشهایی برای حل مشکل کاربر جدید در سیستمهای توصیه کننده همکارانه بر مبنای حافظه"، دانشگاه صنعتی امیر کبیر، دانشکده مهندسی کامپیوتر و فناوری اطلاعات، ۱۳۸۵.
پایان نامه - مقاله - پروژه
فصل سوم:
مبانی نظری و روش انجام تحقیق

مقدمه
وب گسترده جهانی به‌عنوان محیط بزرگ برای توزیع اطلاعات است که دارای منابع اطلاعاتی گوناگون است. از اینرو وب یک مجموعه بزرگی از منابع اطلاعاتی ساختیافته و نیمه‌ساخت یافته است که تعداد صفحات آن به سرعت در حال افزایش است. مشکل در سرریز شدن اطلاعات به هنگام انجام جستجویی توسط مرورگر انجام می‌شود. وب، محیطی وسیع، متنوع و پویا است که کاربران متعدد اسناد خود را در آن منتشر می‌کنند. در حال حاضر بیش از دو بیلیون صفحه در وب موجود است و این تعداد با نرخ ۷.۳ میلیون صفحه در روز افزایش می‌یابد. با توجه به حجم وسیع اطلاعات در وب، مدیریت آن با ابزارهای سنتی تقریباً غیر ممکن است و ابزارها و روش‌هایی نو برای مدیریت آن مورد نیاز است. به طور کلی کاربران وب در استفاده از آن با مشکلات زیر روبرو هستند:
یافتن اطلاعات مرتبط
ایجاد دانش جدید با بهره گرفتن از اطلاعات موجود در وب
خصوصی سازی اطلاعات
تکنیک‌های وب کاوی قادر به حل این مشکلات می‌باشند. در (Kosala, & Blockeel, 2000) وب‌کاوی به صورت زیر تعریف شده است:
<<وب کاوی به کارگیری تکنیک های داده کاوی برای کشف و استخراج خودکار اطلاعات از اسناد و سرویس‌های وب می‌باشد>>.
البته تکنیک‌های وب‌کاوی تنها ابزار موجود برای حل این مشکلات نیستند. بلکه تکنیک‌های مختلفی از سایر زمینه‌های تحقیقاتی همچون پایگاه داده‌ها، بازیابی اطلاعات، پردازش زبان طبیعی و غیره قابل استفاده در این زمینه می‌باشند. همچنین تکنیک‌های وب‌کاوی می‌توانند به صورت مستقیم یا غیر مستقیم برای حل این مشکلات به کار روند. منظور از رویکرد مستقیم آن است که کاربرد تکنیک‌های وب‌کاوی به صورت مستقیم مشکلات مطرح شده را حل می کند. یک عامل گروه خبری که مرتبط بودن یک خبر به یک کاربر را تعیین می‌کند، مثالی از این رویکرد می‌باشد. اما در رویکرد غیر مستقیم، تکنیک‌های وب‌کاوی به عنوان بخشی از یک روش جامع‌تر که به حل این مشکلات می پردازد، مورد استفاده قرار می‌گیرند.
مراحل وب کاوی
وب کاوی شامل چهار مرحله اصلی می باشد:
پیدا کردن منبع: این مرحله شامل بازیابی اسناد وب مورد نظر می‌باشد.
انتخاب اطلاعات و پیش‌پردازش: در این مرحله به صورت خودکار اطلاعات خاصی از اسناد بازیابی شده، انتخاب و پیش‌پردازش می‌شوند.
تعمیم : در این مرحله به صورت خودکار الگوهای عام در یک یا چندین سایت وب کشف می‌شود.
تحلیل: در این مرحله الگوهای به دست آمده در مرحله قبل اعتبار سنجی و تفسیر می‌شوند.
در مرحله اول داده‌ها از منابع موجود در وب مانند خبرنامه‌های الکترونیکی، گروه‌های خبری، اسناد HTML، پایگاه داده‌های متنی و غیره بازیابی می‌شوند. مرحله انتخاب و پیش پردازش شامل هر گونه فرایند تبدیل داده‌های بازیابی شده در مرحله قبل می‌باشد. این پیش‌پردازش می‌تواند کاهش کلمات به ریشه آنها، حذف کلمات زائد، پیدا کردن عبارات موجود در متن و تبدیل بازنمایی داده‌ها به قالب رابطه‌ای یا منطق مرتبه اول باشد. در مرحله سوم، از تکنیک‌های داده‌کاوی و یادگیری ماشین برای تعمیم استفاده می‌شود. همچنین باید توجه داشت که کاربران نقش مهمی در فرایند استخراج اطلاعات و دانش از وب ایفا می‌کنند. این نکته به ویژه در مرحله چهارم از اهمیت بسزایی برخوردار است.
به این ترتیب وب کاوی، فرایند کشف اطلاعات و دانش ناشناخته و مفید از داده‌های وب می‌باشد. این فرایند به طور ضمنی شامل فرایند کشف دانش در پایگاه داده‌ها (KDD) نیز می‌شود. در واقع وب‌کاوی گونهی توسعه یافته KDD است که بر روی داده‌های وب عمل می‌کند.
انواع وب‌کاوی
روش‌های وب‌کاوی بر اساس آن که چه نوع داده‌ای را مورد کاوش قرار می‌دهند، به سه دسته تقسیم می‌شوند:
کاوش محتوای وب: کاوش محتوای وب فرایند استخراج اطلاعات مفید از محتوای مستندات وب است. محتوای یک سند وب متناظر با مفاهیمی است که آن سند در صدد انتقال آن به کاربران است. این محتوا می‌تواند شامل متن، تصویر، ویدئو، صدا و یا رکوردهای ساخت یافته مانند لیست‌ها و جداول باشد. در این میان کاوش متن بیش از سایر زمینه‌ها مورد تحقیق قرار گرفته است. از جمله این تحقیقات می‌توان به تشخیص موضوع، استخراج الگوهای ارتباط ، خوشه‌بندی و طبقه‌بندی اسناد وب اشاره کرد. روش‌ها و تکنیک‌های موجود در این گروه، از تکنیک‌های بازیابی اطلاعات و پردازش زبان طبیعی نیز استفاده می‌کنند.
کاوش ساختار وب : وب را می‌توان به صورت گرافی که گره‌های آن اسناد و یال‌های آن پیوندهای بین اسناد است، بازنمایی کرد. کاوش ساختار وب، فرایند استخراج اطلاعات ساختاری از وب می‌باشد.
کاوش استفاده از وب : کاوش استفاده از وب، کاربرد تکنیک‌های داده‌کاوی برای کشف الگوهای استفاده از وب، به منظور درک و برآوردن بهتر نیازهای کاربران می‌باشد. این نوع از وب‌کاوی، داده‌های مربوط به استفاده کاربران از وب را مورد کاوش قرار می‌دهد.
باید توجه داشت که مرز مشخصی میان سه گروه وب کاوی وجود ندارد. به عنوان مثال تکنیک‌های کاوش محتوای وب می‌توانند علاوه بر به کارگیری متن مستندات، از اطلاعات کاربران هم استفاده کنند. همچنین می‌توان از ترکیب تکنیک‌های فوق برای حاصل شدن نتایج بهتر استفاده کرد.
شخصی‌سازی وب
هر اقدامی که اطلاعات یا سرویس‌های فراهم شده توسط یک وب‌سایت را با نیازهای یک کاربر یا گروه خاصی از کاربران با به کارگیری دانش بدست آمده از رفتار گردشی کاربر و علایق خاص او به صورت ترکیب با محتوا و ساختار وب‌سایت سازگار می‌کند، شخصی‌سازی وب نامیده می‌شود (Eirinaki, 2003).
هدف یک سیستم شخصی‌سازی وب عبارت است از فراهم کردن اطلاعات دلخواه یا مورد نیاز کاربران بدون درخواست صریح آن‌ها.
با شخصی‌سازی وب، دسترسی به محتویات از صفحات وب و یا اصلاح محتویات وب، بهتر و با توجه به خواسته هر کاربر می‌تواند انجام شود. این امر ممکن است شامل ایجاد صفحات وب جدید باشد که هر کاربر با درخواست خود می‌تواند اسنادی از وب را بازیابی کند. شخصی‌سازی می‌تواند به‌عنوان نوعی از خوشه‌بندی، دسته‌بندی و یا حتی پیش‌بینی دیده شود. در دسته‌بندی، خواسته‌های کاربر براساس کلاس‌ها تعیین می‌شود. از طریق خوشه‌بندی، خواسته‌های تعیین شده براساس کاربرانی که خواسته‌های مشابه دارند، تعیین می‌شود. در نهایت، پیش‌بینی برای این مورد که کاربران چه چیزی واقعاً می‌خواهند ببینند، به کار می‌رود.
دلایل نیاز به شخصی‌سازی وب
دلایل نیاز به شخصی‌سازی وب را می‌توان بصورت زیر بیان کرد:
گرانبار شدن اطلاعات: وب جهانی منبعی عظیم از اطلاعات را فراهم آورده است. در بررسی‌های گوناگون انجام شده در زمینه‌ی گسترش وب تخمین زده شده است که روزانه بیش از یک میلیون صفحه به وب اضافه می‌شود و بیش از ۶۰۰ گیگابایت از صفحات در هر ماه تغییر می‌کنند (Nasraoui, & et. Al., 2008) و (Achananuparp, & et. al., 2007). این پدیده که گرانبار شدن اطلاعات نامیده می‌شود مشکلاتی را برای کاربران وب بوجود آورده است.از مهم‌ترین این مشکلات عدم دسترسی آسان به اطلاعات مورد نیاز می‌باشد.
نیاز به جذب مشتری پابر‌جای برای وب‌سایت: ظهور سرویس‌های مبتنی بر وب مانند تجارت الکترونیکی، یادگیری تحت وب و بانکداری الکترونیکی موجب تغییرات اساسی در روش استفاده از اینترنت شده است و وب‌سایت ها را به محیطی برای تجارت تبدیل کرده است و موجب افزایش رقابت بین آن‌ها شده است. با وجود رقبایی که تنها یک کلیک از وب‌سایت مورد نظر فاصله دارند نیاز به افزودن خدمات اضافی به سرویس‌های وب به عنوان لازمه‌ی ایجاد مشتری پابرجای به وضوح احساس می‌شود. این خدمات اضافی تنها با تمرکز بر نیازها و علایق فردی مشتریان و فراهم کردن سرویس‌ها و محصولات متناسب با آن‌ها امکان‌پذیر است.

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...