فهرست شکل ها:
عنوان ……………………………………………………………………………………………. صفحه
شکل 3-1 : فرایند شخصی سازی تبلیغات توسط داده کاوی …………………………………………… 41
شکل 3-2 : قالب کاری سیستم ارائه تبلیغ در سایت ………………………………………………………… 58
شکل 4-1 : قالب داده های مربوط به خوشه شماره یک در WEKA ………………………………. 107
شکل 4-2 : قالب داده های مربوط به خوشه شماره دو در WEKA ………………………………… 110
شکل 4-3 : قالب داده های مربوط به خوشه شماره سه در WEKA ……………………………….. 114
فهرست جدول ها:
عنوان ……………………………………………………………………………………………. صفحه
جدول 2-1 : مثال تراکنش های خرید ………………………………………………………………………………. 26
جدول 2-2 : مثال معیاردهی RFM ………………………………………………………………………………….. 33
جدول 3-1 : مشخصات کالاهای موجود ……………………………………………………………………………. 43
جدول 3-2 : ارزش گذاری معیار Recency …………………………………………………………………….. 46
جدول 3-3 : ارزش گذاری معیار Monetary …………………………………………………………………. 47
جدول 3-4 : مثال نحوه تخصیص RFM ……………………………………………………………………………. 48
جدول 4-1 : رکوردهای خرید مشتریان ……………………………………………………………………………… 63
جدول 4-2 : تخصیص مقادیر RFM ………………………………………………………………………………….. 79
جدول 4-3 : شماره خوشه مشتریان در K-means …………………………………………………………. 83
جدول 4-4 : رکوردهای خرید مشتریان پس از ویرایش …………………………………………………….. 92
جدول 4-5 : نتایج پیشنهادها و عرضه تبلیغات کالاها به مشتریان ……………………………………. 120
فصل اول:
مقدمه و کلیات تحقیق
1-1 مقدمه:
پیشرفت فناوری های اطلاعات و ارتباطات، حجم وسیعی از اطلاعات و داده های مفید را در دسترس قرار داده است.با توجه به رشد روز افزون بازار خرید اینترنتی و رقابت شدید بین شرکت ها و سایت های فروش اینترنتی، استفاده بهینه از اطلاعات بازار و مشتری اهمیت ویژه ای پیدا کرده است.
ایده ها و راه حل های گوناگونی برای استفاده از اطلاعات بدست آمده از بازار و مشتریان جهت جذب مشتری و مهمتر از آن جهت نگهداری مشتریان فعلی پدید می آیند که یکی از این ایده ها، استفاده از اطلاعات مشتری برای بدست آوردن و پیش بینی کردن علایق آن است.فرایندهای زیادی را می توان برای بدست آوردن علایق مشتریان متصور شد، اما یکی از این فرایندها که امروزه با استقبال زیادی از سوی شرکت های تجاری و صاحبان سایت های فروش اینترنتی مواجه شده است، استفاده از تکنیک های داده کاوی1 می باشد.
با استفاده از تکنیک خوشه بندی2 و تکنیک قوانین انجمنی3 که از تکنیک های داده کاوی به شمار می آیند و بر روی داده های مربوط به رفتار خرید پیشین مشتری اعمال می شوند، می توان اطلاعات مفیدی جهت پیش بینی رفتار خرید آتی مشتری کسب نمود.شرکت ها از این اطلاعات استفاده می کنند تا بتوانند کالاهای مورد علاقه مشتریان را در مکان و زمان مناسب به آنها پیشنهاد دهند و بدین ترتیب در جهت سیاست نگهداری و حفظ مشتریان گام بردارند.
1-2 بیان مسئله:
به خاطر بازار رقابتی شدیدی که امروزه در تجارت الکترونیک وجود دارد شرکت های تجاری در تلاش هستند تا شرایط مدیریت ارتباط با مشتری1 را هرچه بیشتر بهبود بخشند تا بتوانند هرچه بیشتر مشتریان فعلی را حفظ کنند و همچنین دیگر مشتریان را هم جذب کنند.
یکی از راه هایی که برای این اهداف شرکت ها و صاحبان کالا مصور است تبلیغ کالاها یا خدماتی است که مشتریان علاقه بیشتری به خرید یا دریافت آنها دارند. بنابراین شرکت ها باید به دنبال این باشند تا تبلیغاتشان بر اساس ترجیحات فردی مشتریان باشد، یعنی تبلیغات را برای هر مشتری شخصی سازی2 کنند.
شرکت های تجاری برای اینکه بتوانند تبلیغات را برای مشتریان خود شخصی سازی کنند نیاز دارند تا اطلاعاتی در مورد علایق این مشتریان بدست آورند. بعضی از آنها برای بدست آوردن این اطلاعات از روش پرسشنامه استفاده می کنند و در ابتدای ارتباط با مشتری پرسش هایی در مورد شخص مشتری از قبیل سن و جنسیت و … از او می پرسند. بعلاوه همچنین ممکن است سوالاتی در مورد علایق خرید مشتری نیز از او پرسیده شود.این روش می تواند برای مشتری آزاردهنده و وقت گیر باشد، از این رو ممکن است مشتری عملیات خرید خود از سایت را متوقف کند.روش دیگری که برای جمع آوری اطلاعات مورد نیاز درباره علایق مشتری وجود دارد استفاده از داده های مورد استفاده پیشین کاربر از وب1 می باشد که با استفاده از این داده ها و بررسی آنها شرکت ها می توانند اطلاعاتی در مورد رفتار خرید کاربران بدست آورند.
داده کاوی ابزاری است که به شرکت ها کمک می کند تا ترجیحات و علایق فردی کاربران و مشتریان را بر اساس داده های به جای گذاشته شده از آنها استخراج کنند و بر این اساس استراتژی های بازاریابی خود را برقرار کنند و به شخصی سازی تبلیغات بپردازند. شرکت ها با استفاده از ابزارهای داده کاوی ابتدا داده های مورد نیاز برای کاوش رفتار خرید مشتری را آماده می کنند و با استفاده از الگوریتم های متعدد خوشه بندی می توانند مشتریان خود را بخش بندی کنند.بعد از آن می توانند با استفاده از الگوریتم های کاوش قوانین وابستگی، قوانینی برای پیش بینی رفتار خرید آتی مشتری بدست آورند و با استفاده از این قوانین، راهبردها و روش های شخصی سازی تبلیغات برای مشتری را مشخص کنند.
ما درصدد هستیم تا با استفاده از تکنیک های داده کاوی، مشتریان را بر اساس ارزش آنها که از رفتار خرید گذشته آنها بدست می آید دسته بندی و گروه بندی کنیم و علایق و رفتار خرید آینده هر دسته از این گروه ها را پیش بینی و مشخص کنیم تا با استفاده از این بتوانیم تبلیغات کالا را برای هر مشتری شخصی سازی کنیم.
1-3 هدف تحقیق:
در تحقیقاتی که تا به حال انجام گرفته با خوشه بندی مشتریان را به گروه هایی تقسیم می کنند و بر روی هر یک از این گروه ها تکنیک قوانین انجمنی را بکار می برند تا رفتار خرید آینده هر مشتری را پیش بینی کنند.برخی از این تحقیقات از الگوریتم k-means برای خوشه بندی مشتریان استفاده کردند و برخی دیگر به دلیل اشکالاتی که در این الگوریتم وجود دارد از الگوریتم هایی دیگر یا بهبودی از این الگوریتم استفاده کردند.
هدف از این تحقیق مشخص کردن ارزش مشتریان برای شرکت ها بر اساس رفتارهای خرید آنان، شخصی سازی تبلیغات اینترنتی برای مشتریان و ارائه حداکثری تبلیغات اینترنتی مطابق با علایق هر مشتری می باشد.برای این منظور از خوشه بندی موازی مشتریان توسط دو الگوریتم k-means و k-harmonic means و بکار گیری الگوریتم استقرایی1 روی هر یک از خوشه های حاصل شده از خوشه بندی k-means استفاده شده است. و بعد از آن از نتایج بدست آمده از بکارگیری الگوریتم استقرایی برای هر یک از مشتریان، با توجه به درجه تعلق آنها به هر خوشه ( که توسط الگوریتم k-harmonic means مشخص شده است ) برای شخصی سازی تبلیغات برای آنان استفاده می شود.
قوانین وابستگی یا انجمنی استخراج شده از هر خوشه برای هر مشتری که درجه عضویت حداقلی مشخص شده از قبل را برای آن خوشه دارد معتبر در نظر گرفته می شود.بنابر این قوانین وابستگی برای یک مشتری تنها به قوانین استخراج شده از خوشه ای که مشتری بیشترین درجه تعلق به آن را دارد محدود نمی شود.با توجه به احتمال تداخل قوانین بین خوشه ها برای مشتری، اولویت با قوانین خوشه ای است که مشتری درجه عضویت بالاتری را برای آن دارد.
بدین ترتیب با افزایش قوانین استخراج شده معتبر مربوط به هر مشتری می توان انتظار داشت که راهبردهای بیشتری برای شخصی سازی تبلیغات برای مشتری بوجود بیاید.این بدین معنا است که می توان کالاهای بیشتری را بر اساس علایق کاربر به او پیشنهاد کرد.
1-4 اهمیت تحقیق:
امروزه کاربران و مشتریان در محیط اینترنت ترجیح می دهند تا کالاها یا خدماتی که به آنها پیشنهاد می شود بر اساس ترجیحات و علایق شخصی آنها باشد.در اغلب تحقیقاتی که در زمینه شخصی سازی تبلیغات اینترنتی برای مشتریان با استفاده از تکنیک های داده کاوی صورت گرفته است، هر مشتری فقط به یک خوشه تعلق پیدا می کند و در نتیجه تنها پیشنهاداتی به او عرضه می شود که در نتیجه بکار بردن تکنیک قوانین انجمنی تنها بر روی همان خوشه ای که به آن تعلق داشته، بدست آمده اند.
تحقیق ما از این نظر نسبت به دیگر تحقیقات از اهمیت بیشتری برخوردار است که هر مشتری تنها به یک خوشه تعلق پیدا نمی کند و قوانین با احتمال زیاد خوشه های دیگر که این مشتری درجه تعلق حداقلی از قبل مشخصی را نسبت به آنها دارد، برای مشتری بکار گرفته می شود. اهمیت و ارزش این کار در این است که نسبت به روش های قبلی می توان پیشنهادات بیشتری بر حسب علایق مشتری به او عرضه کرد.
بطور معمول اگر برای رفتار خرید فعلی مشتری قانون خاصی از قبل استخراج نشده و راهبردی وجود نداشته باشد، یا کالایی به او پیشنهاد نمی شود یا به صورت تصادفی یک کالا به مشتری پیشنهاد می شود. اما اگر قانونی مربوط به یک خوشه دیگر که مشتری درجه تعلق معتبری ( یک درجه تعلق حداقلی از قبل مشخص شده ) نسبت به آن داشته باشد موجود باشد آنگاه می توان پیشنهاد یک کالای مربوط به رفتار خرید فعلی مشتری به او عرضه کرد. هرچند تخصیص درجه تعلق برای هر خوشه به مشتری، توسط الگوریتم معروف Fuzzy C-Means نیز انجام می شود، اما به علت مشکل مهمی که در این الگوریتم وجود دارد که همان حساس بودن به مقدار دهی اولیه مراکز خوشه و در دام مینیمم محلی1 قرار گرفتن است، استفاده از الگوریتم K-Harmonic Means که این مشکل برای آن وجود ندارد را ترجیح داده ام.
1-5 ساختار تحقیق:
ساختار این پایان نامه در فصول بعدی به شرح زیر است:
در فصل دوم، ابتدا برای آشنایی بیشتر با حوزه تحقیق به تعریف و تشریح مدیریت ارتباط با مشتری و تبلیغات اینترنتی و همچنین به تعریف و بررسی داده کاوی و تعریف دو تکنیک مهم آن که در این تحقیق مورد استفاده قرار گرفته است یعنی خوشه بندی و قوانین وابستگی می پردازیم.همچنین شیوه تاخر، تناوب و مالی2 که یک شیوه برای تعیین ارزش و ارزش دهی به مشتری می باشد را تعریف کرده ایم.در انتهای این فصل یک پیشینه تحقیقاتی در مورد حوزه تحقیق آورده شده است.
در فصل سوم شیوه و روش کار و تحقیق این پایان نامه ذکر شده است.فصل چهارم به شرح پیاده سازی و اجرای این کارمی پردازد و در نهایت در فصل پنجم به بررسی نتایج می پردازیم و پیشنهادهایی برای کار آینده ارائه می شود.
فصل دوم:
پیشینه و تعریف مفاهیم تحقیق

2-1 مبانی نظری:
2-1-1 مدیریت ارتباط با مشتری:
2-1-1-1 تعریف مدیریت ارتباط با مشتری:
اگرچه یک تعریف جامع برای مدیریت ارتباط با مشتری وجود ندارد و دارای تعاریف مختلفی در ادبیات مختلف می باشد اما در یک تعریف کلی مدیریت ارتباط با مشتری شامل یک مجموعه از فرایندها و سیستم های توانمند است که از یک راهبرد تجاری برای برقراری روابطی بلند مدت و سودمند با مشتریانی خاص پشتیبانی می کنند[1].
این موضوع بطور کلی از دیدگاه هایی مختلف، به عنوان یک فرایند، راهبرد، فلسفه، قابلیت یا تکنولوژی مطرح گردیده است[2]. همچنین به عنوان یک فلسفه تجاری بیان شده است که از تکنولوژی اطلاعات برای شناسایی صلاحیت های مختلف مشتریان استفاده می کند تا برترین ارزش را به مشتری ارائه دهند[3].
مدیریت ارتباط با مشتری قسمتی از راهبرد یک سازمان برای شناسایی مشتریان و راضی نگهداشتن آنها و تبدیلشان به مشتری دائمی است [4,5].مجموعه ای از متدولوژی ها، فرایندها، نرم افزارها وسیستم هایی است که به سازمانها و شرکتها جهت داشتن یک رابطه مدیریتی سیستماتیک و موثر با مشتریان کمک می کنند[4,6]، شامل زیر نظر داشتن مشتریان ( مانند جمع آوری داده های مناسب مربوط به آنها )، مدیریت و ارزیابی داده، و سرانجام ایجاد یک سود واقعی از اطلاعات استخراجی مرتبط با مشتریان می شود[4,7].بطور کل مجموعه ای از راهبرد های تجاری و بازاریابی است که فعالیت های تجاری را حول مشتری پیاده سازی می کند[4,8]. بر همین اساس، یکی از این راهبردها جمع آوری نیازها و رفتارهای تجاری مشتریان است تا مدیریت بتواند روابط قوی تری را با آنها ایجاد کند، چرا که از مهمترین رموز موفقیت در هر تجارتی داشتن رابطه قوی با مشتریان است[10].
مدیریت ارتباط با مشتری فرایندی است که به سازمان ها و صاحبان تجارت کمک می کند تا اطلاعات گوناگونی از مشتریان، اثرگذاری فعالیت های بازاریابی، فروش، سرعت پاسخ گویی به مشتری و نیازها و تمایلات بازار را به طور یکجا جمع آوری کنند[11].

می توان سه هدف عمده را برای مدیریت ارتباط با مشتری بر شمرد:
1- افزایش درامد از طریق شناسایی فرصت های جدید، کاهش از دست رفتن فرصت ها و کاهش فرار مشتریان.
2- ایجاد وفاداری در مشتری از طریق بهبود خدمات به مشتریان و بهبود جلوه سازمان.
3- کاهش هزینه از طریق ذخیره اطلاعات سازمان و کاهش دوباره کاری های بازاریابی[9]
راه کارهای مدیریت ارتباط با مشتری به مشتریان امکان می دهند تا خدمات مورد نظرشان را از طریق کانال های متعدد ارتباطی در یافت کنند.برای نمونه، شاید شما بتوانید موجودی بانکی تان را از طریق تلفن بدون گفتگو با مسئول مربوطه بررسی کنید، بدین ترتیب هم در پول و هم در زمان صرفه جویی کرده اید[12].
با توجه به تحقیقاتی که در زمینه ویژگی های مدیریت ارتباط با مشتری انجام گرفته، برخی از ویژگی های کابردی آن عبارتند از:
1. سودمندی بیشتر مشتریان فعلی نسبت به مشتریان جدید
2. متمرکز شدن بر مستحکم کردن ارتباط نزدیک تر با مشتریان
3. تحلیل اطلاعات مشتری برای تصمیم گیری تجاری
4. بازاریابی اینترنتی موثر با توجه به داده های تبدیل شده به اطلاعات
5. بازاریابی فرد به فرد و مستقیم و بازاریابی از طریق پایگاه داده ها[13]
پیشرفت های فناوری در سالهای اخیر تاثیر قابل توجهی بر فرایندهای تجاری داشته است که ظهور اینترنت مهمترین این پیشرفت ها بوده است که دنیای مدیریت ارتباط با مشتری را تحت تاثیر خود قرار داده است و بستر بسیار مناسبی را برای صاحبان تجارت بوجود آورده است تا از طریق آن ارتباطی دائمی و با کیفیت با مشتریان داشته باشند.سرعت بالا، صرفه جویی در هزینه، دسترسی دائمی، کارایی در انتقال اطلاعات و ماهیت یکپارچه و مجزا، انگیزه های اصلی بکارگیری اینترنت برای بهبود مدیریت ارتباط با مشتری می باشند[14,15].
یکی از حوزه هایی که در مدیریت ارتباط با مشتری دارای اهمیت بسیاری می باشد بحث تبلیغات می باشد و با توجه به گسترش روز افزون اینترنت، تبلیغات اینترنتی1 برای شرکت هایی که کالاهای خود را از طریق اینترنت به فروش می رسانند بسیار حائز اهمیت شده است.
2-1-1-2 تبلیغات اینترنتی:
تطبیق با ترجیحات فردی کاربران – شخصی سازی- یک چالش مهم برای توسعه تجارت الکترونیک است.80 % کاربران اینترنت در سال 2005 مشتاق بودن تا محتوای شخصی شده ای روی سایت هایی که دیدن می کنند دریافت کنند.شخصی سازی وب باید بر مبنای رفتار فردی باشد نه تصورات کلیشه ای مربوط به موقعیت جغرافیایی یا ویژگی هایی مثل سن یا جنسیت.تبلیغات سنتی پیشنهادات مشابهی برای همه ارائه می کند، اما این نیازهای تجاری فعلی را در نظر نمی گیرد.اگر به دنبال افزایش کارایی هستیم، شخص مربوطه باید پیغام شایسته را در زمان و زمینه ای درست دریافت کند.
کاربران صدها تبلیغ را می بینند و اغلب توجه کمی به تبلیغاتی می کنند که در صفحات وب وجود دارند. به نظر می رسد این مشکل اصلی تبلیغات وب است.راه حل افزایش مطابقت بین علایق کاربر و موضوع تبلیغات نشان داده شده است[16].
تبلیغات اینترنتی از طرق مختلفی قابل اجرا هستند:
1. بنر1: بنر عبارت است از یک تصویر گرافیکی کوچک و معمولا مستطیلی که به یک پایگاه اینترنتی دیگر متصل می شود.
2. خرده سایت ها2: خرده سایت عبارت است از پنجره کوچکی ( کوچک تر از اندازه معمولی پنجره مرورگر ) که هنگام جستجوی فرد در اینترنت ناگهان بر روی صفحه نمایشگر ظاهر شده و حاوی نوشته ها و تصاویر تبلیغاتی هستند و به پنجره های جهنده نیز معروفند.
3. کلید واژه ها3: یکی از انواع تبلیغات اینترنتی هستند که در وب سایت های جستجوگر مورد استفاده قرار می گیرند.
4. نامه های الکترونیکی: نامه های الکترونیکی یکی از انواع رایج تبلیغات اینترنتی است که کاربران تعداد زیادی از آنها را سالانه دریافت می کنند[17].
دو حوزه تحقیق مورد توجه در تبلیغات آنلاین ممکن است تمیز داده شوند: زمان بندی و شخصی سازی. هدف اصلی زمان بندی بیشینه کردن نرخ سراسری کلیک4 برای همه تبلیغات، بوسیله مدیریت شایسته زمان نمایش و فضای تبلیغاتی روی صفحه وب است.
شخصی سازی که مهمترین چالش برای تبلیغات دهندگان فعلی است، مشتریان را در یک بازار به بخش های مشخص تقسیم می کند و کمک می کند تا تبلیغات مناسب را به هر یک از کاربران وب تخصیص دهند.برای دسترسی به این هدف، سیستم های شخصی سازی نیاز دارند تا مقداری اطلاعات درباره کاربران داشته باشد[16].
2-2 داده کاوی:
2-2-1 تعریف داده کاوی:
در دو دهه قبل توانایی های فنی بشر برای تولید و جمع آوری داده ها به سرعت افزایش پیدا کرده است.عواملی نظیر استفاده گسترده از بارکد برای تولیدات تجاری، به خدمت گرفتن کامپیوتر در کسب و کار، علوم، خدمات دولتی و پیشرفت در وسائل جمع آوری داده، از اسکن کردن متون و تصاویر تا سیستم های سنجش از دور ماهواره ای، در این تغییرات نقش مهمی دارند.
بطور کلی استفاده همگانی از وب و اینترنت به عنوان یک سیستم اطلاع رسانی جهانی ما را با حجم زیادی از داده و اطلاعات مواجه می کند.این رشد انفجاری در داده های ذخیره شده، نیاز مبرم به وجود فناوری های جدید و ابزارهای خودکاری را ایجاد کرده که به صورت هوشمند به انسان یاری رسانند تا این حجم زیاد داده را به اطلاعات و دانش تبدیل کند.داده کاوی به عنوان یک راه حل برای این مسائل مطرح می باشد[18].
داده کاوی یگ گام ضروری در فرایند استخراج یا کشف دانش1 است.داده کاوی جستجو برای دانش ( الگوهای دلخواه ) در داده است.کشف دانش متشکل از یک ترتیب تکراری از گام های زیر است:
1. تمیز کردن داده1 : حذف اختلال و داده ناسازگار
2. مجتمع سازی داده2 : چندین منبع داده ممکن است ترکیب شوند.
3. انتخاب داده3 : داده مربوط به وظیفه تحلیل از پایگاه داده بازیابی می شود.
4. تبدیل یا تغییر شکل داده4 : داده به فرم های مناسب برای کاوش تبدیل می شوند.
5. داده کاوی : یک فرایند ضروری که روش های هوشمند را برای استخراج الگوهای داده بکار می برد.
6.ارزشیابی الگو5 : برای شناسایی درست الگوهای دلخواه و دلچسب که نشان دهنده دانش بر مبنای بعضی معیارهای مورد پسند هستند.
7.ارائه دانش6 : تکنیک های بصری سازی و نمایش دانش که برای ارائه دانش استخراج شده به کاربر استفاده می شوند[19].
داده کاوی مجموعه ای از تکنیک ها می باشد که کمک می کند تا اطلاعاتی که در انبوه داده ها پنهان است استخراج شوند[20].
داده کاوی استخراج اطلاعات مفهومی، ناشناخته و به صورت بالقوه مفید از پایگاه داده می باشد.داده کاوی علم استخراج اطلاعات مفید از پایگاه های داده یا مجموعه داده ای می باشد.داده کاوی استخراج نیمه خودکار الگوها، وابستگی ها و دیگر ساختارهای معنی دار آماری از پایگاه های بزرگ داده می باشد.داده کاوی فرایند کشف روابط ناشناخته و الگوها در داده است.کلمات ناشناخته، مجموعه داده ای و نیمه خودکار برای تعریف داده کاوی کلیدی هستند[21].
داده کاوی شامل یک اجتماعی از تکنیک ها از رشته های چندگانه مثل فناوری پایگاه داده، علم آمار گیری، یادگیری ماشین، محاسبات کارایی بالا، تشخیص الگو، شبکه های عصبی، بصری سازی داده، بازیابی اطلاعات، پردازش سیگنال و تصویر، و تحلیل داده فضایی یا موقتی می شود[19]. برخی از مهمترین الگوریتمهایی که در آن بکار می روند به چند دسته زیر تقسیم می شوند:
1.خلاصه سازی: توصیفی فشرده از داده (مانند مصورسازی داده ها) را فراهم می کند.
2.کلاس بندی: هدف آن دسته بندی یک مجموعه بزرگ اشیا داخل کلاس های از پیش تعیین شده – که بوسیله مجموعه ای از خصوصیات توصیف می شوند – با استفاده از متدهای یادگیری نظارت شده1 است[22].
3.خوشه بندی: فرایند بخش بندی یک مجموعه بزرگ از الگوها درون خوشه های گسسته و مشابه می باشد[23]. بدین ترتیب که الگوهای درون یک خوشه بیشترین شباهت را بهم دارند و الگوهای بین خوشه ها کمترین شباهت را.
4.پیش بینی: بر روی داده در دسترس استنتاج هایی برای اهداف پیش بینی انجام می دهد[19].
5.تحلیل وابستگی: روابط بین الگوهای داده را بر اساس وقوع مشترک آنها می یابد.
6.تحلیل انحراف: به جستجو در مورد انحراف های موجود از مقادیر مورد انتظار می پردازد.

در این سایت فقط تکه هایی از این مطلب با شماره بندی انتهای صفحه درج می شود که ممکن است هنگام انتقال از فایل ورد به داخل سایت کلمات به هم بریزد یا شکل ها درج نشود

شما می توانید تکه های دیگری از این مطلب را با جستجو در همین سایت بخوانید

ولی برای دانلود فایل اصلی با فرمت ورد حاوی تمامی قسمت ها با منابع کامل

اینجا کلیک کنید

7.تحلیل سری های زمانی: شباهت های داده های متوالی را پیدا می کند[24].
اهمیت داده کاوی به سبب وجود حجم وسیعی از اطلاعات و نیاز حتمی برای تراش دادن آنها است تا اطلاعات و دانش مفید بدست آید.از جمله اطلاعاتی که برای کاربردهایی نظیر تحلیل بازار، تشخیص کلاهبرداری، حفاظت مشتری، کنترل محصول و جستجوهای علمی مفید هستند[19].
توصیف و پیش بینی دو هدف اصلی یا وظیفه داده کاوی است.توصیف به یافتن الگوهای قابل تفسیر از داده های متمرکز می پردازد و پیش بینی، ارزش یک متغیر هدف را بر اساس ارزشهای یک یا چند متغیر دیگر براورد می کند[25].
2-2-2 خوشه بندی:
خوشه بندی معمولا اولین و یکی از مهمترین گام ها در تحلیل داده می باشد.خوشه بندی یک دسته بندی بدون ناظر1 است که در آن داده ها از قبل برای خوشه ای برچسب نمی خورند و مشخص نمی شوند.هدف اصلی خوشه بندی جداکردن تعدادی متناهی از مجموعه داده های برچسب نخورده درون یک مجموعه متناهی از ساختار های داده است.در تحلیل خوشه یک گروه از اشیا به یک تعدادی از زیرگروه ها معمولا بر مینای مشابهت تقسیم می شوند، این چنین که مشابهت بین اشیای درون یک زیرگروه بزرگتر از مشابهت بین اشیای متعلق به زیرگروه های متفاوت است.
الگوریتم های خوشه بندی داده را به یک تعداد مشخصی از خوشه ها بخش بندی می کنند.با این که تعریفی مورد تائید همه محققان وجود ندارد اما اغلب آنها یک خوشه را بوسیله در نظر گرفتن همگرایی و مشابهت داخلی و جدایی خارجی تشریح می کنند.به عبارت دیگر الگوها در خوشه ای مشابه باید به هم شبیه باشند، در حالی که الگوهای در خوشه های مجزا نباید شبیه هم باشند.هر دوی شباهت و عدم شباهت باید با یک روش مشخص و معنی دار قابل آزمایش باشند.
در خوشه بندی بخشی سخت هر الگو تنها به یک خوشه تعلق دارد.اما در نقطه مقابل در خوشه بندی فازی1 یک الگو ممکن است اجازه داشته باشد تا به همه خوشه ها با یک درجه عضویت [0,1] تعلق داشته باشد. مجموعه درجه عضویت ها برای هر الگو باید 1 شود[26].
الگوریتم های مختلفی برای خوشه بندی داده ها وجود دارد. تعدادی از معروفترین این الگوریتمها را در اینجا لیست شده اند :
– الگوریتم K-means
– الگوریتم Fuzzy C-means
– الگوریتم Support Vector Clustering
– الگوریتم Ant Clustering Algorithm
– الگوریتم Self-organizing maps
– الگوریتم Expectation maximization clustering
[26,27].
خوشه بندی در زمینه های بسیاری کاربرد دارد، از جمله در:
– شناسایی الگو
– یادگیری ماشین
– داده کاوی
– بازیابی اطلاعات
– انفورماتیک زیستی
و ….[28]

الگوریتم K-Means :
یکی از معروفترین روش های تحلیل خوشه ها K-means می باشد که مجموعه n شئ را به K خوشه ،که به عنوان ورودی دریافت می کند، افراز می کند بطوریکه سطح شباهت داخلی خوشه ها بالا و سطح شباهت اشیا بین خوشه ها پایین باشد. شباهت هر خوشه نسبت به متوسط اشیاء آن خوشه سنجیده می گردد که این متوسط، مرکز خوشه نیز نامیده می شود[29].
این الگوریتم معیار اندازه گیری فاصله اقلیدسی1 را برای نسبت دادن نقاط داده ای به نزدیکترین خوشه بکار می گیرد[26].
اگر مجموعه داده ورودی شامل N نمونه باشد و اگر تعداد خوشه های مورد نظر c فرض شود، ابتدا الگوریتم به طور تصادفی c شی را به خوشه ها انتساب می دهد.در ادامه الگوریتم هر نمونه ورودی را به خوشه ای اختصاص می دهد که در آن مجموع مربعات خطا بین خوشه ها کمینه باشد[31].
مراحل الگوریتم به صورت زیر است:

1. انتخاب K شیء بطور تصادفی به عنوان مراکز اولیه خوشه ها

2. تخصیص هر شیء به یک خوشه بر اساس بیشترین شباهت آن به مراکز خوشه ها.
3. محاسبه مرکز جدید هر خوشه.مقدار متوسط اشیاء در هر خوشه را مرکز خوشه در نظر میگیریم.
4. تکرار مرحله 2و3 تا وقتی که تغییر چندانی در هر خوشه انجام نگیرد[26].
الگوریتم K-means بسیار ساده است و می تواند برای حل بسیاری از مسائل کاربردی به راحتی پیاده سازی شود.این الگوریتم می تواند برای خوشه های پیچیده بسیار خوب کار کندپیچیدگی زمانی آن O(NKd) است که d مشخص کننده تعداد بعد فضای مسئله است.تکنیک های موازی برای K-means توسعه داده شده اند که می تواننددر حد بسیار زیادی الگوریتم را تسریع ببخشند.در ضمن این الگوریتم دارای اشکالاتی است.این الگوریتم بسیار حساس به مقدار دهی اولیه مراکز خوشه ها می باشد و بدین ترتیب با چندین مقدار دهی اولیه چندین نتیجه مختلف برای خوشه بندی با این الگوریتم بدست می آید.همینطور همگرایی به بهینه بودن محلی مشکل دیگری است که نتیجه الگوریتم تنها در صورتی که بخش بندی های اولیه بسیار به نتیجه نهایی نزدیک باشند می تواند خوب باشد[32,33]. الگوریتم های گوناگون K-means برای غلبه بر این اشکالات پدید آمده اند.یکی از این الگوریتم ها الگوریتم K-harmonic means می باشد[26].
الگوریتم K-harmonic means :
الگوریتم K-means یک الگوریتم خوشه بندی مرکز-محور است و وابستگی کارایی آن به به مقداردهی اولیه مراکز یک مشکل اصلی آن است.K-harmonic means یک الگوریتم خوشه بندی محور-مرکز است که میانگین هارمونیک فاصله هر نقطه داده ای از مراکز را به عنوان مولفه ای برای تابع کارایی استفاده می کند.این ویژگی اطمینان می دهد که KHM نسبت به مقداردهی اولیه مراکز خوشه حساس نیست.در مواردی مشخص در آزمایش های صورت گرفته K-harmonic means کیفیت نتایج خوشه بندی را نسبت به K-means بهبود بخشیده است[30].
موارد زیر برای فرمول بندی الگوریتم KHM استفاده می شوند:
X = { x1,x2, … ,xn } : داده ای که باید خوشه بندی شود
C = { c1,c2, … ,cK } : مجموعه مراکز خوشه ها
m (cj | xi ) : تابع عضویت
تابع عضویت سهم تعلق نقطه داده ای xi را به مرکز cj مشخص می کند.
W ( xi ) : تابع وزن
تابع وزن مقدار تاثیر نقطه داده ای xi را در محاسبه مجدد پارامترهای مرکز خوشه در تکرار بعدی تعریف می کند.
الگوریتم پایه برای خوشه بندی KHM همانند زیر است[28]:
1.مقدار دهی اولیه الگوریتم با انتخاب تصادفی مراکز ابتدایی
2. محاسبه مقدار تابع هدف مطابق با
KHM (X, C) = ∑_(i=1)^n▒k/(∑_(j=1)^k▒1/(∥Xi – Cj∥”” ))
که p یک پارامتر ورودی است ومعمولا p >= 2
3. برای هر نقطه داده ای xi ، درجه عضویت آن را در هر مرکز cj مطابق با فرمول زیر محاسبه کن:
M(Cj|Xi) = (∥Xi-Cj ∥”” )/(∑_(j=1)^k▒〖∥Xi-Cj ∥”” 〗)
4. برای هر نقطه داده ای xi وزن آن را مطابق با فرمول زیر محاسبه کن:
w(xi) = (∑_(j=1)^k▒〖∥Xi-Cj ∥”” 〗)/((∑_(j=1)^k▒〖∥Xi-Cj ∥”” 〗)”” )
5. موقعیت هر مرکز cj را از همه نقاط داده ای xi مطابق با درجه عضویت ها و اوزانشان دوباره محاسبه می شود:
Cj = (∑_(i=1 )^n▒〖m(Cj|Xi)w(Xi) Xi〗)/(∑_(i=1)^n▒〖m(Cj|Xi)w(Xi) 〗)

6. گام های 2-5 را به تعداد از پیش تعیین شده ای یا تا KHM(X,C) به مقدار قابل ملاحظه ای تغییر نکند تکرار می شود.
7. نقطه داده ای xi به خوشه j با بزرگترین m(cj| xi) تخصیص داده می شود.
2-2-3 قوانین وابستگی:
مجموعه اقلام پر تکرار نقش مهمی را در داده کاوی ایفا می کنند، خصوصا در کاربردهایی که می کوشند الگوهای جالب و با ارزش را در پایگاه های داده و در قالب قواعد وابستگی و همبستگی کشف کنند.در این میان یافتن قواعد وابستگی از مسائل همگانی و بسیار پر توجه است.انگیزه اولیه برای جستجوی قواعد وابستگی از نیاز به تحلیل داده های تراکنشی ناشی می شود.
به عنوان مثال، برای دستیابی به رفتار مشتریان در زمینه فروش محصولات، کشف این قواعد بسیار مفید می باشد.قواعد وابستگی معین می کنند چه محصولاتی و با چه تکراری با هم خریده می شوند.برای مثال قاعده 80% نان کره ، بدین مفهوم است که از هر پنج مشتری چهار نفر نان و کره را با هم خریداری می کنند.در نتیجه، کشف این قواعد برای تصمیم گیری در مورد قیمت محصولات و نحوه چیدمان آنها بسیار موثر می باشند.
قاعده یک قالب مشترک برای بیان انواع مختلف دانش به دست آمده از داده کاوی می باشد.قاعده یک گزاره است که به طور مختصر و واضح ارتباط بین داده ها را بیان می کند.هر قاعده دو شرط دارد که مقدم و تالی نامیده می شوند.فرم کلی هر قاعده به صورت زیر است:
For all X : A ( A ∩ C = ø )
که در آن X لیستی از یک یا بیش از یک متغیر با طیف های وابسته، A مقدم و C تالی است.برای مثال جدول (2-1) را در نظر بگیرید که تراکنش های خرید از یک فروشگاه را نشان می دهد:
جدول2-1 : مثال تراکنش های خرید
TxProducttx1
tx1
tx1A
B
Ctx2
tx2
tx2
tx2
tx2A
B
C
D
Etx3
tx3A
Btx4
tx4
tx4A
B
C
حال به قاعده زیر توجه کنید:
For all tx : Sales(tx , b) Sales(tx , c)
مفهوم این قاعده این است که هرگاه یک مشتری کالای b را بخرد، به احتمال زیاد کالای c را هم خواهد خرید.به مجموعه تمام تراکنش ها، جمعیت ( مجموعه مرجع ) گفته می شود.هر قاعده یک درجه پشتیبانی1 و یک درجه اطمینان2 دارد.
درجه پشتیبانی اندازه کسری از جمعیت است که در آنها مقدم و تالی هر دو صحیح هستند.یعنی درصد تراکنش هایی که در آن هم کالاهای مقدم و هم کالاهای تالی خریداری شده اند.درجه اطمینان اندازه کسری از جمعیت است که در آنها به شرط صحیح بودن مقدم، تالی هم صحیح باشد.یعنی درصد تراکنش های شامل کالاهای تالی از بین همه تراکنش های شامل کالاهای مقدم.
بنابر این برای هر قاعده A C داریم:
Sup ( A C ) = P ( A ∪ C )
Conf ( A C ) = P ( C | A )
Conf ( A C ) = Sup ( A C ) / Sup (A)
– استخراج قواعد قوی:
کاربر یک سیستم داده کاوی می تواند تمام قواعد پیوستگی که دارای یک حداقل درجه پشتیبانی1 مشخص و یک حداقل درجه اطمینان2 مشخص باشند را درخواست کند.به قواعدی به شکل A C که دارای هر دو شرط زیر باشند، قواعد قوی گفته می شود:
Sup ( A C ) >= minsup
Conf ( A C ) >= minconf

دسته بندی : پایان نامه ارشد

پاسخ دهید