خانه / برنامه نویسی وب / کاربرد کاوی وب
کاربرد کاوی وب

کاربرد کاوی وب

با رشد سریع و ازدیدادتجارت الکترونیک ووب سرویس ها و سیستم های اطلاعاتی مبتنی بر وب ، حجم زیادی از داده های تراکنشی مشتری و داده های پروفایل کاربر جمع آوری شده بوسیله سازمانهای مبتنی بر وب که در فعالیت های روزانه شان به حجم نسبتا زیادی رسیده اند .

تحلیل کردن اینگونه داده ها در این سازمانها می تواند کمک کند به تعیین عمر مشتری ، طراحی استراتژی های بازاریابی برای محصولات و خدمات ، ارزیابی میزان اثر بخشی سلسله مراتب تبلیغات ، بهینه ساز کردن کارکرد کاربردهای وب فراهم کردن محتوی اختصاصی تر برای بازدید کنندگان و پیدا کردن ساختار های منطقی موثر برای فضاهای وب شان. این نوع از آنالیز شامل کشف خودکار الگوی هدف دار و روابط از یک مجموعه بزرگ از داده های نیمه ساختار یافته ابتدایی ، اغلب در وب و برنامه های کاربردی  سرور دسترسی به log ها بخوبی منابع عملیاتی وابسته  ذخیره می شود

کاربرد کاوی وب

به دستاوردهای اتوماتیک و آنالیز الگوهای مشتریان ، تراکنش کاربران و دیگر ارتباط داداه ها که ب عنوان نتیجه بر هم کنش کاربر با منابع وب روی یک یا تعدادی وب سایت جمع آوری یا تولید می شوند مراجعه می کند  .

هدف تصرف کردن یا بدست آوردن مدل و آنالیز الگوی رفتاری و شکل دادن تراکنش های کاربران با یک وب سایت است . الگوهای اکتشافی معمولا نمایش داده می شوند بصورت مجموعه ای از صفحات ، موضوعات یا منابعی که مکرراً بوسیله گروهی از کاربران با نیازها یا علاقه های مشترک مورد استفاده قرار می گیرد

پردازش data mining استاندارد ، بطور کلی پردازش

کاربرد کاوی وب

می تواند به 4 طبقه داخلی تقسیم شود :

جمه آوری داده ها و پیش پردازش ، کشف الگوها ، آنالیز الگوها .

در مرحله پیش پردازش داده های مشتریان مرتب می شوند و تقسیم بندی می شوند به مجموعه ای از تراکنش های کاربران که فعالیت های هر کاربر را در طی بازدید های مختلف سایت نشان می دهد.

دیگر منابع دانش مانند محتوی یا ساختار سایت بخوبی بخش معنایی دانش از سایت هستی شناسی ( مانند کاتالوگ محصولات یا سلسله مراتب مفهوم ها ) همچنین ممکن است در مرحله پیش پردازش یا بهینه کردن داده های تراکنشی کاربران استفاده شود .

در طبقه الگوهای اکتشافی ، دیتا بیس آماری و عملیات یادگیری ماشین انجام می شود تا فراهم کند الگوهای پنهان که رفتار خاص کاربران را بخوبی خلاصه آمارها روی منبع وب ، نشست ها و کاربران منعکس می کند .

در طبقه آخر از این پردازش ، الگوهای اکتشافی و آمارها فراتر پردازش و فیلتر می شوند و احتمالا نتایج آنها در مجموعه مدل های کاربر است که می تواند استفاده شود در داخل کاربردهایی مانند ماشین های نظریه ، ابزارهای بخشی و تحلیل وب و ابزارهای تولید گزارش که به طور کلی پروسه در شکل زیر نشان داده می شود  .

در ادامه ما ابتدا جزییات بررسی

کاربرد کاوی وب

را به عنوان یک پروسه فراهم می کنیم و در مورد مفاهیم مربوط و تکنیک های عمومی استفاده شده در همه طبقه های نامبرده بالا بحث می کنیم.

ما سپس تمرکز می کنیم روی مشکل مهم این نظریه ، به دنبال آن توسط نمونه های خاص از اهداف

کاربرد کاوی وب

که query log ها را با عنوان (QLM  ) می شناسیم پیدا می کنیم .

ما بحثمان در mining را با web usage data کامل می کنیم و سرانجام معرفی می کنیم یک فیلد جدید از Ad click mining کار مهم در هربرنامه کاربردی داده کاوی ایجاد یک مجموعه داده ای هدفمند مناسب است که داده کاوی و الگوریتم های آماری می توانند کاربردی شوند مخصوصاً این مهم است که در

کاربرد کاوی وب

می پردازند به خصوصیاتی از داده های مشتری و روابط با دیگر داده های وابسته که جمع آوری می شوند از منابع مختلف و کانالهای مختلف .

پردازش آمایش داده ها (data preparation )  مرحله ای در پردازش

کاربرد کاوی وب

است که اغلب بیشترین زمان صرف شده و محاسبات آماری فشرده و شدید را دارد . اغلب نیاز دارد به استفاده از الگوریتم های خاص و بکارگیری فرآیندهای کاوشی که در دیگر بخش ها معمولا بکار گرفته نمی شود . این پردازش برای استخراج موفقیت آمیز از الگوهای مورد استفاده از داده مهم و حیاتی هستند . پردازش ممکن است شامل پیش پردازش داده های اصلی یکپارچه سازی داده ها از منابع مختلف و انتقال داده های یکپارچه به فرم مناسب برای ورود به عملیات داده کاوی اختصاصی در کل آمایش داده ها را از این پردازش می گیریم . بسیاری از تحقیقات و تمرینات آمایش داده های کاربردی (usage data preparation  ) روی پیش پردازش و یکپارچه سازی منابع داده ای برای آنالیزهای مختلف تمرکز دارد.

آمایش داده ها ،کاربردی ارائه می دهد تعدادی از چالشهای منحصر بفرد را که منجر به داشتن الگوریتم های متنوع و تکنیک های فرآیندهای کاوشی برای کارهای پیش پردازش مانند ترکیب و مرتب کردن کاربران و شناسایی نشست ها ، شناسایی بازدید صفحه می شود .

کاربردهای موفق از تکنیک های داده کاوی در داده های

کاربرد کاوی وب

وابستگی به کاربردهای صحیح از کارهای پیش پردازش دارد . علاوه بر این در آنالیز داده ای از قبیل تجارت الکترونیک این تکنیک ها توسعه پیدا کرده که قبول کنند برای اکتشاف کاربر هوشمند مهم و سایت متریک و استاندارد .

شکل زیر یک خلاصه ای از کار های ابتدایی و اصلی و المنت هایی در  آمایش داده های کاربردی را فراهم می کند. ما شروع می کنیم به فراهم آوردن خلاصه ای از انواع داده هایی که معمولا استفاده می شود در

کاربرد کاوی وب

و سپس یک مختصر بخشی از تعدادی از کار های مهم و اولیه آمایش داده را فراهم می آوریم .

منابع داده اولیه و اصلی که استفاده می شود در

کاربرد کاوی وب

در فایل های  لاگ سرور هستند که شامل web server access logها و application server log ها می شوند علاوه بر آن منابع داده ای که هم برای آمایش داده ها و هم برای الگوهای اکتشافی شامل فایل های سایت لازم و اصلی هستند  ،

ما دیتا ، دیتابیس های عملیاتی ، قالب های   کاربردی و بخش های دانش می باشند . در بعضی موارد کاربران علاوه بر داده ممکن است به مجموعه داده سمت مشتری  یا سطح proxy آنها هم بتوان پرداخت (یعنی فراهم آورنده خدمات اینترنت )

همچنین سرویس های مجموعه داده از مشتریان خارجی یا منابع داده آماری فراهم آورده می شوند از Com score  , Net Rating , Acxiom  . این داده ها همچنین منابع گوناگونی که تقسیم بندی می شوند به 4 گروه اصلی  می تواند فراهم آورند.

 داده های کاربردی ((usage data : داده های لاگ به صورت خودکار جمع آوری شده بوسیله وب و سرور های کاربردی نمایش می دهند زیر ساختار رفتار رهیابی ملاقات کنندگان را ، این منبع اصلی از

کاربرد کاوی وب است

.

هر ضربه متقابل درسرور مشابه یک درخواست http تولید می کند یک مدخل تنها در لاگ های دسترس سرور ، هر ورودی لاگ ( بستگی به فرمت لاگ ) ممکن است شامل فیلد های شناسایی زمان و تاریخ درخواست ، IP آدرس مشتری، منابع درخواستی ، پارامترهایی که احتمال دارد در کاربردهای وب استفاده شود وضعیت در خواست ها ، مترهای http استفاده شده ، کارگزار کاربر (browser و ورژن و نوع سیستم عامل ) منابع وب مراجعه شده در صورت وجود کوکی های سمت مشتریی که منحصرا شناسایی می کند بازدیدکنندگان یک مثال خاص از  لاگ دسترسی سرور در شکل زیر نشان داده شده تکراری را که در آن 6 بخش ورودی های لاگ نشان داده شده . IP  آدرس کاربر در داخل لاگ برا ی حفظ امنیت تغییر خواهد کرد .

برای مثال ورودی لاگ اول نشان می دهد یک کاربر با IP  آدرس (1.2.3.4)دسترس دارد به منبع “classes/cs589″ روی سرور ” maya. cs … ” . نوع و ورژن browser همچنین اطلاعات سیستم عامل روی ماشین client یک فیلد عامل از entry را می گیرد سر انجام فیلد مراجعه مننده حاکی از این است که کاربر از یک محل از منابع خارجی  http://data…  می آید. ورودی  بعدی لاگ نشان می دهد که این کاربر هدایت شده است ازصفحه html ( چنانکه بازتاب شده متا دیتا های ساختاری یا معنایی که جاسازی شده در سایت یا صفحات انفرادی مانند یک کلید واژه توصیفی ، ویژگی های سند ، تگ های معنایی یا متغییرهای http .همچنین در بخش اصلی هستی شناسی برای سایت قسمتی از محتوای داده ها مطرح شده بخش هستی شناسی ممکن است شامل سلسله مراتب مفهومی روی محتوای صفحه باشد مانند دسته محصول ، معرفی صریح محتوای معنایی و روابط از طریق زبان هستی شناسی مانند RDF یا طرح پایگاه داده روی داده های شامل این دیتابیس های عملیاتی .

داده های ساختاری (structure data ) : داده های ساختاری دید طراح را از سازماندهی محتوایی داخل سایت  شرح می دهد این سازمان دهی گرفتن از طریق ساختاری پیوند صفحات داخلی از میان صفحات بطوری که تمرکز می کند روی ابر پیوند های داده های ساختاری همچنین شامل ساختار صفحه داخلی یک صفحه مطابق با محتواست . برای مثال سند های html و xml می تواند نشان داده شوند مانند ساختار درختی در خلال فضای تگ ها در صفحه ساختار ابر پیوند ها برای یک سایت به طور نرمال گرفته شده بوسیله ” سایت مپ”  تولید شده اتوماتیکی . یک ابزار ” سایت مپ” باید قابلیت گرفتن و نمایش روابط داخلی بازدید صفحه ها را داشته باشد . برای تولید صفحات پویا ، ابزار” سایت مپ”  باید همچنین یکپارچه شود بصورت دانش نرم افزاری کاربردهای اساسی و فایل آغازگری که بوسیله محتوا ی html  تولید می شود  یا باید توانایی تولید بخش های مضمون مورد استفاده یک نمونه از پارامترهای تصویب شده را داشته باشد مانند کاربرد ها یا فایل های آغازگر .

داده های کاربردی (User data ) : دیتابیس های عملیاتی برای سایت ممکن است شامل اطلاعات پروفایل کاربرد باشد چنانکه داده ها ممکن است شامل اطلاعات آماری در مورد اطلاعات ثبت شده کاربر ، درجه کاربر روی موضوع های متنوع مانند محصولات ، فیلم ها ، خرید های گذشته یا تاریخ بازدید های کاربر به نحوی که آشکارا و ضمنی نشان می دهد تمایلات کاربران را . بعضی از این داده ها می توانند گمنام  بگیرند تا وقتی که ممکن فیلد مراجعه کننده ورودی 2) برای دسترسی به منابع دیگر “classes/cs590…” . ورودی سوم لاگ  نشان می دهد که یک کاربر چگونه دسترسی پیدا کند به منابع “classes/ds575…” با انجام یک جستوجو روی Google با استفاده از جستجوی کلمه کلیدی “hyperlink analysis for the web …” سرانجام ورودی 4 تا 6 همه مطابقت دارند با یک  کلیک سرتاسری واحد بوسیله یک کاربری که دسترسی داشته به منابع “classes/cs480…” . ورودی 5 و 6 هستند تصاویر جاسازی شده در  “announce.html” و در نتیجه 2 درخواست اضافی http ثبت شده اند به عنوان hits در لاگ سرور مطابقت داده شده با این تصاویر .

بسته به هدف آنالیز های داده ها نیاز دارند که انتقال یابند و جمع آوری از سطوح مختلف تجرید . در

کاربرد کاوی وب

بیشترین سطح اصلی از تجرید داده ها در یک بازدید صفحه است . یک بازدید صفحه یک نمونه جمع آوری شده یک کلکسیون از ابزارهای کمکی وب هست که نمایش می دهد نتایج browser کاربر را در یک محل کاربر تنها .

از نظر مفهوم هر بازدید صفحه می تواند دیده شود بعنوان مجموعه ای از موضوع های وب یا منابع نمایش داده شده یک user event مشخص . خواندن یک مقاله ، مشاهده یک صفحه محصول یا اضافه کردن یک محصول به کارت خرید. در سطح کاربر بیشترین سطح اصلی رفتاری تجرید شده یک نشست یک رشته از بازدید صفحه است بوسیله یک کاربرد منفرد در طی یک بازدید منفرد . مفهوم یک نشست می تواند علاوه بر مختصر سازی (تجرید) از طریق انتخاب زیر مجموعه ای از بازدید صفحه در نشست که قابل توجه و مناسب است برای کار های آنالیز در دست .

داده های محتوایی (content data ) : داده های محتوایی در یک سایت مجموعه ای از موضوع ها و روابطی است که هدایت می کند کاربر را . برای بیشترین قسمت این داده شامل ترکیب موارد متنی و تصاویر است منابع داده ای که استفاده می شوند برای تحویل دادن یا تولید کردن این داده ها شامل صفحات html /xml ایستا ، فایل های چند رسانه ای ، صفحه تولید شده پویا از فایل آغازگر و مجموعه ای از رکوردهای دیتابیس عملیاتی . داده های محتوایی سایت همچنین شامل باشد از میان کاربران مختلف تشخیص دهند. برای مثال اطلاعات بی نام حاوی کوکی های سمت مشتری که می تواند به عنوان قسمتی از اطلاات پروفایل کاربران بررسی شود و برای شناسایی بازدید کنندگان تکراری یک سایت استفاده شود. بسیاری از کاربردهای شخصی نیاز به ذخیره سازی اطلاعات مهم تری از پروفایل کاربر دارد

12.1.2   المنت های کلیدی در پیش پردازش web usage data

همچنان که در شکل دوم دیدید کار های سطح بالا نیازمند پیش پردازش داده های کاربردی شامل هم آمیزی و هم گام سازی داده ها از فایل های لاگ چندگانه ، مرتب سازی داده ها ، شناسایی بازدید صفحه، شناسایی کاربر ، شناسایی نشست ، شناسایی اپیزود و یکپارچه سازی داده های مشتریان با منابع داده ای دیگر مانند اطلاعات محتوایی یا معنایی ، همچنین اطلاعات کاربر و محصول از دیتا بیس های عملیاتی می باشند.

حالا ما بعضی از این کارهای اصلی را در پیش پردازش بررسی می کنیم.

در بعضی از موارد سرورهای چندگانه همراه با حجم زیادشان برای کم کردن میزان بارگذاری روی هر سرور خاص استفاده می شوند. داده های ترکیبی از الحاقی از فایل های لاگ از چندین  وب و  سرورهای کاربردی گرفته می شود. این ممکن است به همگام سازی جهانی مقابل این سرور نیاز داشته باشد.

در نبود نشست جاسازی شده مشترک ، متدهای کاوشی بر پایه فیلد” referrer” در لاگ های سرور همراه با نشست سازی متنوع و متد های شناسایی کاربر می تواند برای اجرای الحاق یا پیوند استفاده بشود. این مرحله ضروری است در بازدید صفحه “inter-site” جایی که آنالیز رفتار کاربران از روی فایل های لاگ وب سایت های چندگانه مرتبط انجام می شوند.

مرتب سازی داده ها یک مشخصه سایت است که در بر می گیرد وظایفی مانند پاک کردن مراجع غیر اصلی که جاداده موضوع هایی که ممکن است مهم نباشد برای اهداف آنالیز، شامل مراجعه به غایل های متداول گرافیکی یا فایل های صدایی. پروسه مرتب سازی همچنین ممکن است شامل پاک بعضی از جزیی ترین فیلدهای داده باشد ( تعدادی از بایت های انتقال یا ورژن پروتکل HTTP مورد استفاده و…) که ممکن است فراهم نیاورداطلاعات مفید در آنالیز

مرتب سازی داده همچنین امکان جابه جایی مرجع های مناسب crawler هدایت کننده  را فراهم میکند.

این نا متعارف نیست برای نوعی از فایل های لاگ که شامل شوند درصد مهمی (بیش از50%) از نتایج مرجع ها برای هر موتور جست وجو یا دیگر متحرک ها( یا عنکبوتی ) هستند.

crawlerهای موتورهای جست وجوی شناخته شده می توانند معمولآ شناسایی شوند و جا به جا بشوند با نگهداری لیستی از متحرک های شناخته شده .دیگر crawler های خوش رفتاری که دوام می آورند به وسیله پروتکل های استثنایی روبات های استاندارد، آغاز می کنند crawlerهای سایتشان را به وسیله اولین جست وجو برای دسترسی به فایل های ” Robot.txt” استثنایی در دایرکتوری سرور ریشه. یعنی crawler ها ، می توانند بالاخره شناسایی شوند به وسیله مکان یابی همه ی جلسات که شروع می شوند با دسترسی به این فایل.

اگر په یک قسمی با اهمیت  از منابع crawler ها از آنهایی هستند که همچنین تشخیص داده نمی شوند خودشان به طور آشکار یا ضمنی یا از crawlerهایی که عمدآ لباس مبدل می پوشند به عنوان کاربر قانونی . در این مورد شناسایی مراجع crawlerها ممکن است نیازمند استفاده از متدهای کاوشی که مشخص می کند رفتار معمولی crawler  های وب  از کاربران واقعی باشند. بعضی کارها انجام شده روی الگوریتم های دسته بندی مورد استفاده برای ساخت مدل هایی از متحرک ها و روبات های هدایتگر وب، ولی بعضی از این پیشنهادها که تا کنون بررسی شده موفقیت محدودی داشته و در این حیطه  لازم است کارهای بیشتری انجام شود. شناسایی بازدید صفحه ها به شدت به ساختار intra_ page  بستگی دارد، همچنین روی مضمون صفحات و بخش دانش سایت های زیر بنایی . به یاد داشته باشید که از نظر مفهومی هر بازدید صفحه می تواند نشان داده شود به عنوان مجموعه ای از موضوعات وب یا منابع تشریحی یک user-event خاص ، کلیک روی لینک نمایش یک صفحه محصول ، اضافه کردن محصول به کارت خرید. برای قاب کردن یک سایت ایستا هر فایل  html ممکن است یک مطابقت یک به یک با یک بازدید صفحه داشته باشد . به هر حال برای سایت های چند قابی چند فایل برای ارائه یک بازدید صفحه ترکیب می شوند. برای سایت های پویا یک بازدید صفحه  ممکن است نشان داده شود در قالب ترکیب چند الگوی ایستا ومضمون به وسیله برنامه های کاربردی سرور های مبتنی بر یک مجموعه از پارامترها تولید شود .

علاوه بر این ممکن است به طور مطلوبی بازدید صفحه  ها در نظر گرفته شوند در یک سطح بالای تراکم یعنی جایی که هر بازدید صفحه نمایش می دهد مجموعه ای از صفات یا object ها را . برای مثال صفحه مرتبطند با رده های مفهومی مشابه .

در وب سایت های تجاری بازدید صفحات ممکن است مطابق باشند با event های محصول گرایی متنوع ، مانند نمای  محصول ، ثبت ، تغییرات جدید ، خرید و غیره . در این نمونه شناسایی بازدید صفحات ممکن است نیازمند یک بررسی خاص از یک event-model  باشد که مبتنی بر این است که کارهای مختلف کاربر می تواند تقسیم بندی شود .

تا فراهم کند یک چارچوب انعطاف پذیر برای انواعی از فعالیت های داده کاوی تعدادی از ویژگی هایی که باید یادداشت شوددر هر بازدید صفحه . این ویژگی ها شامل ID یا شماره ی بازدید صفحه  (به صورت عادی یک URL  منحصر به فرد نماینده یک بازدید صفحه  است.) ، نوع بازدید صفحه ایستا ( مثلأ صفحه اطلاعات ، نمایش محصول ، نمایش طبقه ، یا فهرست ) و دیگر متا دیتاها ، از قبیل ویژگی  های محتوایی (مثلأ کلمه کلیدی یا ویژگی های محصول ) .

شناسایی کاربر

آنالیز کاربردی وب نیاز ندارد به دانشی در مورد شناسایی کاربران ، به هر حال این برای تمایز قائل شدن بین کاربران مختلف لازم است . از آنجایی که یک کاربر ممکن است بازدید کند یک سایت را بیش از یک بار ، لاگ سرور ها ثبت می کنند نشست های متعدد را برای هر کاربر . ما استفاده می کنیم از اصطلاح “ضبط فعالیت های کاربر” برای مراجعه به ر شته ای از فعالیت های لاگ شده ، متعلق به هر کاربر.

در فقدان مکانیسم تعیین اعتبار، گسترده ترین پیشنهاد شناسایی از میان بازدید کنندگان منحصر بفرد ، استفاده از کوکی های سمت مشتری می باشد. نه در همه سایت ها ، به هر حال ، به کارگیری کوکی ها ، و بکارگیری در جهت حریم خصوصی شرکت ها ، کوکی های سمت مشتری گاهی اوقات از کار انداخته می شوند توسط کاربران . IP آدرس ها به تنهایی معمولأ برای مسیر دهی ورودی لاگ به داخل مجموعه ای از بازدید کنندگان منحصر بفرد کافی نیستند . این بیشتر مناسب برای تکثیر سرویس های نماینده شرکت های ارائه دهنده ی خدمات اینترنت ، که به صورت چرخشی IP آدرس ها را به سمت مشتری ها انتقال می دهد ، همانطور که آنها وب را جست وجو می کنند. این نا متعارف نیست پیدا شود تعداد زیادی از ورودی لاگ های متناظر به تعدادی محدود از IP آدرس های نماینده سرور از فراهم آورندگان خدمات اینترنت بزرگ ، همچون American-online . بنابراین برخورد 2 IP آدرس یکسان ( جداشده با  مجموعه زمان کافی ) ، در حقیقت ممکن است مطابقت داشته باشند برای دو کاربر مختلف.

بدون تعیین اعتبار کاربر یا کوکی های سمت مشتری  ، باز هم ممکن است به درستی کاربران منحصر بفرد را از میان ترکیب IP آدرس ها و دیگر اطلاعات همانند کارگزار کاربر و مراجع شناسایی کند.

بررسی کردن برای نمونه ، مثال در شکل زیر در سمت چپ شکل تا حدودی بخشی از پیش پردازش فایل های لاگ را نشان می دهد (زمان استمپ ها به صورت ساعت و دقیقه داده شده است) . استفاده از ترکیبی از IP و فیلدهای کارگزار در فایل لاگ ، ما می توانیم لاگ را به ثبت فعالیت برای 3 کاربر جداگانه ( شرح داده شده در سمت راست ) تقسیم کنیم .

نوشته شده توسط: میلاد ریسیان

درباره admin

پاسخ بدهید

ایمیلتان منتشر نمیشودفیلدهای الزامی علامت دار شده اند *

*


رفتن به بالا
ساخت سایت : عصر آسیا مجری طراحی سایت در اصفهان