چکیده:
همانطور که می دانیم مجموع اطلاعات در دسترس روی وب بسیار زیاد می باشد و هر ساله شاهد روندرو به رشد تصاعدی در مقدار اطلاعات روی صفحات وب می باشیم. در حقیقت ،وب یک انبار بزرگ اطلاعات است و با یک بررسی اجمالی در میابیم که شمارش صفحات قابل دسترس در وب در حدود یک میلیارد صفحه می باشد وچیزی در حدود یک و نیم میلیون صفحه نیز به طور روزانه اضافه می شوند. به عنوان مثال در حال حاضر سایت گوگل بیشتر از 2/4 میلیارد صفحه را جستجو می کند. این مقدار هنگفت اطلاعات به اضافه طبیعت فعل و انفعالی و پر محتوای وب آنرا بسیار پر طرفدار کرده است . به علاوه سازماندهی این صفحات امکان جستجوی آسان را نمی دهد.
بنابراین با توجه به رشد سریع وب گسترده جهانی ( www ) بطوردائم نیازمند فراهم کردن یک روش خودکار برای کار بران تقسیم بندی و طبقه بندی صفحات وب می باشیم. در بخش نتیجه یک قاعده ، نتیجه ، دسته ای از پیش بینی های یک قانون است که پیش بینی کننده آنها را ثبت کرده است.به عنوان مثال این موضوع می تواند یک قانون باشد که:
اگر شما حقوق بالایی داشته باشید و هیچ رهن و قرضی هم نداشته باشید پس اعتبار بالایی دارید. این نوع ارایه اطلاعات نتایج جامع و کلی برای کاربر دارند. زیرا هدف عمومی نگهداری اطلاعات کشف و دستیابی به اطلاعات دقیق نیست بلکه ارایه اطلاعات عمومی و جامع به کاربران است. در پروسه دسته بندی اهداف کشف قوانین از یک مجموعه اطلاعات پایه و آموزشی و بکار بردن این قوانین در یک مجموعه اطلاعات آزمایشی ( که در اطلاعات پایه دیده نشده ) و ارایه یک پیش بینی قابل قبول از دسته مجموعه آزمایشی است. در این پروژه هدف کشف یک مجموعه خوب از قواعد دسته بندی برای طبقه بندی صفحات وب بر اساس موضوع آنهاست.
هدف این پروژه تقسیم بندی صفحات وب به منظور آسان سازی کار سرویس های جستجوی آینده می باشد وبنابراین توانایی استخراج کردن اطلاعات خاص از میان انبوه صفحات وب به اندازه خود صفحات وب مهم می باشد.بنابراین روش های مؤثر و صحیح برای طبقه بندی این حجم عظیم اطلاعات ضروری است.
این پروژه با تحقیق و بررسی فراوان در سه فصل گرد آوری شده و به توصیف و کشف قوانین مختلف تقسیم بندی و قیاس آنها با یکدیگر می پردازد و در نهایت به معرفی کاراترین روش و ارائه پیشنهادات و راهکارهای اصلاحی می پردازد.در نهایت مطالبی که در این پروژه ارائه می شود همگی بر پایه ی قوانین تقسیم بندی است .
فهرست مطالب:
فصل اول: معرفی نامه
1-1- معرفی فصل دوم پایان نامه..................... 2
1-2- معرفی فصل سوم پایان نامه..................... 7
فصل دوم:روش های متفاوت تقسیم بندی صفحات وب
2-1- تقسيم بندي صفحات وب بطور مختصر............... 9
2-1-1-1- روش خلاصه سازي تعديل شده Luhn........... 10
2-1-1-2 – روش تحليل معنايي نهفته (LSA).......... 12
2-1-1-3- شناسايي مضمون بدنه اصلي توسط تجزيه و تحليل لايهاي.................................... 13
2-1-1-4- خلاصه سازي نظارت شده.................... 15
2-1-1-5- يك دسته بندي كلي از خلاصه سازي.......... 17
2-1-2- آزمايشات................................. 18
2-1-2-1- مجموعه ی داده.......................... 18
2-1-2-2- دسته كننده ها.......................... 19
2-1-2-3- مقياس ارزيابي.......................... 21
2-1-2-4- نتايج و تحليل هاي تجربي................ 22
2-1-2-5 مورد پژوهش.............................. 29
2-1-3- نتیجه گیری و عملکرد آینده............... 31
2-2- تقسیم بندی صفحات وب با استفاده از الگوریتم اجتماع مورچه ها................... 32
2-2-1- پیش پردازش متنی وابسته به زبان شناسی و استخراج وب..........
2-2-2- الگوريتم Ant- Miner........................ 36
2-2-3- نتايج محاسباتي........................... 39
2-2-3-1- تنظيم بصورت عملي....................... 39
2-2-3-2- نتايج تأثير تكنيك های پيش پردازش متنی وابسته به زبان شناسی............. 40
2-2-4- بحث و تحقيقات آينده...................... 43
2-3- تقسيم بندي صفحات وب براساس ساختار پوشهاي... 44
2-3-1 الگوريتم هاي تقسيم بندي صفحات وب.......... 45
2-3-2- روش مبتني بر ساختار...................... 47
2-3-3- يك كاربرد خاص............................ 47
2-3-3-1- استخراج مهمترين خصوصيات................ 48
2-3-3-2- عمل دسته بندي.......................... 50
2-3-4 نتايج..................................... 51
2-3-5- نتيجه گيري و عملكرد آينده................ 53
فصل سوم : جستجوي وب با استفاده از طبقه بندي خودكار
3-1- معماري .................................... 57
3-1-1- دسته كنندهي خودكار ...................... 57
3-1-2-واسط جستجو................................ 58
3-2- آزمایش معتبر سازي.......................... 59
3-2-2- برپایی آزمایش ........................... 60
3-2-2- نتایج تجربي.............................. 61
3-3- فهرست لغات هر دسته......................... 64
3-3-1- تشخیص هرزنامۀ¹ وب......................... 66
3-3-2- تأثیرات تبعیضات.......................... 67
3-4- عملکردهای بعدی ............................ 68
برچسب ها:
مقاله درباره تقسيم بندي صفحات نسخه ورد