کنفرانس جهانی وب؛ چالش ها و نوآوری حوزه بازیابی اطلاعات با استفاده از بُعد زمان

کنفرانس جهانی وب؛ چالش ها و نوآوری حوزه بازیابی اطلاعات با استفاده از بُعد زمان
نگارش از Euronews
هم‌رسانی این مطلبنظرها
هم‌رسانی این مطلبClose Button

کنفرانس جهانی وب که در سال‌های گذشته با عنوان www برگزار می‌شد، از سال ۲۰۱۸ با عنوان کنفرانس وب (The webConf) برگزار می‌ شود.

آگهی

کنفرانس وب (www)، کنفرانس بین المللی سالانه‌ای است که با موضوع شبکه جهانی وب، به صورت چرخشی در قاره‌های آمریکا، اروپا و آسیا برگزار می‌شود. 

این کنفرانس که در سال‌های گذشته با عنوان www برگزار می‌شد، از سال ۲۰۱۸ با عنوان کنفرانس وب (The webConf) برگزار می‌ شود. این کنفرانس امسال، از تاریخ ۲۳ تا ۲۷ آوریل در شهر لیون فرانسه برگزار شد. 

یکی از کارگاه‌هایی که از سال ۲۰۱۱ تا به امروز همواره در این کنفرانس برگزار شده است، کارگاه TempWeb نام دارد. هدف این کارگاه بررسی چالش‌ها و نوآوری حوزه بازیابی اطلاعات و وب‌کاوی با استفاده از بُعد زمان است.

به کانال تلگرام یورونیوز فارسی بپیوندید

به عنوان مثال فرض کنید کاربری در موتور جست‌وجوی گوگل عبارت "جام جهانی" را جست‌و‌جو می‌کند. سیستم‌های بازیابی اطلاعات برای این نیازاطلاعاتی باید به بعد زمان توجه داشته باشند و بررسی کنند کدام جام‌جهانی مد نظر کاربر بوده است. 

اگر کاربر این پرس‌وجو را در زمان برگزاری جام جهانی روسیه مطرح کند، به احتمال زیاد منظور او جام جهانی ۲۰۱۸ است اما اگر در سایر زمان‌ها مطرح شود، مشخص نیست کدام رویداد جام‌جهانی مد نظر او بوده است (سال ۲۰۱۸، ۲۰۱۴ یا سالهای قبلتر). این موضوع که تحت عنوان «ابهام زمانی پرس‌وجو» مطالعه می‌‌شود، تنها با در نظر گرفتن بعد زمان قابل حل است و شیوه‌های سنتی بازیابی اطلاعات نمی‌توانند پاسخ مناسبی به نیاز اطلاعاتی کاربر بدهند.

در این بخش به بررسی یکی از مقالات ارائه شده در کارگاه tempweb سال جاری با عنوان «شناخت رفتار جست‌وجوی کاربران نسبت به رویدادهای تکرارشونده» پرداخته می‌شود.

با وقوع رویدادها، بسیاری از تولیدکنندگان محتوا در شبکه‌های اجتماعی و صفحات وب اخبار آن رویداد را منتشر کرده و از طرف دیگر کاربران وب برای دریافت اطلاعات و اخبار به روز درباره رویدادها، پرس‌و‌جوهای زیادی را در موتورهای جست‌وجو مطرح می‌کنند. 

این رویدادها مرتبط با موضوعات مختلف از جمله سیاست (مانند انتخابات)، ورزش (مانند بازی‌های المپیک)، تعطیلات (مانند نوروز) و بلایای طبیعی (مانند زمین لرزه) است. زمانی که یک رویداد اتفاق می افتد، کاربران پرس‌وجوهای زیادی درباره آن رویداد مطرح می‌کنند که باعث افزایش فرکانس تعداد پرس‌وجوهای مربوط به آن رویداد می‌شود. این افزایش فرکانس برای رویداد «انتخابات آمریکا» در نمودار زمانی زیر مشهود است.

در مطالعه جاری، رفتار کاربران وب در قبال رویدادهای تکرارشونده نظیر: «انتخابات آمریکا»، «کریسمس» و «زلزله»، بررسی شده است. برای این منظور از لاگ دو سال موتورجست و جوی فارسی زبان به نام «پارسی جو» استفاده شده است. تحلیل لاگ موتورهای جست‌وجو به این سیستم‌ها کمک می کند تا درک بهتری از نیاز اطلاعاتی کاربران داشته باشند و بتوانند خدمات جست‌وجوی بهتری به آنها ارائه دهند.

به طور کلی رویدادهای تکرارشونده به پنج دسته قابل تقسیم هستند، که در شکل زیر نشان داده شده اند.

در این مطالعه تفاوت رفتار جست‌وجوی کاربران در هر دسته از رویدادهای تکرارشونده بررسی شده، که در ادامه سه مورد از آن‌ها ارائه می‌شود.

در ابتدا به تحلیل فرکانس تکرار پرس‌وجوهای هر دسته پرداخته شد با این هدف که تغییرات در فرکانس تکرار پرس‌وجو قبل، در حین، بعد از رویداد و در سایر زمان‌ها بررسی شود. 

برای تحلیل تغییرات در فرکانس پرس‌وجوها سه چارچوب زمانی معرفی می‌شود. چارچوب رویداد، زمانی است که در آن رویداد رخ می‌دهد. یک هفته قبل از چارچوب رویداد به عنوان چارچوب پیش رویداد و یک هفته بعد از آن به عنوان چارچوب پس رویداد تلقی می‌شود. 

پنجره رویداد، کل بازه زمانی سه چارچوب تعریف شده قبلی است و سایر بازه‌های زمانی (جز پنجره رویداد) پنجره عادی نامیده می‌شود. جدول زیر برای هر دسته از رویدادها میانگین درصد پرس‌وجوهایی که در موتور جست‌وجو ثبت شده اند را ارائه می‌کند.

یکی از ویژگی‌های اصلی پرس‌وجوهای مرتبط با رویدادها، وابستگی آنها به زمان است، زیرا هر رویداد در یک زمان معین رخ داده و کاربران ممکن است با استفاده از عبارات زمانی زمان رویداد را نیز مشخص کنند. به عنوان مثال در پرس‌وجوی «المپیک ۲۰۱۶»، کاربر با استفاده از عبارت زمانی «۲۰۱۶» زمان رویداد را نیز مشخص کرده تا موتور جست و جو اسنادی را بازیابی کند که مربوط به المپیک برگزار شده در آن سال می‌باشد. 

به طور کلی، پرس‌وجوهای مربوط به رویدادهای دوره‌ای، نسبت به رویدادهای غیردوره‌ای دارای عبارات زمانی بیشتری بودند. شکل زیر درصد استفاده از عبارات زمانی در پرس‌وجوهای مربوط به دسته‌های مختلف رویدادها (با در نظر گرفتن کل پرس‌وجوها و پرس‌وجوهای مجزا) را نشان می‌دهد.

در آخرین بخش از تحلیل‌ها، محتوای صفحات کلیک شده توسط کاربران تجزیه و تحلیل می‌شود. محتوای صفحات وب برای استراتژی‌های رتبه‌بندی اسناد مهم است. برای هر رویداد، ۲۰۰ صفحه‌ای که بیشتر توسط کاربران (۱۰۰ صفحه از پنجره رویداد و ۱۰۰ صفحه از پنجره عادی) کلیک شده است، جمع‌آوری شده و به طور کلی ۲۰ هزار صفحه وب تحلیل شده است. 

از سه ویراستار خواسته شد تا محتوای هر صفحه وب را بررسی کنند و به صورت دستی آن‌ها را با توجه به سه دسته صفحات اخیر، صفحات قدیمی و صفحات ویکی‌پدیا مانند طبقه‌بندی کنند. هر صفحه وب به موارد زیر تقسیم می شود: (۱) صفحات اخیر؛ که اطلاعات مربوط به آخرین قسمت این رویداد را ارائه می دهند، (۲) صفحات ویکی‌پدیا مانند؛ که اطلاعات عمومی در مورد این رویداد را فراهم می کند و (۳) صفحات قدیمی؛ که مربوط به قسمت‌های قدیمی رویداد است.

آگهی

آزمایشات انجام شده بر روی لاگ پرس‌وجو نشان می‌دهد که نتایج بازیابی باید در پنجره رویداد و پنجره عادی برای هر رده از رویدادها متفاوت باشد. جدول زیر نتایج آزمایشات را، با نشان دادن درصد صفحات کلیک شده (بر اساس نوع) در زمان رخ دادن رویداد (پنجره رویداد) و سایر زمان‌ها (پنجره عادی) برای دسته از رویدادها نشان می‌دهد.

نتایج این تحلیل‌ها نشان می‌دهد که برای رویدادهای دوره‌ای ادامه‌دار در پنجره رویداد، کاربران ترجیح می‌دهند که صفحات مربوط به رویداد اخیر را ببینند زیرا صفحات کلیک‌شده از سوی کاربران، درباره رویدادهای مختلف که هر کدام در زمانی خاص اتفاق افتاده‌اند اشاره دارد. 

به همین ترتیب، برای رویدادهای دوره‌ای تاریخی، در طول پنجره رویداد، کاربران عمدتا علاقه مند به دانستن در مورد جشن‌های یادبود اخیر هستند. با این حال، در مقایسه با رویدادهای دوره‌ای ادامه‌دار، تعداد قابل توجهی از کاربران نیز به صفحات مانند ویکی‌پدیا علاقه‌مند بودند. در پنجره عادی، صفحات مانند ویکی پدیا نیز به طور عمده در مقایسه با سایر انواع صفحات وب کلیک شده است. 

برای رویدادهای دوره‌ای مرتبط با روزهای خاص در پنجره رویداد بیشتر صفحات اخیر مورد توجه قرار گرفته است، در حالی که صفحات مانند ویکی‌پدیا در پنجره عادی ترجیح داده شدند. در نهایت، برای هر دو نوع رویداد غیر دوره‌ای در پنجره رویداد، صفحات اخیر بیشتر توسط کاربران انتخاب شدند، اما در پنجره عادی، رفتارهای متفاوت دیده می‌شود. برای رویدادهای قابل پیش‌بینی صفحاتی مانند ویکی‌پدیا به طور کلی انتخاب شده، اما برای رویدادهای غیر قابل پیش‌بینی، با توجه به اینکه کاربران صفحات مربوط به زمان‌های متفاوت را کلیک کرده‌اند، تنوع زمانی توصیه می‌شود.

به طور کلی، در این پژوهش، نشان داده شد کاربران نسبت به این رویدادها رفتار متفاوتی دارند و می‌توان آن‌ها را به پنج کلاس مختلف تقسیم کرد. در ابتدا رویدادها به دو دسته مجزای دوره‌ای وغیردوره‌ای تقسیم شدند. 

آگهی

وقایع دوره‌ای را می‌توان به سه زیر شاخه دسته بندی کرد: رویدادهای ادامه‌دار مانند «المپیک»، رویدادهای تاریخی مانند «حملات ۱۱ سپتامبر» و رویدادهای مربوط به روزهای خاص مانند «روز مادر». رویدادهای غیر دوره‌ای نیز، به دو گروه رویدادهایی که وقوع آن‌ها قابل پیش‌بینی است مانند «ماه گرفتگی» و رویدادهای غیر منتظره مانند «زلزله» تقسیم می‌شوند. 

تحلیل‌ها نشان داد که کاربران نسبت به هر دسته رفتار متفاوتی دارند که موتورهای جست‌وجو با در نظر گرفتن آنها می‌توانند سرویس‌های بهتری به کاربران ارائه دهند.

نگارش از بهروز منصوری

هم‌رسانی این مطلبنظرها

مطالب مرتبط

امکانات جدید جی‌میل برای کاربران خود چیست؟

اینترنت عامل افزایش قاچاق سلاح گرم در اروپا

ده ماه حبس برای مادری که فرزندانش را در خانه تنها گذاشت تا به جشن تولد برود