|
مقدمه
استفاده از فناوري هاي الکترونيکي در زمينه امور بازرگاني پيشينه اي نسبتا طولاني دارد. اولين تلاش ها در اين زمينه از سال 1965 م. آغاز گرديده است. امکان دريافت پول از دستگاه هاي خود پرداز (ATM ) و خريد از طريق کارت هاي اعتباري از ابتدايي ترين اقدامات انجام گرفته در اين زمينه مي باشند (Molla and Licker 2001) . اين روند با ايجاد سيستم هاي ميان سازماني که امکان تبادل اطلاعات بين سازمان ها و هدايت الکترونيکي کسب و کار را فراهم نمودند دنبال گرديد (Senn, 2000) .
در سالهاي نخستين دهه 90 نياز به مبادله اطلاعات تجاري ميان شرکت هاي بزرگ به حدي جدي شد که پيش از توسعه تکنولوژي هاي مبتني بر اينترنت، خود اين شرکت ها اقدام به ايجاد شبکه هاي کامپيوتري با سطوح دسترسي محدود نمودند. در آن زمان اين روش مبادله اطلاعات "مبادله الکترونيکي داده ها" يا EDI ناميده شد. ايجاد و توسعه اينترنت بستر مناسبي براي انتقال اطلاعات با حجم زياد ميان کشورها، سازمانها و افراد با يکديگر ايجاد نمود. اين بستر همان چيزي بود که امکان بازرگاني الکترونيکي را فراهم آورد (Vadapalli, 1998) .
دانشمندان علوم ارتباطات توسعه تجارت الکترونيکي را از يکسو مرتبط به گسترش قابليت هاي فناوري اطلاعات و از سوي ديگر وابسته به کاهش هزينه هاي مترتب به استفاده از اين فناوري مي دانند. از اين ديدگاه فناوري اطلاعات در دوره موسوم به عصر اينترنت قراردارد. اين عصر سومين دوره از دوره هاي جهش فناوري اطلاعات قلمداد گرديده است (Seddon, 1997) . تقسيم بندي مورد نظر براي اين فرآيند سه دوره بيست ساله به شرح ذيل قائل مي باشد:
- 1974-1955: عصر پردازش الکترونيکي داده ها (EDP )
- 1994-1975: عصر سيستم هاي اطلاعاتي مديريت (MIS )
- 2014-1995: عصر اينترنت
هر يک از دوره هاي مورد اشاره متناسب با توانايي هاي تکنولوژيکي همان دوره امکانات تجارت الکترونيکي را فراهم آورده اند. در عصر نخست ماشين هاي خود پرداز و کارت هاي اعتباري بوجود آمدند و در عصر دوم امکان استفاده از مبادله الکترونيکي داده ها (EDI) ، سيستم بانکي بين المللي SWIFT ، و انتقال وجه الکترونيکي (EFT ) فراهم آمد. اما بزرگترين تحولات در عصر سوم و در دوره توسعه اينترنت و کاربرد هاي تجاري آن شکل گرفت. اين تحولات به قدري شگرف بوده اند که باعث تمايز بين تجارت الکترونيکي از نوع سنتي و اينترنتي گرديده اند (Molla and Licker, 2001) .
از ويژگي هاي بارز دوران سوم تجارت الکترونيکي حجم عظيم داده هاي در دسترس از طريق اينترنت مي باشد. دسترسي به اطلاعات تجاري لازم از ميان اين داده ها که شامل اطلاعات گوناگون و در تمام حوزه هاي متصور مي باشند کاري بسيار دشوار مي باشد. دشواري اين فرآيند زماني بيشتر محسوس مي گردد که جستجوي اطلاعات مورد نياز از طريق ابزار هاي متداول جستجو در اينترنت مانند موتور هاي جستجو منجر به ارجاع ليست هايي بسيار طولاني مي گردند که غالبا فقط حوصله و امکان بازديد تعداد محدودي از آنها براي کاربر وجود دارد و اين موجب مي گردد که در بسياري از موارد بهترين و کاملترين گزينه ها اصلا مورد بازديد کاربر قرار نمي گيرند. گرچه اين يک معضل عمومي براي کاربران اينترنت محسوب مي گردد اما براي کاربراني که به دنبال اطلاعات تجاري در زمينه هايي چون خريد، فروش، بازاريابي، سرمايه گذاري و ... مي گردند از ابعاد پيچيده تري برخوردار است.
بي شک مساله بازيابي مناسب اطلاعات تجاري از اينترنت و ساير پايگاه هاي داده با مقياس بزرگ و بسيار بزرگ از مهمترين مشکلات موجود بر سر راه استفاده بهينه از اين منابع اطلاعاتي مي باشد.
امروزه وب بزرگترين پايگاه داده از مستندات مختلف مي باشد و هرچه وب گسترده تر مي شود نياز به ابزار هاي قوي جستجو در اينترنت بيشتر احساس مي شود. در حال حاضر سرويس هاي زيادي براي جستجوي وب موجود است. ولي هيچکدام از اين ابزار ها آنقدر که مورد انتظار است مفيد نيستند و عملا در بسياري از موارد نتايج رضايت بخش نيستند. يکي از مهمترين عوامل اين امر عدم برخورد تخصصي اين ابزارها با اطلاعات است. به عنوان نمونه چون اين ابزار ها براي جستجوي عام طراحي شده اند بنابراين نمي توانند نياز هاي يک کاربر به اطلاعات تجاري را به صورت دقيق برآورده سازند. بنابراين گرايش به سمت ابزارهاي جستجوي تخصصي راه حل طبيعي اين معضل مي باشد. يکي از مهمترين عوامل در ايجاد اينگونه ابزارها وجود قابليت يادگيري و اصلاح مدل رفتاري آنها در قبال موضوعات مختلف، و به صورت تخصصي مي باشد. در اين مقاله راجع به يک فراجويشگر هوشمند بحث شده است که با استفاده از تکنيک هاي ترکيب اطلاعات نقش يک فراجويشگر سفارشي در زمينه هاي تجاري را براي کاربر ايفاء مي کند.
خصوصيات عامل فراجويشگر هوشمند ترکيب اطلاعات
اين عامل کلمات و عبارات تخصصي تجاري مورد علاقه کاربر را که مايل است مطالب مرتبط با آن کلمات را مطالعه نمايد دريافت مي کند و سپس از کاربر مي خواهد تا براي اهميت حضور و يا عدم حضور آن کلمه يا عبارت در متن، وزني در نظر بگيرد. اين وزن به صورت مفهومي زباني مي باشد. به اين صورت که کاربر مي تواند تعيين کند که حضور و يا عدم حضور يک لغت يا عبارت در متن با اهميت کم، با اهميت زياد، و يا با اهميت بسيار زياد مي باشد.
سپس عامل توسط واحدي به نام Query Generator به تعداد سرويس دهنده هاي اطلاعاتي (مثلا جويشگر هاي اينترنتي و يا پايگاه هاي داده) که قالب پرس و جو ي آنها را مي شناسد، پرس و جو آماده مي کند. (شکل هاي 1و 2 و 3)
پس از ارسال پرس و جو ها هر سرويس دهنده ليستي از مستندات را باز مي گرداند که اين ليست با توجه به الگوريتم کاري همان سرويس دهنده بر اساس نزديکي موضوع به پرس و جو رتبه بندي شده است. سپس فراجويشگر اين ليست ها را بررسي مي کند و موارد تکراري را حذف مي کند و آنها را بر اساس الگوريتم هاي مناسب ترکيب مجموعه ها به صورتي با يکديگر ترکيب مي کند که يک ليست مرتب شده از مستندات ايجاد شود. از اين بابت به هر سند بر اساس رتبه اش در اين ليست يک امتياز تعلق مي گيرد (شکل 2) . (Yager and Rybalov, 1997) .
سپس تک تک مستندات موجود در اين ليست مورد پردازش قرار مي گيرند و وضعيت آنها از لحاظ حضور و يا عدم حضور لغات و عباراتي که کاربر مشخص کرده است تعيين مي گردد و بر اساس تعداد و پراکندگي حضور آنها دو امتياز به هر سند تعلق مي گيرد. در اين مکانيزم، عملگر قدرتمند OWA (Yager and Kacprzyk, 1997) نقش اساسي بر عهده دارد. جنبه هاي فوق از عملکرد فراجويشگر مورد بحث به تفصيل در (Kavousi and Moshiri, 2007) مورد بررسي قرار گرفته اند(شکل 1) .
تمرکز اصلي اين مقاله بر نحوه ترکيب ليست هاي حاصل از موتورهاي جستجو و مدل سازي از موتورهاي جستجوي مورد استفاده توسط فراجويشگر قرار دارد. هربار که کاربر قصد استفاده از فراجويشگر را دارد مشخص مي کند که موضوع مورد علاقه اش در کدام خوشه موضوعي قرار مي گيرد. منظور از يک خوشه موضوعي يک دسته بندي منطقي از موضوعات مورد علاقه است. هربار که کاربر جستجوي جديدي را آغاز مي کند مي تواند يکي از خوشه هاي موجود را برگزيند و يا يک خوشه جديد ايجاد نمايد. برخي از دسته بندي هايي که در حال حاضر در اين فراجويشگر پيش بيني شده اند در جدول 1 آمده اند. عامل با توجه به تاريخچه عملکرد هر سرويس دهنده ي اطلاعاتي در هر دسته بندي موضوعي، به هر سرويس دهنده يک امتياز اختصاص داده است. زماني که کاربر خوشه خاصي را انتخاب نمود، به هر سند بر اساس سرويس دهنده اي که آنرا بازيابي نموده است امتياز همان سرويس دهنده را اختصاص مي دهد. اين امتياز ها پس از هربار استفاده از فراجويشگر بر اساس يک الگوريتم که در ادامه به صورت کامل توضيح داده خواهد شد به روز رساني مي گردند و بنابر اين به تدريج مدل رفتاري هر موتور جستجو و نحوه عملکرد آن در قبال يک موضوع خاص در ذهن فراجويشگر هوشمند شکل مي گيرد.
شماره خوشه |
موضوع خوشه |
1 |
MEMS marketing |
2 |
Portland Cement Production |
3 |
Sony laptop market in European Union |
... |
... |
جدول 1: ليست برخي از خوشه هاي اطلاعاتي که عامل هوشمند در حال حاضر سوابق آنها را براي شناسايي مدل رفتاري سرويس دهنده هاي اطلاعاتي نگهداري مي کند
با توجه به توضيحات فوق براي هر سند 4 امتياز مختلف يدست مي آيد که در نهايت عامل بايد امتياز نهايي هر يک از مستندات را بر اساس آنها محاسبه نمايد و در اختيار کاربر قرار دهد. اين کار از طريق ترکيب اين امتيازات با روش هاي ترکيب اطلاعات انجام مي گيرد و در آن براي هر امتياز وزني در نظر گرفته مي شود که اين وزن نشاندهنده اهميت آن معيار در تصميم گيري نهايي مي باشد. همچنين در نهايت امتياز هر سرويس دهنده در آن دسته بندي خاص با/بدون بازخوردي که از کاربر دريافت مي شود تصحيح مي گردد (شکل 3).
به خاطر گستردگي بحث در اين مقاله روش ها و الگوريتم هاي مورد استفاده در زمينه چگونگي امتيازات تخصيصي در ارتباط با حضور و يا عدم حضور لغات و عباراتي که کاربر مشخص کرده است و نيز بر اساس تعداد و پراکندگي حضور انها مورد بحث نيستند و در (Kavousi and Moshiri, 2004) مورد بررسي کامل قرار گرفته اند.
مساله ترکيب مجموعه ها
در اين قسمت به نحوه ي استفاده از عامل مورد بحث از مکانيزم ترکيب ليست ها مي پردازيم.
ابزار هاي مختلف جستجوي وب و ساير بانک هاي عظيم اطلاعاتي مرتبط با امور بازرگاني اغلب مکمل يکديگر هستند. بنابر اين براي پوشش دادن هرچه بيشتر منابع اطلاعاتي و بدست آوردن نتايج خالص تر يک استراتژي معقول آن است که از ابزار هاي جستجوي مختلف استفاده شود و در نهايت نتايج حاصل از آنها پالايش و سپس با هم ترکيب شوند. حال سوال اساسي آن است که بهترين روش براي ترکيب اين ليست ها چيست؟ دلي اهميت اين سوال آن است که ليست هايي که ابزار هاي جستجو ارائه مي کنند عمدتا مرتب شده هستند. اين ترتيب بر اساس مدل رفتاري هر ابزار، منابع اطلاعاتي در دسترس، و اولويت هايي که در نظر مي گيرد تنظيم مي شود و بنابر اين اين ليست ها براي ابزار هاي گوناگون جستجو متفاوت مي باشند.
شکل 1: دريافت علائق کاربر، استخراج ويژگي هاي مورد نظر از مستندات بازيابي شده توسط سرويس دهنده هاي اطلاعاتي، و ترکيب نتايج نهايي
فرض کنيد گروهي از سرويس دهنده هاي اطلاعاتي (مانند موتورهاي جستجوي اينترنتي) در اختيار داريم. اين سرويس دهنده ها را با نشان مي دهيم که در آن تعداد سرويس دهنده ها مي باشد.همچنين فرض مي کنيم هر سرويس دهنده مجموعه ي منحصر به فردي از اسناد را در اختيار دارد(يعني موارد تکراري از ليست ها حذف شده اند و هر سند فقط در ليست يکي از سرويس دهنده ها قرار دارد). حال براي يک کوئري مانند ، هر سرويس دهنده يک امتياز به هر سند مي دهد و در نهايت در پاسخ هر کوئري يک ليست مرتب شده از اسناد مرتبط با آن کوئري را باز مي گرداند.
حال ما ميخواهيم همه اين ليست ها را با هم ادغام کنيم و يک ليست واحد بوجود آوريم که اقلام آن به ترتيب اهميت از ميان همه قلم هاي موجود در تمام ليست ها انتخاب شده اند(شکل 2).
اما نحوه ادغام آنها و توليد يک ليست نهايي بحث بسيار مهمي است که پارامترهاي متعددي در آن نقش دارند.
فرض کنيد که ليستي که بايد با هم ادغام شوند را با نشان مي دهيم. همچنين تعداد اقلام موجود در ليست ام را با نشان مي دهيم. منطقي ترين راه براي ادغام اين ليست و توليد يک ليست مرتب شده آن است که به هر قلم از ليست ها يک مقدار نسبت داده شود و سپس همه قلم از روي اين مقادير مرتب شوند. بنابر اين سوال اساسي اين خواهد بود که چگونه مي توان اين مقدار را براي هر قلم اطلاعاتي تعيين نمود؟ براي اين منظور ما تابعي از دو متغير نياز داريم. يعني رتبه نهايي هر قلم از ليست ها بوسيله دو پارامتر مشخص مي شود.
- عدد j که نشان مي دهد يک قلم از ليست
انتخاب شده است.
- رتبه i که مکان اين صفحه در ليست
را نشان مي دهد(اولين قلم هر ليست را با 1 نشان مي دهيم).
بنابر اين مقدار بايد با استفاده از مقادير i و j به صورت منحصر به فرد محاسبه شود. بر اساس اصل فقدان دليل کافي که در تئوري آمار بيزين و در تئوري تصميم سازي مطرح مي شود، براي دو ليست که طول مساوي دارند مقدار امتياز تخصيصي به قلم i ام در هر دوليست برابر خواهد بود. بنا براين براي ليست هاي با طول مساوي اگر فرض کنيم که هيچ اطلاعاتي در مورد کيفيت اقلام اطلاعاتي ليست ها در دست نداريم، به مقادير هم مکان در اين ليست ها مقادير يکسان اختصاص داده خواهد شد.بنا براين وابستگي به j به معني وابستگي آن به خواهد بود. يعني:
(1)
حال بايد سعي کنيم تابع دو متغيري مناسبي براي جايگزيني با پيدا کنيم. در (Yager,97) نشان داده شده است که هر تابع پيوسته ي دو متغيري حقيقي مانند در صورتيکه دو شرط زير را ارضا نمايد مي تواند جهت ادغام ليست هاي رتبه بندي شده مورد استفاده قرار گيرد:
اگر باشد در اين صورت
- براي هر
و و و و داشته باشيم:
شرط اول بيان مي دارد که عناصر با فاصله مساوي در ليست نهايي نيز همان فاصله را حفظ مي کنند. شرط دوم نيز بيان مي کند که با تغيير سطح غربال ترتيب رتبه براي دو عنصر رخ نمي دهد.
شکل 2: ارسال کوئري به سرويس دهنده هاي اطلاعاتي و ايجاد يک ليست رتبه بندي شده با استفاده از نتايج بازگشت داده شده بر اساس الگوريتم هاي ترکيب ليست
در همان مرجع قضيه زير اثبات شده است:
قضيه: تابع يک ترکيب کننده ي ليست ها را توصيف مي کند اگر براي مقادير حقيقي ، و داشته باشيم:
(2)
در (Yager,97) نشان داده شده است که رابطه فوق مي تواند رفتار يک فرد خبره را شبيه سازي نمايد.
در نهايت با اعمال الگوريتم هاي مناسب براي تعيين بهينه ي مقادير و در رابطه ي فوق، مي توان يک ليست مرتب شده بوجود آورد. در اين ليست مرتب شده هر سند بر اساس موقيتش در اين ليست مرتب شده يک امتياز دريافت خواهد کرد که در محاسبه نهايي امتياز مستندات يکي از معيار هاي چهارگانه خواهد بود. اين امتياز براي هر سند به صورت زير محاسبه مي گردد:
(3)
که در آن امتياز تخصيصي به هر سند بر اساس رابطه ي (2) و تعداد مستندات در ليست نهايي مي باشند.
امتياز تخصيصي به اسناد بر اساس تعداد n-gram هاي مورد علاقه ي کاربر
در ابتدا تعريفي کوتاه از n-gram ارائه مي نمائيم. يک n-gram يک زير رشته به طول n از يک رشته از کلمات مي باشد. از مفهوم n-gram در حيطه هاي وسيعي از جمله پردازش زبان هاي طبيعي، و آناليز توالي هاي ژنتيکي استفاده مي شود. مي توان نشان داد که يک n-gram ، يک مدل مارکوف از مرتبه ي n-1 مي باشد.
فرکانس تکرار يک n-gram در يک متن تا حدود زيادي مي تواند ارتباط آن متن با عبارت مورد نظر را نشان دهد. البته اين بحث در حيطه ي همبافت شناسي متون مطرح مي گردد و داراي ظرافت هاي بسياري است. مثلا عدم حضور n-gram هايي که کاربر حضور آنها را در متن نمي پسندد گاهي به اندازه ي حضور عبارات مورد علاقه اهميت دارد. در اين ميان حجم سند مورد نظر نيز از اهميت زيادي برخوردار است. به اين معني که تعداد n-gram ها در واحد حجم سند پارامتر مناسبي محسوب مي شود و تعداد آنها به تنهايي ملاک مطلوبي نيست.
اگر فرض کنيم که تعداد n-gram هاي مورد علاقه ي کاربر T عدد مي باشد، براي هر سند از بابت تعداد n-gram ها T امتياز مختلف به دست مي آيد که اين امتياز ها بوسيله ي يک عملگر ترکيب اطلاعات ترکيب مي گردند و به اين ترتيب به هر سند از اين بابت يک امتياز تعلق مي گيرد(شکل 1) که اين سند را مي ناميم و عامل از آن در تصميم گيري نهايي استفاده خواهد کرد. در اينجا از ذکر جزئيات امر خودداري مي گردد. براي آشنايي با جزئيات اين کار، خواننده مي تواند به (Kavousi and Moshiri, 2007) مراجعه نمايد. در آن مرجع از عملگر OWA براي ترکيب اطلاعات استفاده شده و جزئيات به تفصيل شرح داده شده است.
امتياز تخصيصي به اسناد بر اساس پراکندگي n-gram هاي مورد علاقه ي کاربر(ميزان دوري و نزديکي يک n-gram به ابتداي متن)
ميزان دوري و نزديکي n-gram ها به ابتداي متن در يک سند و يا در بياني جامع تر، نحوه ي توزيع n-gram ها در متن يک سند پارامتر مهمي در سنجش ميزان ارتباط يک متن با n-gram مورد علاقه ي کاربر مي باشد. البته خود ايم موضوع جاي بحث فراواني دارد. زيرا اين امکان وجود دارد که قسمت هاي پاياني يک سند طولاني ارتباط عميقي با موضوع مورد علاقه ي کاربر داشته باشد. در اين حالت اگر به تنهايي از اين پارامتر براي رتبه بندي مستندات استفاده شود نتايج ضعيفي به دست خواهد آمد. يکي از فوائد ترکيب اطلاعات همين امر است که حتي اگر يکي از منابع اطلاعاتي به دلايلي اطلاعات غير دقيق و توام با عدم قطعيت ارائه نمايد، باز هم اين امکان وجود دارد تا با استفاده از ساير منابع اطلاعاتي نتايجي قابل قبول بدست آيد.
براي محاسبه اين امتياز براي هر سند ابتدا تمام اسناد بايد هم حجم شوند. يعني براي آنکه متريک مناسبي براي محاسبات داشته باشيم فرض مي کنيم که همه ي مستندات تعداد کلمات برابر دارند. سپس با اين فرض مکان جديد هر n-gram را در هر سند محاسبه مي کنيم. در اين حالت نيز از ذکر جزئيات عمل محاسبه پرهيز مي گردد. براي آگاهي از الگوريتم اين کار مي توان به (Kavousi and Moshiri 2007) مراجعه نمود. به اين ترتيب در اين مرحله نيز چنانچه تعداد n-gram ها برابر T باشد، براي هر سند T امتياز بدست مي آيد که عامل بايد اين امتيازات را با يک عمگر ترکيب اطلاعات با هم ترکيب نمايد. در همان مرجع نحوه ي انجام اين کار با استفاده از عملگر OWA تشريح گرديده است. امتياز نهايي حاصل از اعمال عملگر OWA سومين امتياز دخيل در رتبه بندي نهايي را شکل مي دهد و آن را با نشان مي دهيم(شکل 1).
امتياز تخصيصي به هر سند بر اساس سرويس دهنده اي که آن سند را بازيابي نموده است
ايده اصلي در نظر گرفتن اين پارامتر به عنوان يکي از امتياز هاي مورد استفاده در رتبه بندي نهايي مستندات آن است که سرويس دهنده هاي اطلاعاتي و موتورهاي جستجوي اينترنتي هريک با فلسفه هاي گوناگوني طراحي شده اند و نقاط قوت و ضعف يکساني ندارند. بنابر اين آگاهي از نقاط قوت و ضعف اين سرويس دهنده ها در بازيابي اطلاعات مرتبط با هر خوشه ي موضوعي مي تواند عامل را در تصميم گيري بهتر ياري نمايد. به عنوان مثال اين امکان وجود دارد که يک منبع اطلاعاتي، اطلاعات مربوط به نوسانات قيمت طلا را بسيار دقيق در اختيار بگذارد و سرويس دهنده اي ديگر اطلاعات مربوط به بازار جهاني سيمان را بسيار دقيق منعکس نمايد. طبيعي است در اين شرايط مستنداتي که از منبع اول استخراج شده اند احتمالا براي فردي که به بازار طلا علاقه مند است جالب تر از اطلاعات مرتبط مستخرج از منبع دوم مي باشد. عامل طراحي شده بايد قادر باشد تا به مرور زمان مدل رفتاري هر سرويس دهنده اطلاعاتي را در قبال خوشه هاي موضوعي مختلف شناسايي نمايد و به هر سند بر اساس پيشينه ي رفتار سرويس دهنده اي که آن سند را استخراج نموده است يک امتياز تخصيص دهد. در اينجا مدلي رياضي براي اين کار ارائه مي گردد.
در ابتدا عامل در هر خوشه ي موضوعي امتياز 0.5 (نصف امتياز بيشينه) را به هر سرويس دهنده تخصيص مي دهد. همچنين هربار که خوشه ي موضوعي جديدي به عامل معرفي گردد، عامل به تمام سرويس دهنده ها در آن خوشه ي موضوعي امتياز 0.5 را نسبت مي دهد. هربار که عامل هوشمند نتايج نهايي را به کاربر نشان مي دهد، در صورت رضايت کاربر از نتايج، الگوريتمي توسط عامل اجرا مي شود که طي آن امتياز هاي تخصيصي به سرويس دهنده ها در آن خوشه ي موضوعي اصلاح مي شود. يعني چنانچه نتايج بازيابي شده توسط يک منبع اطلاعاتي در ليست نهايي رتبه هاي بهتري را اشغال کرده باشد، امتياز آن سرويس دهنده در آن دسته بندي موضوعي متناسب با وضعيت جديد افزايش خواهد يافت و چنانچه نتايج يک سرويس دهنده ضعيف باشد امتياز آن کاهش خواهد يافت.
بدين ترتيب پس از گذشت مدتي، عامل براي هر دسته بندي موضوعي، مدلي رفتاري از سرويس دهنده هاي اطلاعاتي بدست مي آورد که با ارائه ي آن به کاربر او را در انتخاب موتورهاي جستجو و سرويس دهنده هاي اطلاعاتي کارآمدتر در هر زمينه ياري مي نمايد. در ادامه نحوه ي انجام اين عمليات توسط عامل را شرح خواهيم داد.فرض کنيم امتياز سرويس دهنده ي i ام در مرحله جاري باشد. ما به دنبال تابعي هستيم که با در يافت مقادير و نيز امتياز تخصيص داده شده به هر سرويس دهنده در مرحله ي جاري ( که با توجه به تعداد و رتبه ي مستندات بازيابي شده توسط اين سرويس دهنده در ليست نهايي محاسبه مي گردد)، بتواند (امتياز سرويس دهنده ي ام در مرحله ي بعد) را محاسبه نمايد. يعني:
(4)
با تعيين مناسب تابع مي توان مقادير امتياز هر سرويس دهنده را به روز نمود. اما بايد در نظر داشت که پارامتر زمان نيز به طور غير مستقيم در اين تابع نقش دارد. در واقع اهميت اين تابع از آن جهت است که بتواند متوسط عملکرد رفتار هر سرويس دهنده ي اطلاعاتي را بازنمايي نمايد. ساده ترين راه حل در اين مورد که به نحو مطلوبي نيز عمل کرده است، محاسبه ي ميانگيت امتيازات نسبي هر سرويس دهنده در هر خوشه مي باشد. براي اين منظور رابطه ي زير مناسب مي باشد:
(5)
که در آن نشاندهنده ي تعداد دفعاتي است که در خوشه ي ام به سرويس دهنده ي ام کوئري ارسال شده است و نتايج حاصل از آن مورد استفاده قرار گرفته است. در اين صورت اگر امتياز ناشي از سرويس دهنده ي بازيابي کننده ي سند ام را با نمايش دهيم خواهيم داشت:
(6)
از اين امتياز به عنوان چهارمين امتياز دخيل در رتبه بندي نهايي مستندات استفاده خواهد شد.
محاسبه ي امتياز نهايي
همانطور که در قسمت هاي قبلي شرح داده شد براي هر سند چهار امتياز به شرح زير محاسبه مي گردد:
- امتايز ناشي از ترکيب ليست هاي رتبه بندي شده براي سند k ام
- امتياز تعداد n-gram هاي موجود در سند k ام
- امتياز پراکندگي n-gram ها در سند k ام
- امتياز سرويس دهنده ي بازيابي کننده ي سند k ام در خوشه ي موضوعي j ام
در اينجا نيز براي محاسبه ي امتياز نهايي تخصيصي به هر سند، استفاده از يک اپراتور ترکيب اطلاعات مانند OWA ضروري مي باشد(شکل 3).
مکانيزم انجام اين کار نيز در (Kavousi and Moshiri, 2007) شرح داده شده است.
واضح است که اهميت همه ي معيار هاي چهار گانه ي فوق در تصميم گيري يکسان نيست. ها ضرايب اهميتي هستند که به هريک از معيارهاي چهارگانه ي فوق تعلق مي گيرند، و در طول زمان تغيير مي کنند. به عنوان مثال امتياز ناشي از سرويس دهنده هاي اطلاعاتي در ابتدا که هنوز مدل رفتاري سرويس دهنده ها ناقص است، زياد معتبر نيست و بنابر اين اهميت کمتري خواهد داشت. ولي به مرور اين اهميت بيشتر خواهد شد. در اينجا جلوه ي ديگريا از عملکرد تطبيقي عامل مورد نظر ديده مي شود.
براي آموزش ها مي توان استراتژي هاي مختلفي در پيش گرفت. در ادامه يکي از روش هاي ممکن که توسط نگارندگان پيشنهاد گرديده است، توضيح داده خواهد شد.
مکانيزم اين کار به اين صورت است که پس از اينکه در يک دوره ي کامل، ليست نهايي مستندات بر اساس امتياز ها آماده شد، امتياز نهايي با هريک از مقادير و مقايسه مي شود و به هرکدام از اين امتياز ها که نزديکترباشد، ضريب اهميت آن معيار بايد افزايش بيشتري داشته باشد. براي اين منظور ميانگين خطاي امتياز نهايي از امتياز هريک از معيارهاي چهارگانه ملاک عمل قرار مي گيرد. هربار اين مقدار خطا با توجه به داده هاي جديد ميانگين گيري مي شود. مطلب فوق را مي توان به صورت زير بيان نمود:
(7)
که در آن نشاندهنده ي تعداد دفعات استفاده از عامل از ابتدا(زمان ريست کردن امتيازات) تا کنون مي باشد. بنابر اين هرچه مقدار خطاي براي معيار i ام کوچکتر باشد آن معيار، معياري مناسب تر مي باشد.
بنابر اين مقادير به صورت زير اصلاح مي شوند:
(8)
همانطور که مشخص است شرط نيز برقرار مي باشد.

شکل 3: ترکيب امتيازاتي که نحوه تشکيل آنها در شکل هاي 1 و 2 نشان داده شده اند و ايجاد ليست رتبه بندي شده ي نهايي و نيز به روز رساني ضرايب اهميت و همچنين مدل رفتاري سرويس دهنده هاي اطلاعاتي
- Automatic Teller Machine
- Inter-organizational Systems
- Electronic Data Interchange
- Electronic Data Processing Era
- Management Information System Era
- Society for Worldwide Inter -bank Financial Telecommunication
- Electronic Funds Transfer
- Data/Information Fusion
- Ordered Weighted Averaging Operator
- Micro Electro Mechanical Systems
-Principle of Insufficient Reason
- Ordered Weighted Averaging Operator
|