Menu

اخبار کتابخانه

شنبه 09 فروردین 1399
تعداد بازدید: 1278
تعداد نظرات: 0

دورهمی علمی کتابدارن استان قم با موضوع پژوهش در محیط وب (نشست دوم) به صورت آنلاین برگزارشد

در ابتدای این جلسه دکتر طاهری ضمن تبریک سال نو و آرزوی سلامتی ، در ادامه مباحث گذشته پس از معرفی مشهورترین موتورهای کاوش به معرفی انواع مختلف جستجو اعم از جستجوی ساده ، جستجوی پیشرفته ، جستجوی پایه، جستجوی فوق پیشرفته و خبره و جستجوی متحد پرداختند و گفتند: جستجوی ساده همانطور که از نامش پیداست یک فیلد ساده دارد و یک جستجوی کلی انجام می دهد مانند تمام جستجوهایی که در طول روز در گوگل انجام می گیرد ، ولی در مقابل ، جستجوی پیشرفته دارای چند فیلد از پیش تعیین شده است که از طریق آن می توانیم محدودیتهایی را بسته به نوع پژوهش خود برای جستجو قائل شویم.

شرح کامل جلسه دوم:

اولین ابزاری که در اینجا معرفی می‌کنیم، موتورهای کاوش هستند و همانطور که گفتیم بیشترین زمانی که کاربران در محیط وب اختصاص می‌دهند، مربوط به کار با موتورهای کاوش است. این در نهایت نشان می‌دهد که موتورهای کاوش چه ابزار پژوهشی کارآمدی هستند و چقدر می‌توانند برای پژوهش به کاربران کمک کنند. موتورهای کاوش، به دلیل تنوع خدماتشان و قابلیتهای مختلفی که دارند و حجم دیتایی که پوشش می‌دهند، شاید بهترین ابزار وب باشند. در عین حال بخاطر اهمیت شان، خود، یک موضوع پژوهشی مهمی هستند که الان پژوهشهای مختلفی در دنیا در خصوص موتورهای کاوش انجام می‌شود، که این، اهمیت این ابزار کارآمد را نشان می‌دهد. اولاً ساختارشان بسیار پیچیده است و ما توضیح مختصری درباره ساختارشان دادیم. موتورهای کاوش از سه بخش اصلی تشکیل شده: ربات یا spider indexer یا نمایه ساز خزنده هم به آن می‌گویند. دیتابیس یا نمایه مغلوب یا inverted index که شبیه نمایه‌های پایان کتاب است که کلیدواژه‌ها قرار گرفته و جلوی آنها شماره صفحات آمده است. در اینجا هم دقیقاً به همان شکل است، کلیدواژه‌ها استخراج و توکنایز (tokenize) می‌شوند و ریشه‌های کلمات تجزیه می‌شود و فرایند پیچیده و پردازشهای خیلی قوی روی آنها انجام می‌شود و کلیدواژه‌ها در این نمایه مرتب می‌شوند و به‌جای شماره صفحه‌ها در نمایه پایانی کتاب، UIR یعنی آدرس صفحات وب قرار می‌گیرد. بخش دیگر، نرم‌افزاری به نام query possessor یا پردازشگر درخواست است. ما از طریق پردازشگر درخواست، جستجو می‌کنیم. همان باکس جستجو در موتورکاوش مربوط به همان نرم‌افزار است و کار آن تطابق درخواست شما یا کلیدواژه ها با نمایه مغلوب یا inverted index است. اگر تطابقی وجود داشت، بازیابی می‌کند و UIR ها را به شما ارائه می‌دهد. اینکه چطور رنک می‌شوند، بحث دیگری است که گوگل هزاران فاکتور برای رنکینگ دارد و بحث مفصلی است. براساس یک سری سیاستها رنک می‌شود و افراد آنها را استفاده می‌کنند. ما به‌غیر از موتورهای کاوش در وب، دو ابزار دیگر هم داریم، یکی از آنها راهنماهای موضوعی یا subject directory که توسط انسان انجام می‌شوند، وبسایتهای مهم را در زمینه‌های مختلف شناسایی می‌کردند و تفاوتشان با موتورهای کاوش این بود که فقط صفحه اول وبسایتها بود، ولی موتورهای کاوش اگر نتایج در صفحه nم عمیق در وبسایت هم باشد، ایندکس و شناسایی می‌کنند. براساس یک طرح رده‌بندی که معمولاً UDC (universal decimal classification) یا طرح رده‌بندی جهانی است که در اروپا گسترش پیدا کرد و ترکیبی از طرح رده‌بندی دیویی و طرح رده‌بندی کولن بود. این هم ابزار دیگری بود. مهمترین ویژگی آن relevance بود؛ یعنی منابعی که پیدا می شد به این طریق ارتباط زیادی داشت و کاملاً با موضوعی که تگ خورده بود، مرتبط بود. الان به دلایل مختلف، این ابزار دیگر نیست، اولاً اینکه موتورهای کاوش کاملاً آنها را پوشش می‌دهند و دوم اینکه الان با پدیده big data مواجه هستیم که سرعت عامل انسانی به شناسایی تک تک این سایتها نمی‌رسد. الان دیگر این امر امکان‌پذیر نیست و کسی هم روی این کار سرمایه‌گذاری نمی‌کند. حتی الان ابزارهای فعلی هم پاسخگوی big data نیستند. نوع دیگری از موتورهای کاوش را داشتیم به نام hybrid search engine؛ یعنی موتورهای کاوش دووجهی. محتوای آنها، هم چیزی بود که ربات پیدا کرده بود و در دیتابیس بازیابی می‌کرد و هم براساس راهنماهای موضوعی یا subject directory بود. مثلاً گوگل، هم نتایج خودش را می‌آورد و هم از راهنماهای موضوعی استفاده می‌کرد و نتایج را به صورت ترکیبی مرتب می‌کرد و نمایش می‌داد. موتورهای کاوش یاهو و بینگ و MSN هم همین کار را می‌کردند. ابزار دیگری به نام meta search engine داریم.

اولاً حدود 20% از محتوای وب از طریق موتورهای کاوش قابل دسترس است و 80 درصد دیگر آن قابل دسترس نیست که به آن وب عمیق (deep web) یا وب نامرئی (invisible web) یا وب پنهان یا مخفی (hidden web) می‌گوییم؛ یعنی وبی که از دسترس رباتهای موتورهای کاوش به دور است و به دلایل مختلف رباتهای موتورهای کاوش نمی‌توانند آنها را پیدا کنند و از آنها استفاده کنند. مثلاً دارای پسورد هستند و ربات نمی‌تواند وارد آن شود. بنابراین کلاً 20% از کل محتوای وب در نمایه کل موتورهای کاوش وجود دارد که بزرگترین و قویترین آن هم موتور کاوش گوگل است. یک سری ابزار درست شدند به نام meta search engine که با جستجوی عبارت list of meta search engine می‌توانید به آنها دسترسی پیدا کنید و مهترین های آنها meta web cruller, muma.com است. این فراموتورها مثل یک پورتال عمل می‌کنند. شما اگر یک درخواست به آن بدهید، همزمان به چندین موتور کاوش ارسال می‌کند و بعد نتایج به‌دست‌آمده را درهمکرد می‌کند و به شما ارائه می‌کند، البته اینها هم الان دیگر استفاده نمی‌شوند. به‌دلیل اینکه الان دیگر موتور کاوش زیادی وجود ندارد. به این خاطر که هزینۀ ایجاد و توسعه آن و به‌روزرسانی بسیار سنگین است و دیگر کسی سرمایه‌گذاری نمی‌کند و همه موتورهای کاوش کنار رفته‌اند. الان ما فقط سه web search engine داریم که اینها ربات دارند. یکی گوگل است که ربات آن گوگل‌بات است، یکی بینگ است که ربات آن بینگ‌بات است که همان تقویت شده msn bot است و دیگری هم بایدو هست که خودش یک ربات دارد به نام baydo bot مال یک موتورکاوش چینی است که کپی‌برداری شده از گوگل است. بقیه ربات ندارند. یاهو، آلتاویستا را خرید که یک موتور کاوش قوی بود. بعد از آن msn یاهو را خرید تا خودشان قوی شوند... بقیه موتورهای کاوش الان دیگر به‌روز نمی‌شوند و نتایج آنها هم همان نتایج گوگل و بینگ و ... است. بنابراین در دنیا در حال حاضر این سه موتور کاوش هستند که بات دارند و برایشان هزینه می‌شود. و از همه بهتر هم گوگل است که یک فناوری دارد به نام فناوری وب گوگل GWT (google web technology) که منحصر به فرد است و هیچکس آن فناوری را ندارد و بومی خودش است و توانسته است بینگ و ... را کنار بزند.

وب تاریک یا dark web حدود 10% وب عمیق یا deep web را شامل می‌شود. وب تاریک دارای یک ساختار چندلایه است که همه آدرس سایتها در آنجا رمزگذاری یا encrypt می‌شوند و ما نمی‌فهمیم که این آدرس از کجاست؛ یعنی محیطی است که اگر وارد آن شویم، هیچکس متوجه نمی‌شود که از کجا آمده‌ایم و ما هم متوجه نمی‌شویم که آدرس وبسایتها چیست و فقط در یک سطح می‌شود رمزگشایی یا decrypt کرد و در سطح بعدی این رمزگشایی از بین می‌رود. بنابراین به آن وب تاریک می‌گویند. تمام سایتهای آدم فروشی و فحشا و مواد مخدر و فروش اسلحه، سایتهای جاسوسی بزرگ مثل موساد و سیا در آن محیط قرار دارند و یک سری مرورگرهای خاصی دارد و با مرورگرهای معمول نمی‌توانیم وارد آن سایتها شویم. بحث بسیار گسترده‌تری دارد و برای سازمانهای امنیتی مناسب است.

در حال حاضر گوگل یک رقیب جدی دارد و آن موتور کاوش بایدو هست که چینی است که بسیار قوی است. ربات قوی هم دارد. برخی دوستان حرفه‌ای که نمی‌خواهند از گوگل استفاده کنند، فقط از بایدو استفاده می‌کنند. یک موتور کاوش دیگر هم وجود دارد که محصول کشور روسیه است به نام یاندکس است که رقیب گوگل و بایدو است، اما از بایدو ضعیف‌تر است. چیزی مثل گوگل+یاهو که مال خود روسهاست. تمام سرویسهایش را یاندکس می‌گویند. این سرویس هم ربات دارد و تمام سرویسهای ملی روسیه از طریق موتور کاوش یاندکس ارائه می‌شود. اما هیچکدام آنها به پای گوگل نمی‌رسند و فاصله زیادی با گوگل دارند.

انواع جستجو: 

  1. جستجوی ساده (simple search) یعنی فیلترهای کمتری دارد، limitations و محدودیتهای کمتری دارد. در برخی جاها دو فیلد برای محدودکردن نتایج وجود دارد و در برخی دیگر هیچ محدودیتی ندارد که به آن جستجوی خیلی ساده یا (very simple search) می‌گویند.
  2. جستجوی پیشرفته یا (advanced search) امکانات بیشتری دارد، یعنی قابلیتهای بیشتری نسبت به جستجوی ساده دارد. قابلیتهای بیشتر یعنی محدودیتهای بیشتری دارد. مهمترین ویژگی جستجوی پیشرفته نسبت به جستجوی ساده، امکان استفاده از عملگرهای بولی (Boolean operators ) هست. منظور از عملگرهای بولی، AND, OR, NOT است. مهمترین تفاوت جستجوی پیشرفته با جستجوی ساده استفاده از عملگرهای بولی است. یعنی شما می‌توانید در جستجوی پیشرفته از این علمگرها استفاده کنید و فیلدها را با یکدیگر ترکیب کنید و بتوانید نتایج مرتبط‌تری پیدا کنید. تعداد نتایج کم می‌شود اما مرتبط‌تر است و شما را به همان چیزی که نیاز دارید هدایت می‌کند.
  3. جستجوی پایه یا (basic search) ترکیب بین جستجوی ساده و پیشرفته است. به این معنا که جستجویی است که ظاهر ساده دارد ولی عملکرد آن جستجوی پیشرفته است. مثلا اگر در باکس جستجوی گوگل عبارت مدیریت اطلاعات را وارد کنیم، گوگل هم صفحاتی را بازیابی می‌کند که واژه مدیریت در آن آمده و هم صفحاتی را می‌آورد که واژه اطلاعات در آنها آمده. در حقیقت فاصله بین کلمات مدیریت و اطلاعات به منزله عملگر AND عمل می‌کند.
  4. جستجوی فوق پیشرفته یا (super-advance search) که به آن جستجوی چندفیلدی یا خبره هم می‌گویند و تا 6-5 محدودیت را می‌توانیم برای جستجوی خود تعریف کنیم. زمانی که قابلیتهای جستجو از پیشرفته بیشتر باشد، برای آن چنین اسمی می‌گذارند.
  5. جستجوی یکپارچه، اگر شما بتوانید در یک سیستم اطلاعاتی همزمان چند دیتابیس را جستجو کنید، به آن integrated search یا multi database search می‌گویند. این نوع جستجو را در وبسایت کتابخانه دانشگاه علامه می‌توانید ببینید. اگر شما در یک سیستم اطلاعاتی همزمان بتوانید در چند پایگاه مربوط به همان سیستم سرچ کنید، به آن جستجوی یکپارچه می‌گویند.
  6. جستجوی متحد یا (federated search) نوع دیگری از جستجو هست که می‌توان در چند جا جستجو انجام داد، یعنی مثلاً کاربر دانشگاه علامه از داخل homepage کتابخانه دیجیتالی دانشگاه به عنوان سیستم محلی خود، بتواند به درگاه سایت کتابخانه ملی رفته و در آن جستجو انجام دهد؛ یعنی بتواند در چندین پایگاه اطلاعاتی از سیستم‌های مختلف جستجو کنید. فرق آن با جستجوی یکپارچه این است که در جستجوی یکپارچه چندین دیتابیس در یک سیستم واحد جستجو می‌شود، ولی در جستجوی متحد، جستجو در چندین دیتابیس از چند سیستم مختلف انجام می‌شود. یعنی بدون اینکه نیاز باشد شما به سایت کتابخانه ملی امریکا یا کنگره وارد شوید، در آنها جستجو انجام دهید، که به آن جستجوی متحد یا federated search می‌گوییم و سرچ خیلی خوب و مناسبی است، بخاطر اینکه کاربر من می‌تواند همزمان در چند سیستم اطلاعاتی مختلف سرچ کند، بدون اینکه نیاز باشد به صورت جداگانه، وارد سرچ‌سیستم هر کدام از آنها شود.

این شش نوع از انواع جستجو هستند که بیان کردیم.

همانطور که گفتیم، مهمترین ابزار وب موتورهای کاوش هستند و مهمترین موتور کاوش، گوگل است. ابتدا یک آناتومی کوتاه از گوگل توضیح می‌دهیم؛ زمانی که شما در سرچ باکس ساده گوگل، جستجو انجام می‌دهید، از صفحه نتایج یا search result page ، اولاً آدرس صفحه یا URL را نمایش می‌دهد، که شامل یک سری پارامترهاست که در جلسات آینده به آن خواهیم پرداخت و بیان می‌کنیم که چگونه می‌توانیم در آنها تغییر ایجاد کنیم. در سرچ‌باکس، امکان جستجوی صوتی هم وجود دارد و می‌توان صوت ارسال کرد و از طریق آن جستجو انجام شود. در زیر سرچ‌باکس، چند گزینه وجود دارد: All که به آن جستجوی جهانی یا universal search می‌گویند، یعنی اینکه همه چیز اعم از متن و تصویر و صوت و فیلم و خبر و ... را جستجو می‌کند. در زیر آن تعداد نتایج بازیابی شده را نشان می‌دهد، گوگل تعدادی سرور دارد که داده‌ها داخل آن سرورها ذخیره می‌شوند. گوگل بیش از صدهزار سرور در کل دنیا دارد که در سراسر دنیا پراکنده است. در دبی، چین، آلمان و ... . این سرورها دیتاها را از سایتهای مختلف استخراج می‌کنند و نتایج را از سرورهایی که از لحاظ جغرافیایی به ما نزدیک هستند بازیابی می‌کند. وقتی شما جستجو انجام می‌دهید، داده‌ها را همزمان از صدهزار سرور بازیابی نمی‌کند، بلکه از نزدیکترین سرور به محل شما بازیابی می‌کند. قبلاً هم گفتیم که گوگل اطلاعات وب را ایندکس می‌کند و در پایگاه خود ذخیره می‌کند وقتی شما در گوگل جستجو انجام می‌دهید، در حقیقت شما وب را جستجو نمی‌کنید، بلکه پایگاه گوگل را جستجو می‌کنید. اگر شما به گوگل درخواست بدهید و گوگل تمام وب را برای شما جستجو کند، زمان زیادی صرف خواهدشد، بنابراین فقط داده‌هایی را جستجو می‌کند که قبلاً نمایه کرده و در ایندکس خود آورده است. علاوه بر آن، از آنجایی که حجم این نمایه‌ها بسیار بالاست و ایندکس گوگل هم در سرورهای سراسر دنیا پراکنده است، برای حل این مشکل، زمانی که شما جستجو انجام می‌دهید، نزدیکترین سرور به میزبان یا host که شما دارید و از آن درخواست می‌دهید، را شناسایی می‌کند و درخواست شما را به آنجا می‌فرستد، سپس بازیابی کرده و نشان می‌دهد. به دلیل همین فرایند، تعداد نتایج بازیابی شده را به صورت حدودی بیان می‌کند و برای اینکه رضایت کاربر را حفظ کند، در کمترین زمان ممکن این کار را انجام می‌دهد و اگر دقت کرده باشید، در کمتر از یک ثانیه نتایج را بازیابی می‌کند. در واقع در هر جستجویی که انجام می‌دهید، بازیابی نتایج، زیر یک ثانیه انجام می‌شود. البته ممکن است دامنه‌ وبسایتی در ایران باشد، اما هاستی که گرفته در کاناداست، اگر هاست کانادا را اجاره کنید، دیگر این فیلترینگ‌ها وجود ندارد، چرا که گوگل فکر می‌کند که شما در کانادا سرچ می‌کنید و نتایج را از سرورهای نزدیک به کانادا برای شما بازیابی می‌کند، که اصطلاحاً به آن، GEO-IP best search گفته می‌شود.

در سمت راست صفحه گوگل اطلاعاتی آورده شده که به آن، جعبه دانش یا knowledge box می‌گویند.

در انتهای نتایج بازیابی شده، گزینه searches related to … وجود دارد که عبارات مرتبط که کلمه مورد جستجوی ما در آن هست و قبلاً سرچ شده، را نشان می‌دهد و پیشنهاد می‌دهد. در پایین صفحه، تعداد صفحات بازیابی شده را نشان می‌دهد که ما می‌توانیم تنظیم کنیم که تا صد رکورد را به ما نشان دهد.

گوگل یعنی: عدد یک با بینهایت صفر. عدد یک با بینهایت صفر را گوگل می‌گوییم. به این معنی که خدمات گوگل بینهایت است.

گوگل در حال حاضر تبدیل به فعل هم شده است. فعل آن به معنای جستجو در گوگل است.

گزارش از: بنت الهدا موحدی محب

فایل تصویری این جلسه را می توانید از لینک زیر دانلود نمایید

https://www.aparat.com/v/rjlxe

تصاویر
  • دورهمی علمی کتابدارن استان قم با موضوع پژوهش در محیط وب (نشست دوم) به صورت آنلاین برگزارشد