در ابتدای این جلسه دکتر طاهری ضمن تبریک سال نو و آرزوی سلامتی ، در ادامه مباحث گذشته پس از معرفی مشهورترین موتورهای کاوش به معرفی انواع مختلف جستجو اعم از جستجوی ساده ، جستجوی پیشرفته ، جستجوی پایه، جستجوی فوق پیشرفته و خبره و جستجوی متحد پرداختند و گفتند: جستجوی ساده همانطور که از نامش پیداست یک فیلد ساده دارد و یک جستجوی کلی انجام می دهد مانند تمام جستجوهایی که در طول روز در گوگل انجام می گیرد ، ولی در مقابل ، جستجوی پیشرفته دارای چند فیلد از پیش تعیین شده است که از طریق آن می توانیم محدودیتهایی را بسته به نوع پژوهش خود برای جستجو قائل شویم.
شرح کامل جلسه دوم:
اولین ابزاری که در اینجا معرفی میکنیم، موتورهای کاوش هستند و همانطور که گفتیم بیشترین زمانی که کاربران در محیط وب اختصاص میدهند، مربوط به کار با موتورهای کاوش است. این در نهایت نشان میدهد که موتورهای کاوش چه ابزار پژوهشی کارآمدی هستند و چقدر میتوانند برای پژوهش به کاربران کمک کنند. موتورهای کاوش، به دلیل تنوع خدماتشان و قابلیتهای مختلفی که دارند و حجم دیتایی که پوشش میدهند، شاید بهترین ابزار وب باشند. در عین حال بخاطر اهمیت شان، خود، یک موضوع پژوهشی مهمی هستند که الان پژوهشهای مختلفی در دنیا در خصوص موتورهای کاوش انجام میشود، که این، اهمیت این ابزار کارآمد را نشان میدهد. اولاً ساختارشان بسیار پیچیده است و ما توضیح مختصری درباره ساختارشان دادیم. موتورهای کاوش از سه بخش اصلی تشکیل شده: ربات یا spider indexer یا نمایه ساز خزنده هم به آن میگویند. دیتابیس یا نمایه مغلوب یا inverted index که شبیه نمایههای پایان کتاب است که کلیدواژهها قرار گرفته و جلوی آنها شماره صفحات آمده است. در اینجا هم دقیقاً به همان شکل است، کلیدواژهها استخراج و توکنایز (tokenize) میشوند و ریشههای کلمات تجزیه میشود و فرایند پیچیده و پردازشهای خیلی قوی روی آنها انجام میشود و کلیدواژهها در این نمایه مرتب میشوند و بهجای شماره صفحهها در نمایه پایانی کتاب، UIR یعنی آدرس صفحات وب قرار میگیرد. بخش دیگر، نرمافزاری به نام query possessor یا پردازشگر درخواست است. ما از طریق پردازشگر درخواست، جستجو میکنیم. همان باکس جستجو در موتورکاوش مربوط به همان نرمافزار است و کار آن تطابق درخواست شما یا کلیدواژه ها با نمایه مغلوب یا inverted index است. اگر تطابقی وجود داشت، بازیابی میکند و UIR ها را به شما ارائه میدهد. اینکه چطور رنک میشوند، بحث دیگری است که گوگل هزاران فاکتور برای رنکینگ دارد و بحث مفصلی است. براساس یک سری سیاستها رنک میشود و افراد آنها را استفاده میکنند. ما بهغیر از موتورهای کاوش در وب، دو ابزار دیگر هم داریم، یکی از آنها راهنماهای موضوعی یا subject directory که توسط انسان انجام میشوند، وبسایتهای مهم را در زمینههای مختلف شناسایی میکردند و تفاوتشان با موتورهای کاوش این بود که فقط صفحه اول وبسایتها بود، ولی موتورهای کاوش اگر نتایج در صفحه nم عمیق در وبسایت هم باشد، ایندکس و شناسایی میکنند. براساس یک طرح ردهبندی که معمولاً UDC (universal decimal classification) یا طرح ردهبندی جهانی است که در اروپا گسترش پیدا کرد و ترکیبی از طرح ردهبندی دیویی و طرح ردهبندی کولن بود. این هم ابزار دیگری بود. مهمترین ویژگی آن relevance بود؛ یعنی منابعی که پیدا می شد به این طریق ارتباط زیادی داشت و کاملاً با موضوعی که تگ خورده بود، مرتبط بود. الان به دلایل مختلف، این ابزار دیگر نیست، اولاً اینکه موتورهای کاوش کاملاً آنها را پوشش میدهند و دوم اینکه الان با پدیده big data مواجه هستیم که سرعت عامل انسانی به شناسایی تک تک این سایتها نمیرسد. الان دیگر این امر امکانپذیر نیست و کسی هم روی این کار سرمایهگذاری نمیکند. حتی الان ابزارهای فعلی هم پاسخگوی big data نیستند. نوع دیگری از موتورهای کاوش را داشتیم به نام hybrid search engine؛ یعنی موتورهای کاوش دووجهی. محتوای آنها، هم چیزی بود که ربات پیدا کرده بود و در دیتابیس بازیابی میکرد و هم براساس راهنماهای موضوعی یا subject directory بود. مثلاً گوگل، هم نتایج خودش را میآورد و هم از راهنماهای موضوعی استفاده میکرد و نتایج را به صورت ترکیبی مرتب میکرد و نمایش میداد. موتورهای کاوش یاهو و بینگ و MSN هم همین کار را میکردند. ابزار دیگری به نام meta search engine داریم.
اولاً حدود 20% از محتوای وب از طریق موتورهای کاوش قابل دسترس است و 80 درصد دیگر آن قابل دسترس نیست که به آن وب عمیق (deep web) یا وب نامرئی (invisible web) یا وب پنهان یا مخفی (hidden web) میگوییم؛ یعنی وبی که از دسترس رباتهای موتورهای کاوش به دور است و به دلایل مختلف رباتهای موتورهای کاوش نمیتوانند آنها را پیدا کنند و از آنها استفاده کنند. مثلاً دارای پسورد هستند و ربات نمیتواند وارد آن شود. بنابراین کلاً 20% از کل محتوای وب در نمایه کل موتورهای کاوش وجود دارد که بزرگترین و قویترین آن هم موتور کاوش گوگل است. یک سری ابزار درست شدند به نام meta search engine که با جستجوی عبارت list of meta search engine میتوانید به آنها دسترسی پیدا کنید و مهترین های آنها meta web cruller, muma.com است. این فراموتورها مثل یک پورتال عمل میکنند. شما اگر یک درخواست به آن بدهید، همزمان به چندین موتور کاوش ارسال میکند و بعد نتایج بهدستآمده را درهمکرد میکند و به شما ارائه میکند، البته اینها هم الان دیگر استفاده نمیشوند. بهدلیل اینکه الان دیگر موتور کاوش زیادی وجود ندارد. به این خاطر که هزینۀ ایجاد و توسعه آن و بهروزرسانی بسیار سنگین است و دیگر کسی سرمایهگذاری نمیکند و همه موتورهای کاوش کنار رفتهاند. الان ما فقط سه web search engine داریم که اینها ربات دارند. یکی گوگل است که ربات آن گوگلبات است، یکی بینگ است که ربات آن بینگبات است که همان تقویت شده msn bot است و دیگری هم بایدو هست که خودش یک ربات دارد به نام baydo bot مال یک موتورکاوش چینی است که کپیبرداری شده از گوگل است. بقیه ربات ندارند. یاهو، آلتاویستا را خرید که یک موتور کاوش قوی بود. بعد از آن msn یاهو را خرید تا خودشان قوی شوند... بقیه موتورهای کاوش الان دیگر بهروز نمیشوند و نتایج آنها هم همان نتایج گوگل و بینگ و ... است. بنابراین در دنیا در حال حاضر این سه موتور کاوش هستند که بات دارند و برایشان هزینه میشود. و از همه بهتر هم گوگل است که یک فناوری دارد به نام فناوری وب گوگل GWT (google web technology) که منحصر به فرد است و هیچکس آن فناوری را ندارد و بومی خودش است و توانسته است بینگ و ... را کنار بزند.
وب تاریک یا dark web حدود 10% وب عمیق یا deep web را شامل میشود. وب تاریک دارای یک ساختار چندلایه است که همه آدرس سایتها در آنجا رمزگذاری یا encrypt میشوند و ما نمیفهمیم که این آدرس از کجاست؛ یعنی محیطی است که اگر وارد آن شویم، هیچکس متوجه نمیشود که از کجا آمدهایم و ما هم متوجه نمیشویم که آدرس وبسایتها چیست و فقط در یک سطح میشود رمزگشایی یا decrypt کرد و در سطح بعدی این رمزگشایی از بین میرود. بنابراین به آن وب تاریک میگویند. تمام سایتهای آدم فروشی و فحشا و مواد مخدر و فروش اسلحه، سایتهای جاسوسی بزرگ مثل موساد و سیا در آن محیط قرار دارند و یک سری مرورگرهای خاصی دارد و با مرورگرهای معمول نمیتوانیم وارد آن سایتها شویم. بحث بسیار گستردهتری دارد و برای سازمانهای امنیتی مناسب است.
در حال حاضر گوگل یک رقیب جدی دارد و آن موتور کاوش بایدو هست که چینی است که بسیار قوی است. ربات قوی هم دارد. برخی دوستان حرفهای که نمیخواهند از گوگل استفاده کنند، فقط از بایدو استفاده میکنند. یک موتور کاوش دیگر هم وجود دارد که محصول کشور روسیه است به نام یاندکس است که رقیب گوگل و بایدو است، اما از بایدو ضعیفتر است. چیزی مثل گوگل+یاهو که مال خود روسهاست. تمام سرویسهایش را یاندکس میگویند. این سرویس هم ربات دارد و تمام سرویسهای ملی روسیه از طریق موتور کاوش یاندکس ارائه میشود. اما هیچکدام آنها به پای گوگل نمیرسند و فاصله زیادی با گوگل دارند.
انواع جستجو:
- جستجوی ساده (simple search) یعنی فیلترهای کمتری دارد، limitations و محدودیتهای کمتری دارد. در برخی جاها دو فیلد برای محدودکردن نتایج وجود دارد و در برخی دیگر هیچ محدودیتی ندارد که به آن جستجوی خیلی ساده یا (very simple search) میگویند.
- جستجوی پیشرفته یا (advanced search) امکانات بیشتری دارد، یعنی قابلیتهای بیشتری نسبت به جستجوی ساده دارد. قابلیتهای بیشتر یعنی محدودیتهای بیشتری دارد. مهمترین ویژگی جستجوی پیشرفته نسبت به جستجوی ساده، امکان استفاده از عملگرهای بولی (Boolean operators ) هست. منظور از عملگرهای بولی، AND, OR, NOT است. مهمترین تفاوت جستجوی پیشرفته با جستجوی ساده استفاده از عملگرهای بولی است. یعنی شما میتوانید در جستجوی پیشرفته از این علمگرها استفاده کنید و فیلدها را با یکدیگر ترکیب کنید و بتوانید نتایج مرتبطتری پیدا کنید. تعداد نتایج کم میشود اما مرتبطتر است و شما را به همان چیزی که نیاز دارید هدایت میکند.
- جستجوی پایه یا (basic search) ترکیب بین جستجوی ساده و پیشرفته است. به این معنا که جستجویی است که ظاهر ساده دارد ولی عملکرد آن جستجوی پیشرفته است. مثلا اگر در باکس جستجوی گوگل عبارت مدیریت اطلاعات را وارد کنیم، گوگل هم صفحاتی را بازیابی میکند که واژه مدیریت در آن آمده و هم صفحاتی را میآورد که واژه اطلاعات در آنها آمده. در حقیقت فاصله بین کلمات مدیریت و اطلاعات به منزله عملگر AND عمل میکند.
- جستجوی فوق پیشرفته یا (super-advance search) که به آن جستجوی چندفیلدی یا خبره هم میگویند و تا 6-5 محدودیت را میتوانیم برای جستجوی خود تعریف کنیم. زمانی که قابلیتهای جستجو از پیشرفته بیشتر باشد، برای آن چنین اسمی میگذارند.
- جستجوی یکپارچه، اگر شما بتوانید در یک سیستم اطلاعاتی همزمان چند دیتابیس را جستجو کنید، به آن integrated search یا multi database search میگویند. این نوع جستجو را در وبسایت کتابخانه دانشگاه علامه میتوانید ببینید. اگر شما در یک سیستم اطلاعاتی همزمان بتوانید در چند پایگاه مربوط به همان سیستم سرچ کنید، به آن جستجوی یکپارچه میگویند.
- جستجوی متحد یا (federated search) نوع دیگری از جستجو هست که میتوان در چند جا جستجو انجام داد، یعنی مثلاً کاربر دانشگاه علامه از داخل homepage کتابخانه دیجیتالی دانشگاه به عنوان سیستم محلی خود، بتواند به درگاه سایت کتابخانه ملی رفته و در آن جستجو انجام دهد؛ یعنی بتواند در چندین پایگاه اطلاعاتی از سیستمهای مختلف جستجو کنید. فرق آن با جستجوی یکپارچه این است که در جستجوی یکپارچه چندین دیتابیس در یک سیستم واحد جستجو میشود، ولی در جستجوی متحد، جستجو در چندین دیتابیس از چند سیستم مختلف انجام میشود. یعنی بدون اینکه نیاز باشد شما به سایت کتابخانه ملی امریکا یا کنگره وارد شوید، در آنها جستجو انجام دهید، که به آن جستجوی متحد یا federated search میگوییم و سرچ خیلی خوب و مناسبی است، بخاطر اینکه کاربر من میتواند همزمان در چند سیستم اطلاعاتی مختلف سرچ کند، بدون اینکه نیاز باشد به صورت جداگانه، وارد سرچسیستم هر کدام از آنها شود.
این شش نوع از انواع جستجو هستند که بیان کردیم.
همانطور که گفتیم، مهمترین ابزار وب موتورهای کاوش هستند و مهمترین موتور کاوش، گوگل است. ابتدا یک آناتومی کوتاه از گوگل توضیح میدهیم؛ زمانی که شما در سرچ باکس ساده گوگل، جستجو انجام میدهید، از صفحه نتایج یا search result page ، اولاً آدرس صفحه یا URL را نمایش میدهد، که شامل یک سری پارامترهاست که در جلسات آینده به آن خواهیم پرداخت و بیان میکنیم که چگونه میتوانیم در آنها تغییر ایجاد کنیم. در سرچباکس، امکان جستجوی صوتی هم وجود دارد و میتوان صوت ارسال کرد و از طریق آن جستجو انجام شود. در زیر سرچباکس، چند گزینه وجود دارد: All که به آن جستجوی جهانی یا universal search میگویند، یعنی اینکه همه چیز اعم از متن و تصویر و صوت و فیلم و خبر و ... را جستجو میکند. در زیر آن تعداد نتایج بازیابی شده را نشان میدهد، گوگل تعدادی سرور دارد که دادهها داخل آن سرورها ذخیره میشوند. گوگل بیش از صدهزار سرور در کل دنیا دارد که در سراسر دنیا پراکنده است. در دبی، چین، آلمان و ... . این سرورها دیتاها را از سایتهای مختلف استخراج میکنند و نتایج را از سرورهایی که از لحاظ جغرافیایی به ما نزدیک هستند بازیابی میکند. وقتی شما جستجو انجام میدهید، دادهها را همزمان از صدهزار سرور بازیابی نمیکند، بلکه از نزدیکترین سرور به محل شما بازیابی میکند. قبلاً هم گفتیم که گوگل اطلاعات وب را ایندکس میکند و در پایگاه خود ذخیره میکند وقتی شما در گوگل جستجو انجام میدهید، در حقیقت شما وب را جستجو نمیکنید، بلکه پایگاه گوگل را جستجو میکنید. اگر شما به گوگل درخواست بدهید و گوگل تمام وب را برای شما جستجو کند، زمان زیادی صرف خواهدشد، بنابراین فقط دادههایی را جستجو میکند که قبلاً نمایه کرده و در ایندکس خود آورده است. علاوه بر آن، از آنجایی که حجم این نمایهها بسیار بالاست و ایندکس گوگل هم در سرورهای سراسر دنیا پراکنده است، برای حل این مشکل، زمانی که شما جستجو انجام میدهید، نزدیکترین سرور به میزبان یا host که شما دارید و از آن درخواست میدهید، را شناسایی میکند و درخواست شما را به آنجا میفرستد، سپس بازیابی کرده و نشان میدهد. به دلیل همین فرایند، تعداد نتایج بازیابی شده را به صورت حدودی بیان میکند و برای اینکه رضایت کاربر را حفظ کند، در کمترین زمان ممکن این کار را انجام میدهد و اگر دقت کرده باشید، در کمتر از یک ثانیه نتایج را بازیابی میکند. در واقع در هر جستجویی که انجام میدهید، بازیابی نتایج، زیر یک ثانیه انجام میشود. البته ممکن است دامنه وبسایتی در ایران باشد، اما هاستی که گرفته در کاناداست، اگر هاست کانادا را اجاره کنید، دیگر این فیلترینگها وجود ندارد، چرا که گوگل فکر میکند که شما در کانادا سرچ میکنید و نتایج را از سرورهای نزدیک به کانادا برای شما بازیابی میکند، که اصطلاحاً به آن، GEO-IP best search گفته میشود.
در سمت راست صفحه گوگل اطلاعاتی آورده شده که به آن، جعبه دانش یا knowledge box میگویند.
در انتهای نتایج بازیابی شده، گزینه searches related to … وجود دارد که عبارات مرتبط که کلمه مورد جستجوی ما در آن هست و قبلاً سرچ شده، را نشان میدهد و پیشنهاد میدهد. در پایین صفحه، تعداد صفحات بازیابی شده را نشان میدهد که ما میتوانیم تنظیم کنیم که تا صد رکورد را به ما نشان دهد.
گوگل یعنی: عدد یک با بینهایت صفر. عدد یک با بینهایت صفر را گوگل میگوییم. به این معنی که خدمات گوگل بینهایت است.
گوگل در حال حاضر تبدیل به فعل هم شده است. فعل آن به معنای جستجو در گوگل است.
گزارش از: بنت الهدا موحدی محب
فایل تصویری این جلسه را می توانید از لینک زیر دانلود نمایید
https://www.aparat.com/v/rjlxe