वेब क्रॉलर क्या है | वेब स्पाइडर कैसे काम करता है | सर्च इंजन बोट क्या होता है | Web Crawler kya he | web spider kaise kaam karta hai
वेब क्रॉलर, वेब स्पाइडर व सर्च इंजन बोट ऐसा सॉफ्टवेयर व कंप्यूटर प्रोग्राम होता है जो कि इंटरनेट में मौजूद कंटेंट ( इनफार्मेशन ) की सूची व इंडेक्स बनाता है| वेब क्रॉलर सर्च इंजन का ही एक भाग होता है जो कि सर्च इंजन को इंटरनेट में उपलब्ध जानकारियों व कंटेंट को खोजने में मदद करता है| वेब क्रॉलर द्वारा बनाये गए इंडेक्स की सहायता से ही सर्च इंजन यूज़र्स को सूचना उपलब्ध कराता है|
नोट :- वेब क्रॉलर, वेब स्पाइडर व सर्च इंजन बोट तीनों शब्दों का मतलब एक ही होता है|
आइये वेब क्रॉलर की कार्य प्रणाली को विस्तार से समझते हैं:-
वेब क्रॉलर का मुख्य कार्य इंटरनेट में फैले हुए कंटेंट व जानकारी को इंडेक्स करना है क्योंकि इंटरनेट में कंटेंट वा जानकारी असीमित मात्रा में होती है इसलिए जरूरी है इस असीमित जानकारी का एक इंडेक्स बनाया जाए ताकि किसी भी जानकारी व कंटेंट को ढूंढना आसान हो| वेब क्रॉलर का इंडेक्स उसी तरह होता है जैसा की किताबों के प्रथम पेजों में इंडेक्स बना होता है इसी इंडेक्स के जरिये किताब पढ़ने वाले इंसान को यह पता चलता है कि किसी भी विषय से संबंधित सूचना किस पेज में है| यदि किताब में से इंडेक्स हटा दिया जाए तो आप अंदाजा लगा सकते हैं कि किताब पढ़ने वाले इंसान को किताब पढ़ना कितना मुश्किल हो जाएगा| अतः बिना इंडेक्स के किसी विषय व कंटेंट को ढूंढना बहुत मुश्किल होता है|
क्योंकि इंटरनेट में जानकारी असीमित मात्रा में होती है इसलिए सर्च इंजन के लिए जरूरी है जानकारियों का इंडेक्स बनाया जाए| इंडेक्स बनाने के लिए वेब क्रॉलर इंटरनेट में मौजूद वेबसाइटों के कंटेंट को पढ़ता है तथा वेबसाइटों को अपने इंडेक्स में शामिल करता जाता है| इंटरनेट में वेबसाइटों को संख्या बहुत अधिक है तथा प्रत्येक दिन नई नई वेबसाइटें इंटरनेट में शामिल होती हैं इसलिए वेब क्रॉलर के लिए यह सम्भव नहीं कि वह दूनिया की सारी वेबसाइटों को खोज सके इसलिए आमतौर पर वेब क्रॉलर्स अपने पास कुछ लोकप्रिय व अच्छी गुणवत्ता वाली साइटों के यूआरएल की लिस्ट रखते हैं और इन्ही यूआरएल से इंटरनेट में मौजूद वेबसाइटों को खोजना शुरू करते हैं| क्रॉलर किसी भी साइट को पढ़ने के दौरान ये देखता है कि इस साइट में किसी अन्य दूसरी साइटों के लिंक्स है या नहीं | यदि क्रॉलर को दूसरी साइटों के लिंक मिलते हैं तो उन दूसरी साइटों को भी पढ़ता है यदि इन दूसरी साइटों में भी अन्य साइटों के लिंक्स मिलते हैं तो क्रॉलर फिर उन साइटों को पढ़ता है और इस तरह यह प्रोसेस अनंत तक चलता है| इस तरह लिंक्स के जरिये क्रॉलर द्वारा इंटरनेट में मौजूद वेबसाइटों को खोजा जाता है| हालांकि ऊपर बताये गए तरीके के अलावा क्रॉलर वेबसाइटों को ढूंढने के दूसरे तरीके भी अपनाता है लेकिन ऊपर बताया गया तरीका आमतौर पर वेब क्रॉलर्स इस्तेमाल करते हैं|
आइये अब देखते हैं कि कैसे क्रॉलर वेबसाइटों को अपने इंडेक्स में शामिल करता है|
जब क्रॉलर किसी वेबसाइट पर पहुंचता है तो उस साइट में मौजूद सभी वेब पेजों के कंटेंट को पढ़ता है तथा कंटेंट के शब्दों के आधार पर वेबसाइट के पेजों को अपने इंडेक्स में शामिल करता है|अब जब भी कोई यूजर सर्च इंजन में इन शब्दों को टाइप करेगा तो सर्च इंजन अपने इंडेक्स में मौजूद वेबसाइटों के यूआरएल व हाइपरलिंक को सर्च रिजल्ट्स में दिखायेगा| वेब क्रॉलर बहुत अधिक संख्या में वेब पेजों को अपने इंडेक्स में शामिल तो कर लेते हैं लेकिन किन वेब पेजों को सर्च रिजल्ट में सबसे ऊपर दिखाना है इसके लिए सर्च इंजन बहुत सारी बातों का ध्यान रखता है जैसे वेब पेज में मौजूद कंटेंट की गुणवत्ता कैसी है, पेज का कंटेंट किसी दूसरी वेबसाइट के कंटेंट से मेल तो नहीं खाता, वेबसाइट में आने वाले विज़िटर्स की संख्या, वेबसाइट के पेजों को कितनी दूसरी अन्य वेबसाइटें लिंक करती है इत्यादि| क्योंकि इंटरनेट में रोजाना नए नए वेबसाइटें जुड़ती रहती हैं, तथा पुराने वेब पेज अपडेट या डिलीट होते रहते हैं इसलिए वेब क्रॉलर्स अपने इंडेक्स को भी हमेशा अपडेट करता रहता है इसके लिए वे समय समय पर पहले से इंडेक्स हुए पेजों को बार बार पढता रहता है| जितने भी सर्च इंजिन्स होते हैं वे अपने अलोग्रिथ्म में समय समय पर बदलाव भी करते रहते हैं ताकि यूज़र्स को वही कंटेंट मिले जो वह सर्च करना चाहता है जिससे की यूज़र्स का इंटरनेट में इनफार्मेशन खोजने का अनुभव बेहतर से बेहतर हो सके|
0 Reviews:
Post a Comment
यह पोस्ट आपको किसी लगी इसके बारे में लिखें