Search Engine Spider

Search Engine Spider หรือ”แมงมุม” จริงๆแล้วก็เป็นโปรแกรมเล็กๆ โปรแกรมหนึ่ง โดยสามารถเรียกเหมารวมได้หลายแบบทั้ง “spider” ,”crawlers” หรือ “robots” แต่เพื่อความชัดเจน เราก็สามารถเรียกชือตรงๆ เพื่อ ระบุแยกลงไปได้อีก เช่น Google มีชื่อเรียก Search Engine Spider ของตัวเองว่า Googlebot, Yahoo มีชื่อเรียกว่า Slurp และ MSN มีชื่อเรียกว่า MSNbot

การเก็บข้อมูลนี้จะอาศัยหลักการ “ ไต่” ไปตามลิงค์ต่างๆของหน้าเพจที่กำลังทำการตรวจสอบอยู่ และจะทำการ”สำเนาข้อมูล” ของหน้าเพจทั้งหมด (มันคือการcopy ข้อมูลทุกสิ่งทุกอย่างที่ตรวจพบยกเว้นไฟล์เอกสารที่อยู่ในตระกูล Flash เช่น .swf ) แล้วจึงส่งข้อมูลที่ copy แล้วกลับไปยัง server ต้นทางของตนเอง เพื่อทำการบันทึก (page index) ลงสู่ฐานข้อมูลขนาดใหญ่ (Search Engine Index Server) จะเริ่มทำการประมวลผลจากฐานข้อมูลของตนเองที่ถืออยู่และแสดงผลการค้นหาออกมา

Search Engine Index Server ของ   นั้น ใช้ระบบปฏิบัติการของทั้งระบบ ซึ่งตัวเลขของจำนวน server เล็กๆทั้งหมดที่ Google ที่อยู่ตอนนี้คือ 300,000 เครื่องทั่วโลก โดยใช้พื้นที่ในการจัดเก็บข้อมูลไปทั้งสิ้นในตอนนี้ มากกว่า 5 ล้าน Terbyte ไปแล้ว
และนี่คือเหตุผลว่าทำไม Search Engine ชื่อดังหลายแห่งถึงได้ค้นหาหน้าเพจต่างๆ ได้อย่างรวดเร็ว โดยใช้เวลาเพียงแค่เสี้ยววินาทีเท่านั้น ต่อการค้นหา 1 ครั้ง โดยตัวอย่างของ Search Engine  ประเภทนี้ก็คือ Google, Yahoo และ MSN

Comments

Leave a Reply