การทำงานของ Google Robots

โปรแกรม “แมงมุม” ของกูเกิ้ล  แมงมุมของที่นี้ มีชื่อเรียกอย่างเป็นทางการว่า googlebots ซึ่งเป็นโปรแกรมตัวเล็กๆที่จะคอยเก็บข้อมูลเว็บไซต์ต่างๆโดยจะทำการ “ ไต่” ไปตามลิ้งค์ที่มันตรวจพบ หรือได้รับคำสั่งจากเครื่องแม่ข่าย ให้ไปเก็บข้อมูลใหม่ตามที่มีผู้มาทำการลงทะเบียน URL กับทางระบบออนไลน์ของ google (google submit URL)

ระบบการจัดเก็บข้อมูลเอกสารที่ถูก copy มา (index server) ซึ่งเป็นระบบการจัดเก็บข้อมูลที่ได้รับมาจาก googlebots อีกที โดยข้อมูลที่นำมาทำการจัดเก็บนั้น ส่วนใหญ่แล้วจะเป็นเอกสารหน้าเพจ (HTML Document) และไฟล์เอกสารรูปภาพต่างๆ (Image Document) จะเก็บข้อมูลทั้งหน้าเพจ อาจเรียกได้ว่าทุกภาพ ทุกตัวอักษร จนกลายเป็นสำเนาเอกสาร วิธีการนี้เรียกสั้นๆได้ว่า “การ Index หน้าเพจ” ระบบนี้จะอำนวยความสะดวกสำหรับขั้นตอนต่อไปในการให้เอกสารที่มีอยู่ในระบบการค้นหานั้น แสดงผลออกมาให้ตรงกับเอกสารปัจจุบันให้มากที่สุด

การ index ข้อมูลทั้งหมดนั้น ทางระบบการประมวลผลในการจัดอันดับการค้นหา หรืออัลกอริมึม จะทำการตัดคำสิ้นเปลือง และคำหยุด (common words หรือ stop words) ออกไปจากหน้าเอกสารนั้นๆทุกครั้งที่มีการประมวลผล ( เช่น the,is,on,on,of,a,it) เพื่อลดอัตราการสิ้นเปลืองในการประมวลผลแต่ละครั้งให้เหลือน้อยที่สุด
common words หรือ stop words เป็นคำค้นโดยทั่วไป ที่ไม่สามารถจำกัดขอบเขตของการค้นหาได้และเพื่อเป็นการป้องกันให้ประสิทธิภาพของ index server ลดลง จึงไม่สามารถค้นหาประเภทนี้ได้ เนื่องจากคำประเภทนี้เป็นคำกล่าวที่สามารถพบได้กับเอกสารโดยทั่วไปที่มีอยู่บนอินเตอร์เน็ตเป็นจำนวนมาก

Comments

Leave a Reply