การทำงานของ Google Robots
โปรแกรม “แมงมุม” ของกูเกิ้ล แมงมุมของที่นี้ มีชื่อเรียกอย่างเป็นทางการว่า googlebots ซึ่งเป็นโปรแกรมตัวเล็กๆที่จะคอยเก็บข้อมูลเว็บไซต์ต่างๆโดยจะทำการ “ ไต่” ไปตามลิ้งค์ที่มันตรวจพบ หรือได้รับคำสั่งจากเครื่องแม่ข่าย ให้ไปเก็บข้อมูลใหม่ตามที่มีผู้มาทำการลงทะเบียน URL กับทางระบบออนไลน์ของ google (google submit URL)
ระบบการจัดเก็บข้อมูลเอกสารที่ถูก copy มา (index server) ซึ่งเป็นระบบการจัดเก็บข้อมูลที่ได้รับมาจาก googlebots อีกที โดยข้อมูลที่นำมาทำการจัดเก็บนั้น ส่วนใหญ่แล้วจะเป็นเอกสารหน้าเพจ (HTML Document) และไฟล์เอกสารรูปภาพต่างๆ (Image Document) จะเก็บข้อมูลทั้งหน้าเพจ อาจเรียกได้ว่าทุกภาพ ทุกตัวอักษร จนกลายเป็นสำเนาเอกสาร วิธีการนี้เรียกสั้นๆได้ว่า “การ Index หน้าเพจ” ระบบนี้จะอำนวยความสะดวกสำหรับขั้นตอนต่อไปในการให้เอกสารที่มีอยู่ในระบบการค้นหานั้น แสดงผลออกมาให้ตรงกับเอกสารปัจจุบันให้มากที่สุด
การ index ข้อมูลทั้งหมดนั้น ทางระบบการประมวลผลในการจัดอันดับการค้นหา หรืออัลกอริมึม จะทำการตัดคำสิ้นเปลือง และคำหยุด (common words หรือ stop words) ออกไปจากหน้าเอกสารนั้นๆทุกครั้งที่มีการประมวลผล ( เช่น the,is,on,on,of,a,it) เพื่อลดอัตราการสิ้นเปลืองในการประมวลผลแต่ละครั้งให้เหลือน้อยที่สุด
common words หรือ stop words เป็นคำค้นโดยทั่วไป ที่ไม่สามารถจำกัดขอบเขตของการค้นหาได้และเพื่อเป็นการป้องกันให้ประสิทธิภาพของ index server ลดลง จึงไม่สามารถค้นหาประเภทนี้ได้ เนื่องจากคำประเภทนี้เป็นคำกล่าวที่สามารถพบได้กับเอกสารโดยทั่วไปที่มีอยู่บนอินเตอร์เน็ตเป็นจำนวนมาก
สาเหตุที่ google ได้รับความนิยม
สาเหตุที่ google ได้รับความนิยมในการใช้ค้นหาข้อมูลจากผู้ใช้งานทั่วโลกอย่างล้นหลาม จนสามารถถือส่วนแบ่งของตลาดไว้ได้มากสุดมาอย่างยาวนานนั้น อาจเป็นเพราะ google สามารถค้นหาข้อมูลได้รวดเร็วตรงใจภายในระยะเวลาการค้นหาแค่เพียงไม่กี่เสี้ยววินาที ใช้งานง่ายเพียงแค่คลิก ผลลัพธ์การค้นหาที่ต้องการที่ต้องการจะปรากฏแสดงบนหน้าจอทันที นอกจากนี้ยังสนับสนุนการใช้งานได้หลากหลายภาษา ซึ่งรวมไปถึงภาษาไทย และยังมีบริการเสริมต่างๆ อีกมากมายที่ล้วนเป็นของฟรี ต่างทยอยเปิดตัวออกมาให้เราได้ใช้บริการกันอย่างตลอดเวลา สิ่งเหล่านี้เองที่ทำให้ google ครองใจคนทั่วโลกได้ภายในระยะเวลาอันรวดเร็วเพียงแค่ไม่กี่ปีที่ผ่านมา
ในฐานะที่เป็น Search Engine ที่มีส่วนแบ่งในตลาดสูงที่สุด และได้รับความนิยมทั้งจากคนไทยและทั่วโลกมากที่สุด ด้วยเหตุนี้จึงหยิบยก google ขึ้นมาเพื่ออธิบายหลักการทำงานทั้งระบบของเครื่องมือค้นหาบนอินเทอร์เน็ต
Google จัดว่าอยู่ในประเภท Crawler-Based Search Engines แต่ว่าทาง Google จะเน้นระบบการทำงานด้านการจัดเก็บข้อมูลและการประมวลผลการค้นหาอย่างเต็มรูปแบบมากที่สุด โดยมีอัลกอริทึม ที่ขึ้นชื่อว่าละเอียดและซับซ้อนที่สุด และมีการออกแต้ม”ค่าคะแนนความน่าเชื่อถือของหน้าเพจ” หรือ Google PageRank
หลักการทำงานของ Search Engine
1. ฐานข้อมูลของตนเองที่มีระบบการประมวลผลและจัดอันดับการค้นหา
2. ระบบซอฟแวร์ ที่จะอาศัยโปรแกรมตัวเล็กๆ ของ Search Engineนั้นๆ โดยใช้ในการเก็บหรือสำเนาข้อมูลหน้าเพจใหม่ๆซึ่งโดยทั่วไปมักเรียกว่า Web Crawler หรือ Spider หรือ Search Engine Robots
โดยที่ Search Engine Spider แต่ละแห่งจะมีประสิทธิภาพในการเก็บข้อมูล ไม่เหมือนกันควรระวังและหลีกเลี่ยงในเรื่องของเว็บไซต์ ที่ต้องมีการดึงข้อมูลของเนื้อหาจาก Database แบบDynamic Page ซึ่งจะทำให้แมงมุม ทำการเก็บข้อมูลของเว็บไซต์ได้อย่างไม่ทั่วถึง เจ้าแมงมุมที่ว่านี้ จะคลืบคลาน (Claw ) ไปทุกเว็บไซต์ในอินเตอร์เน็ตที่มันตรวจพบ โดยจะเน้นการมองหาเว็บไซต์ใหม่ๆเนื้อหาใหม่ๆ หรอแม้กระทั่งหน้าเว็บเดิม ที่มีการปรับปรุง เนื้อหาใหม่ (Update Content)
Free Search Engine Submission
Free Search Engine Submission Links
I had rounded up a list of some of the second tier search engines that allow you to submit your site for free as many of them have limited crawlers and may or may not ever find your site. Below is that list with the engine name and a direct link to the submission page:
Burf - Submission Page
Exalead - Submission Page
guruji - Submission Page
Gigablast - Submission Page
Accoona - Submission Page
Entireweb - Submission Page
FyberSearch - Submission Page
MixCat - Submission Page
OneSeek - Submission Page
WhatUseek - Submission Page
Scrub The Web - Submission Page
Search Site - Submission Page
Infotiger - Submission Page
SonicRun - Submission Page
Abacho - Submission Page
Acoon.com - Submission Page
Amfibi - Submission Page
homerweb - Submission Page
JGDO - Submission Page
Myahint - Submission Page
Walhello - Submission Page
Big Finder - Submission Page
Search Hippo (requires free registration) - Submission Page
Web Squash - Submission Page
W8 Search - Submission Page
Tower Search (requires registration) - Submission Page
Baidu (in Chinese, but pretty easy to figure out) - Submission Page
Google - Submission Page
Yahoo - (reguires free registration) - Submission Page
MSN/LIVE - Submission Page
Search-O-Rama - Submission Page
Igwanna - Submission Page
Cipinet - Submission Page
Navisso - Submission Page
AxxaSearch - Submission Page
Dino Search (for kids sites only) - Submission Page
Boitho - Submission Page
Gheto Search - Submission Page
Intel Seek - Submission Page
My Prowler - Site Submission
Search Ramp - Site Submission
Seek It Out - Site Submission
Ultimate Web Search - Site Submission
Find Once - Submission Page
Net Search - Submission Page
Susy Search - Submission Page
iASK - Submission Page
ZhongSou.com - Submission Page
Famhoo (family friendly search) - Submission Page
ExactSeek (requires registration) - Submission Page
AcrossCan (Canadian sites only) - Submission Page
Megaglobe - Submission Page
AnooX - Submission Page
Alexa - Submission Page
Aesop - Submission Page
Shoula! Search - Submission Page
NetSearch - Submission Page
SearchIt - Submission Page
Biveroo - (in German) Submission Page
Official Search - Submission Page
Iconnic - Submission Page
Coolfishy - Submission Page
CorrectSearch (requires registration) - Submission Page
Enter UK (UK sites only) - Submission Page
seeknet - Submission Page
Claymont Search - Submission Page
Really Big Search (requires registration) - Submission Page
Search Engine XXX (not adult - requires registration) - Submission Page
shazee (requires registration) - Submission Page
amidalla - Submit Page
Wedoo.com (requires registration) - Submit Page
Stopdog - Submission Page
searchengine.com - Submission Page
eXactBot - Submission Page
Swoogle - Submission Page
Knoole - Submission Page
