สัดส่วนของผู้ใช้ในสหรัฐอเมริกา (ข้อมูลจาก นิตยสารฟอรบส์ ฉบับวันที่ 18 กรกฎาคม พ.ศ. 2548)
1. กูเกิล (Google) 36.9%
2. ยาฮูเสิร์ช (Yahoo! Search) 30.4%
3. เอ็มเอสเอ็นเสิร์ช (MSN Search) 15.7%
นอกจากด้านบน เว็บอื่น ๆ ที่เป็นที่นิยมได้แก่
- เอโอแอล (AOL Search)
- อาส์ก (Ask)
- เอ 9 (A9)
- ไป่ตู้ (Baidu, 百度) เสิร์ชเอนจิน อันดับ 1 ของประเทศจีน
ประเภทที่ 1 Crawler Based Search Engines
Crawler Based Search Engines คือ เครื่องมือการค้นหาบนอินเตอร์เน็ตแบบอาศัยการบันทึกข้อมูล และ จัดเก็บข้อมูลเป็นหลัก ซึ่งจะเป็นจำพวก Search Engine ที่ได้รับความนิยมสูงสุด เนื่องจากให้ผลการค้นหาแม่นยำที่สุด และการประมวลผลการค้นหาสามารถทำได้อย่างรวดเร็ว จึงทำให้มีบทบาทในการค้นหาข้อมูลมากที่สุดในปัจจุบันโดยมีองประกอบหลักเพียง 2 ส่วนด้วยกันคือ
1. ฐานข้อมูล โดยส่วนใหญ่แล้ว Crawler Based Search Engine เหล่านี้จะมีฐานข้อมูลเป็นของตัวเอง ที่มีระบบการประมวลผล และ การจัดอันดับที่เฉพาะ เป็นเอกลักษณ์ของตนเองอย่างมาก
2. ซอฟแวร์ คือเครื่องมือหลักสำคัญที่สุดอีกส่วนหนึ่งสำหรับ Serch Engine ประเภทนี้ เนื่องจากต้องอาศัยโปรแกรมเล็ก ๆ (ชนิดที่เรียกว่า จิ๋วแต่แจ๋ว) ทำหน้าที่ในการตรวจหา และ ทำการจัดเก็บข้อมูล หน้าเพจ หรือ เว็บไซต์ต่าง ๆ ในรูปแบบ ของการทำสำเนาข้อมูล เหมือนกับต้นฉบับทุกอย่าง ซึ่งเราจะรู้จักกันในนาม Spider หรือ Web Crawler หรือ Search Engine Robotsตัวอย่างหนึ่งของ Crawler Based Search Engine ชื่อดัง http://www.google.com
Crawler Based Search Engine ได้แก่อะไรบ้าง จะยกตัวอย่างคร่าว ๆ ให้ได้เห็นกันเอาแบบที่เรารู้จักก็ได้แก่Google , Yahoo, MSN, Live, Search, Technorati (สำหรับ blog)?ครับ ส่วนลักษณะการทำงาน และ การเก็บข้อมูลของ Web Crawler หรือ Robot หรือ Spider นั้นแต่ละแห่งจะมีวิธีการเก็บข้อมูล และ การจัดอันดับข้อมูลที่ต่างกันนะครับ เช่น คุณทำการค้นหาคำว่า “Search Engine คืออะไร” ผ่านทั้ง 5 แห่งที่ผมให้ไว้จะได้ผลการค้นหาที่ต่างกันครับ
ประเภทที่ 2 Web Directory หรือ Blog Directory
Web Directory หรือ Blog Directory คือ สารบัญเว็บไซต์ที่ให้คุณสามารถค้นหาข่าวสารข้อมูล ด้วยหมวดหมู่ข่าวสารข้อมูลที่เกี่ยวข้องกัน ในปริมาณมาก ๆ คล้าย ๆ กับสมุดหน้าเหลืองครับ ซึ่งจะมีการสร้าง ดรรชนี มีการระบุหมวดหมู่ อย่างชัดเจน ซึ่งจะช่วยให้การค้นหาข้อมูลต่าง ๆ ตามหมวดหมู่นั้น ๆ ได้รับการเปรียบเทียบอ้างอิง เพื่อหาข้อเท็จจริงได้ ในขณะที่เราค้นหาข้อมูล เพราะว่าจะมีเว็บไซต์มากมาย หรือ Blog มากมายที่มีเนื้อหาคล้าย ๆ กันในหมวดหมู่เดียวกัน ให้เราเลือกที่จะหาข้อมูลได้ อย่างตรงประเด็นที่สุด (ลดระยะเวลาได้มากในการค้นหา) ซึ่งผมจะขอยกตัวอย่างดังนี้
ODP Web Directory ชื่อดังของโลก ที่มี Search Engine มากมายใช้เป็นฐานข้อมูล Directory
1.ODP หรือ Dmoz ที่หลายๆ คนรู้จัก ซึ่งเป็น Web Directory ที่ใหญ่ที่สุดในโลก Search Engine หลาย ๆ แห่งก็ใช้ข้อมูลจากที่แห่งนี้เกือบทั้งสิ้น เช่น Google, AOL, Yahoo, Netscape และอื่น ๆ อีกมากมาย ODP มีการบันทึกข้อมูลประมาณ 80 ภาษาทั่วโลก รวมถึงภาษาไทยเราด้วยครับ (URL : http://www.dmoz.org )
2. สารบัญเว็บไทย SANOOK ก็เป็น Web Directory ที่มีชื่อเสียงอีกเช่นกัน และเป็นที่รู้จักมากที่สุดในเมืองไทย (URL : http://webindex.sanook.com )
3. Blog Directory อย่าง BlogFlux Directory ที่มีการเก็บข้อมูลเกี่ยวกับบล็อกมากมายตามหมวดหมู่ต่าง ๆ หรือ Blog Directory อื่น ๆ ที่สามารถหาได้จาก Make Many แห่งนี้ครับ
ประเภทที่ 3 Meta Search Engine
Meta Search Engine คือ Search Engine ที่ใช้หลักการในการค้นหาโดยอาศัย Meta Tag ในภาษา HTML ซึ่งมีการประกาศชุดคำสั่งต่าง ๆ เป็นรูปแบบของ Tex Editor ด้วยภาษา HTML นั่นเองเช่น ชื่อผู้พัฒนา คำค้นหา เจ้าของเว็บ หรือ บล็อก คำอธิบายเว็บหรือบล็อกอย่างย่อ
ผลการค้นหาของ Meta Search Engine นี้มักไม่แม่นยำอย่างที่คิด เนื่องจากบางครั้งผู้ให้บริการหรือ ผู้ออกแบบเว็บสามารถใส่อะไรเข้าไปก็ได้มากมายเพื่อให้เกิดการค้นหาและพบเว็บ หรือ บล็อกของตนเอง และ อีกประการหนึ่งก็คือ มีการอาศัย Search Engine Index Server หลาย?ๆ แห่งมาประมวลผลรวมกัน จึงทำให้ผลการค้นหาข้อมูลต่าง ๆ ไม่เที่ยงตรงเท่าที่ควร.
มาถึงตอนนี้หลาย ๆ ท่านที่เคยสงสัยว่า “Search Engine คืออะไร” คงได้หายสงสัยกันไปบ้างแล้วและเริ่มเข้าใจหลักการทำงานของ Search Engine กันมากขึ้น เพื่อจะได้เลือกใช้อย่างถูกต้องและตรงกับความต้องการของเราในการค้นหาข่าวสารข้อมูล สำหรับบทความ “Search Engine คืออะไร” นี้หากขาดตกบกพร่องประการใด หรือ ไม่ได้รับข้อมูลที่ชัดเจนท่านสามารถติชม หรือ ให้ข้อเสนอแนะต่าง ๆ ผ่าน Comments ของบทความชุดนี้เพื่อจะได้ทำการปรับปรุงและแก้ไขให้ได้ข้อมูลที่ดีที่สุดและ เป็นประโยชน์สำหรับ ผู้ที่ทำการค้นคว้างข้อมูลต่าง ๆ เพื่อนำไปใช้งาน.
เป็นการสร้างประโยคคำค้นที่มีความซับซ้อนมากขึ้น แต่ทำให้ได้ข้อมูลที่ตรงกับความต้องการมากขึ้นมี 3 เทคนิค คือ
- เทคนิคตรรกบูลีน (Boolean logic)
- เทคนิคการตัดคำ(Truncation)
- เทคนิคการจำกัดคำค้น (Limit search)
1) เทคนิคตรรกบูลีน (Boolean logic)
สืบค้นโดยอาศัยตัวกระทำ 3 ตัว คือ AND, OR, NOT
- AND ใช้เชื่อมคำค้นเพื่อจำกัดขอบเขตการค้นให้แคบลง
- OR ใช้เชื่อมคำค้นเพื่อขยายขอบเขตการค้นให้กว้างขึ้น
- NOT ใช้เชื่อมคำค้นเพื่อจำกัดขอบเขตการค้นให้แคบลง
เป็นเทคนิคที่ช่วยในการสืบค้นให้ได้ข้อมูลที่ กว้างขึ้น ครอบคลุมมากขึ้น โดยการละข้อความบางส่วนของคำ และใช้สัญลักษณ์แทน อาจเป็นสัญลักษณ์ # หรือ ? หรือ $ ขึ้นอยู่กับข้อกำหนดและ
ความสามารถของระบบ เช่น Librar#,Model*,Teach$, etc.
3) เทคนิคการจำกัดคำค้น (Limit search)
เป็นเทคนิคการจำกัดการค้นให้แคบลง โดยกำหนดเขตข้อมูลที่ต้องการสืบค้นร่วมกับคำค้น ทั้งนี้ขึ้นอยู่กับข้อกำหนดและความสามารถของระบบที่
สืบค้น เช่น การกำหนดให้ระบุปีพิมพ์ของข้อมูลที่ต้องการค้น หรือการกำหนดภาษาของเอกสาร เช่น internet and la = English