HACK#29 Google Directory

Google ได้จัดทำสารบบสำหรับสืบค้น (directory) โดยแบ่งเป็นหมวดหมู่เอาไว้ นอกเหนือจากการสืบค้นจากเว็บเพจจำนวนถึง 2 พันล้านหน้าตามปกติด้วย
ฐาน ข้อมูลของ Google มีการจัดทำอินเด็กซ์เว็บเพจเอาไว้ถึง 2 พันล้านหน้า ซึ่งย่อมไม่เหมาะกับการสืบค้นทุกสิ่งทุกอย่างเป็นแน่ ในกรณีที่คุณสืบค้นแล้วไม่ได้ผลในสิ่งที่ต้องการ เช่นคุณต้องการค้นหาข้อมูลของใครบางคนที่คุณไม่รู้จักเอาเสียเลย การสืบค้นจากข้อมูลถึง 2 พันล้านหน้าคงจะทำให้หงุดหงิดเอาได้ง่ายๆ
อย่าง ไรก็ตาม คุณไม่ต้องจำกัดตัวเองด้วยการสืบค้จากเฉพาะเว็บเพจดังกล่าวก็ได้ เพราะ Google ยังมีบริการสืบค้นจากอินเด็กซ์ของหัวข้อ (index of subject) นั่นก็คือ Google Directory ที่ http://directory.google.com ซึ่งแทนที่จะจัดทำอินเด็กซ์จากจำนวนเว็บเพจเป็นพันๆ ล้านหน้า Google Directory จะเก็บข้อมูลที่บอกคุณว่าเป็นเว็บไซต์เกี่ยวกับอะไรแทน และมีข้อมูลอยู่เพียง 1 ล้านห้าแสน URL เท่านั้น วิธีนี้จะทำให้การสืบค้นเกี่ยวกับเรื่องทั่วๆไปเป็นเรื่องง่ายขึ้น
แม้ กระนั้นก็ดี ถ้าถามว่า Google ต้องเสียเวลาในการจัดทำอินเด็กซ์ subject เหล่านี้นอกเหนือไปจากอินเด็กซ์ของเว็บเพจแบบปกติหรือไม่ คำตอบก็คือไม่ เพราะ Google ได้นำข้อมูล Directory ของ Open Directory Project (http://dmoz.org/)ดยที่ข้อมูลที่รวบรวมไว้ใน Open Directory Project นั้น ได้รวบรวมและดูแลโดยเหล่าอาสาสมัครกลุ่มหนึ่ง ทว่า Google ก็ได้เพิ่มเติมส่วนที่ได้มาจากเทคโนโลยีสุดยอดของตนเข้าไปด้วยเช่นกัน
คุณ จะเห็นได้จากหน้า Google Directory Homepage มีการจัดหัวข้อต่างๆให้เป็นหมวดหมู่อย่างเป็นระเบียบโดยเรียงตามตัวอักษร เป็นหลัก หากคุณต้องการข้อมูลเรื่องใดคุณก็สามารถที่จะสืบค้นด้วยการใส่คีย์เวิร์ด สำหรับการค้นหาลงในช่อง Text Box ที่อยู่ด้านบน หรือคลิกเข้าไปเรื่อยๆตามหมวดหมู่ที่แยกเอาไว้ก็ได้
นอกเหนือจากหมวดหมู่ของหัวข้อที่แสดงไว้แล้ว คุณจะเห็นแถบสีเขียว ซึ่งแถบนี้เป็นเสมือนตัวบ่งชี้อย่างคร่าวๆถึง PageRank ของเว็บไซต์เหล่านั้น เว็บไซต์ต่างๆที่เห็นจะถูกจัดเรียงกันโดยอัตโนมัติตามค่าของ PageRank นี้ แต่คุณยังจะมีทางเลือกที่จะให้จัดเรียงชื่อเว็บไซต์ตามตัวอักษรก็ได้ถ้าต้องการ
สิ่ง หนึ่งที่คุณจะสังเกตเห็นเกี่ยวกับ Google Directory ก็คือ คำอธิบายประกอบและข้อมูลอื่นๆ นั้นจะเปลี่ยนแปลงไปตามหมวดหมู่ของคำสืบค้น ที่เป็นเช่นนี้เพราะข้อมูลที่อยู่ใน Directory นั้นได้รับการดูแลโดยอาสาสมัครกลุ่มเล็กๆกลุ่มหนึ่ง (ประมาณ 20,000 คน) ซึ่งแต่ละคนจะรับผิดชอบคนละหมวดหมู่หรือมากกว่านั้น ซึ่งส่วนใหญ่แล้วคำอธิบายประกอบเหล่านี้จะทำไว้ดีค่อนข้างดีเลยทีเดียว สำหรับภาพที่ 2-1 เป็นหน้าตาของ Google Directory

ภาพที่ 2-1 หน้าตาของ Google Directory
การสืบค้น Google Directory
Google Directory เองไม่มีซินแท็กซ์พิเศษที่ซับซ้อนสำหรับสืบค้นเช่นที่การสืบค้น
แบบ ปกติ (regular search) มี นั่นเป็นเพราะกลุ่มจำนวนหน้าน้อยกว่ามาก จึงเหมาะสำหรับการสืบค้นเรื่องทั่วๆไปมากกว่า อย่างไรก็ตาม ยังมีซินแท็กซ์พิเศษที่สามารถนำมาใช้ได้ ดังนี้
intitle:
เช่น เดียวกับซินแท็กซ์ของการสืบค้นปกติ (regular search) ซินแท็กซ์ intitle: จะจำกัดผลการสืบค้น ให้แสดงรายการฉพาะเว็บเพจหน้าที่มีคีย์เวิร์ดที่ใช้ในการสืบค้นอยู่ในส่วน ของ Title ของเว็บเพจเป็นหลักเท่านั้น
inurl:
จะจำกัดผลลัพธ์การค้นหา ให้ได้เฉพาะเว็บเพจหน้าที่มีคำที่ใช้ในการค้นหาอยู่ภายใน URL ของหน้านั้นเท่านั้น
ขณะ ที่คุณสืบค้นเว็บอินเด็กซ์ของ Google อยู่นั้น คุณอาจจะเป็นห่วงว่าคุณจะจัดการกับผลการสืบค้นที่ได้มาอย่างไร วิธีการทั่วๆไปที่ใช้ได้ผลก็คือ คุณอาจจะเริ่มต้นด้วยการจำกัดผลลัพธ์ให้แคบลงไปเรื่อยๆก็ย่อมได้
วิธี การนี้ถือเป็นวิธีการที่ดีสำหรับเว็บอินเด็กซ์ทั่วไป เพราะคุณมีฐานสำหรับการสืบค้นที่แคบนั่นเอง แม้กระนั้นก็ตาม การเริ่มต้นค้นหาสิ่งที่ต้องการที่ไม่เฉพาะเจาะจงนักด้วย Google Directory ก็นับเป็นการเริ่มต้นที่ดีเช่นกัน
ยก ตัวอย่างเช่น คุณต้องการข้อมูลเกี่ยวกับนักเขียนที่ชื่อ P.G.Wodehouse ทว่าการสืบค้นแบบปกติ (regular search) ด้วยคำว่า P.G.Wodehouse ใน Google จะทำให้คุณได้ผลการสืบค้นถึง 25,000 รายการ ซึ่งอาจจะทำให้คุณเดือดร้อนที่จะต้องหาผลลัพธ์ที่ใกล้เคียงกับสิ่งที่คุณ ต้องการโดยเร็ว แต่การสืบค้นคำเดียวกันนี้จาก Google Directory จะให้ผลลัพธ์กลับมาเพียง 96 รายการซึ่งอาจจะเป็นตัวเลขที่คุณจัดการได้ง่ายขึ้น หรือคุณอาจจะค้นหาอย่างละเอียดอีกทีหนึ่งก็ได้
การ สืบค้นด้วย Google Directory จะเหมาะสำหรับการสืบค้นเหตุการณ์ต่างๆด้วยเช่นกัน การสืบค้นแบบปกติด้วยคำว่า “Korean War” จะให้ผลการสืบค้นเป็นแสนรายการ ในขณะที่การสืบค้นจาก Google Directory จะให้ผลการสืบค้นเพียง 1,200 รายการเท่านั้น นี่คือกรณีตัวอย่างที่คุณต้องการจำกัดผลลัพธ์ให้แคบลง คุณสามารถใช้คำพื้นๆเพื่อระบุถึงข้อมูลที่คุณต้องการเช่นคำว่า timeline หรือ archives หรือ lesson plan ก็ได้ แต่อย่าได้ใช้กับชื่อคนหรือชื่อสถานที่ เพราะนั่นไม่ใช่วิธีที่ดีสำหรับการใช้ Google Directory
Google Directory และ Google API
น่าเสียดายเป็นอย่างยิ่งเลยทีเดียวที่ Google API ไม่ได้ครอบคลุมการใช้ไปถึง Google Directory ด้วย

โพสต์ยอดนิยมจากบล็อกนี้

I miss you all กับ I miss all of you ต่างกันอย่างไร

ปัญหาและเฉลยวิชาธรรม นักธรรมชั้นตรี สอบในสนามหลวง วันอังคาร ที่ ๒๙ กันยายน พ.ศ.๒๕๕๒

ปัญหาและเฉลยวิชาอนุพุทธประวัติ นักธรรมชั้นโท สอบในสนามหลวง วันอาทิตย์ ที่ ๒๐ พฤศจิกายน พ.ศ. ๒๕๔๘