HACK#29 Google Directory

Google ได้จัดทำสารบบสำหรับสืบค้น (directory) โดยแบ่งเป็นหมวดหมู่เอาไว้ นอกเหนือจากการสืบค้นจากเว็บเพจจำนวนถึง 2 พันล้านหน้าตามปกติด้วย
ฐาน ข้อมูลของ Google มีการจัดทำอินเด็กซ์เว็บเพจเอาไว้ถึง 2 พันล้านหน้า ซึ่งย่อมไม่เหมาะกับการสืบค้นทุกสิ่งทุกอย่างเป็นแน่ ในกรณีที่คุณสืบค้นแล้วไม่ได้ผลในสิ่งที่ต้องการ เช่นคุณต้องการค้นหาข้อมูลของใครบางคนที่คุณไม่รู้จักเอาเสียเลย การสืบค้นจากข้อมูลถึง 2 พันล้านหน้าคงจะทำให้หงุดหงิดเอาได้ง่ายๆ
อย่าง ไรก็ตาม คุณไม่ต้องจำกัดตัวเองด้วยการสืบค้จากเฉพาะเว็บเพจดังกล่าวก็ได้ เพราะ Google ยังมีบริการสืบค้นจากอินเด็กซ์ของหัวข้อ (index of subject) นั่นก็คือ Google Directory ที่ http://directory.google.com ซึ่งแทนที่จะจัดทำอินเด็กซ์จากจำนวนเว็บเพจเป็นพันๆ ล้านหน้า Google Directory จะเก็บข้อมูลที่บอกคุณว่าเป็นเว็บไซต์เกี่ยวกับอะไรแทน และมีข้อมูลอยู่เพียง 1 ล้านห้าแสน URL เท่านั้น วิธีนี้จะทำให้การสืบค้นเกี่ยวกับเรื่องทั่วๆไปเป็นเรื่องง่ายขึ้น
แม้ กระนั้นก็ดี ถ้าถามว่า Google ต้องเสียเวลาในการจัดทำอินเด็กซ์ subject เหล่านี้นอกเหนือไปจากอินเด็กซ์ของเว็บเพจแบบปกติหรือไม่ คำตอบก็คือไม่ เพราะ Google ได้นำข้อมูล Directory ของ Open Directory Project (http://dmoz.org/)ดยที่ข้อมูลที่รวบรวมไว้ใน Open Directory Project นั้น ได้รวบรวมและดูแลโดยเหล่าอาสาสมัครกลุ่มหนึ่ง ทว่า Google ก็ได้เพิ่มเติมส่วนที่ได้มาจากเทคโนโลยีสุดยอดของตนเข้าไปด้วยเช่นกัน
คุณ จะเห็นได้จากหน้า Google Directory Homepage มีการจัดหัวข้อต่างๆให้เป็นหมวดหมู่อย่างเป็นระเบียบโดยเรียงตามตัวอักษร เป็นหลัก หากคุณต้องการข้อมูลเรื่องใดคุณก็สามารถที่จะสืบค้นด้วยการใส่คีย์เวิร์ด สำหรับการค้นหาลงในช่อง Text Box ที่อยู่ด้านบน หรือคลิกเข้าไปเรื่อยๆตามหมวดหมู่ที่แยกเอาไว้ก็ได้
นอกเหนือจากหมวดหมู่ของหัวข้อที่แสดงไว้แล้ว คุณจะเห็นแถบสีเขียว ซึ่งแถบนี้เป็นเสมือนตัวบ่งชี้อย่างคร่าวๆถึง PageRank ของเว็บไซต์เหล่านั้น เว็บไซต์ต่างๆที่เห็นจะถูกจัดเรียงกันโดยอัตโนมัติตามค่าของ PageRank นี้ แต่คุณยังจะมีทางเลือกที่จะให้จัดเรียงชื่อเว็บไซต์ตามตัวอักษรก็ได้ถ้าต้องการ
สิ่ง หนึ่งที่คุณจะสังเกตเห็นเกี่ยวกับ Google Directory ก็คือ คำอธิบายประกอบและข้อมูลอื่นๆ นั้นจะเปลี่ยนแปลงไปตามหมวดหมู่ของคำสืบค้น ที่เป็นเช่นนี้เพราะข้อมูลที่อยู่ใน Directory นั้นได้รับการดูแลโดยอาสาสมัครกลุ่มเล็กๆกลุ่มหนึ่ง (ประมาณ 20,000 คน) ซึ่งแต่ละคนจะรับผิดชอบคนละหมวดหมู่หรือมากกว่านั้น ซึ่งส่วนใหญ่แล้วคำอธิบายประกอบเหล่านี้จะทำไว้ดีค่อนข้างดีเลยทีเดียว สำหรับภาพที่ 2-1 เป็นหน้าตาของ Google Directory

ภาพที่ 2-1 หน้าตาของ Google Directory
การสืบค้น Google Directory
Google Directory เองไม่มีซินแท็กซ์พิเศษที่ซับซ้อนสำหรับสืบค้นเช่นที่การสืบค้น
แบบ ปกติ (regular search) มี นั่นเป็นเพราะกลุ่มจำนวนหน้าน้อยกว่ามาก จึงเหมาะสำหรับการสืบค้นเรื่องทั่วๆไปมากกว่า อย่างไรก็ตาม ยังมีซินแท็กซ์พิเศษที่สามารถนำมาใช้ได้ ดังนี้
intitle:
เช่น เดียวกับซินแท็กซ์ของการสืบค้นปกติ (regular search) ซินแท็กซ์ intitle: จะจำกัดผลการสืบค้น ให้แสดงรายการฉพาะเว็บเพจหน้าที่มีคีย์เวิร์ดที่ใช้ในการสืบค้นอยู่ในส่วน ของ Title ของเว็บเพจเป็นหลักเท่านั้น
inurl:
จะจำกัดผลลัพธ์การค้นหา ให้ได้เฉพาะเว็บเพจหน้าที่มีคำที่ใช้ในการค้นหาอยู่ภายใน URL ของหน้านั้นเท่านั้น
ขณะ ที่คุณสืบค้นเว็บอินเด็กซ์ของ Google อยู่นั้น คุณอาจจะเป็นห่วงว่าคุณจะจัดการกับผลการสืบค้นที่ได้มาอย่างไร วิธีการทั่วๆไปที่ใช้ได้ผลก็คือ คุณอาจจะเริ่มต้นด้วยการจำกัดผลลัพธ์ให้แคบลงไปเรื่อยๆก็ย่อมได้
วิธี การนี้ถือเป็นวิธีการที่ดีสำหรับเว็บอินเด็กซ์ทั่วไป เพราะคุณมีฐานสำหรับการสืบค้นที่แคบนั่นเอง แม้กระนั้นก็ตาม การเริ่มต้นค้นหาสิ่งที่ต้องการที่ไม่เฉพาะเจาะจงนักด้วย Google Directory ก็นับเป็นการเริ่มต้นที่ดีเช่นกัน
ยก ตัวอย่างเช่น คุณต้องการข้อมูลเกี่ยวกับนักเขียนที่ชื่อ P.G.Wodehouse ทว่าการสืบค้นแบบปกติ (regular search) ด้วยคำว่า P.G.Wodehouse ใน Google จะทำให้คุณได้ผลการสืบค้นถึง 25,000 รายการ ซึ่งอาจจะทำให้คุณเดือดร้อนที่จะต้องหาผลลัพธ์ที่ใกล้เคียงกับสิ่งที่คุณ ต้องการโดยเร็ว แต่การสืบค้นคำเดียวกันนี้จาก Google Directory จะให้ผลลัพธ์กลับมาเพียง 96 รายการซึ่งอาจจะเป็นตัวเลขที่คุณจัดการได้ง่ายขึ้น หรือคุณอาจจะค้นหาอย่างละเอียดอีกทีหนึ่งก็ได้
การ สืบค้นด้วย Google Directory จะเหมาะสำหรับการสืบค้นเหตุการณ์ต่างๆด้วยเช่นกัน การสืบค้นแบบปกติด้วยคำว่า “Korean War” จะให้ผลการสืบค้นเป็นแสนรายการ ในขณะที่การสืบค้นจาก Google Directory จะให้ผลการสืบค้นเพียง 1,200 รายการเท่านั้น นี่คือกรณีตัวอย่างที่คุณต้องการจำกัดผลลัพธ์ให้แคบลง คุณสามารถใช้คำพื้นๆเพื่อระบุถึงข้อมูลที่คุณต้องการเช่นคำว่า timeline หรือ archives หรือ lesson plan ก็ได้ แต่อย่าได้ใช้กับชื่อคนหรือชื่อสถานที่ เพราะนั่นไม่ใช่วิธีที่ดีสำหรับการใช้ Google Directory
Google Directory และ Google API
น่าเสียดายเป็นอย่างยิ่งเลยทีเดียวที่ Google API ไม่ได้ครอบคลุมการใช้ไปถึง Google Directory ด้วย

โพสต์ยอดนิยมจากบล็อกนี้

ปัญหาและเฉลยธรรม นักธรรมชั้นโท สอบในสนามหลวง พ.ศ. ๒๕๔๓ วันพฤหัสบดี ที่ ๑๖ พฤศจิกายน พ.ศ. ๒๕๔๓

ปัญหาและเฉลยวินัยบัญญัติ นักธรรมชั้นเอก สอบในสนามหลวง พ.ศ. ๒๕๔๓ วันเสาร์ ที่ ๑๘ พฤศจิกายน พ.ศ. ๒๕๔๓

ปัญหาและเฉลยวิชาธรรม นักธรรมชั้นโท สอบในสนามหลวง วันเสาร์ ที่ ๑๙ พฤศจิกายน พ.ศ. ๒๕๔๘