บทที่ 1 เจาะ Google ให้รู้แจ้ง (Hack #1

บทที่ 1 เจาะ Google ให้รู้แจ้ง (Hack #1 - 28)

คุณจะเห็นว่าหน้าแรก ของ Google นั้นแสนจะเรียบง่ายมีเพียงแบบฟอร์มการค้นหาและปุ่มคำสั่งเพียงไม่กี่ปุ่ม ทว่าเบื้องหลังความเรียบง่ายนั้นคือศักยภาพแห่งความเป็น Search Engine ขนานแท้ ซึ่งจะเป็นเครื่องมือสำคัญที่จะทำให้คุณสามารถเข้าถึงขุมทรัพย์ข้อมูลอัน มหาศาลได้ และหากว่าคุณสามารถที่จะใช้งาน Google ได้อย่างเต็มศักยภาพแล้วละก็ เครือข่ายเว็บทั้งหมดก็จะกลายเป็นเหมืองทองแห่งความรู้ให้กับคุณไปโดยฉับ พลัน
แต่ก่อนอื่น คุณจะต้องรู้เสียก่อนว่า มีอะไรบ้างที่ไม่ใช่สิ่งที่ Google เป็น

สิ่งที่ไม่มีอยู่ในความเป็น Google

จริงๆ แล้วอินเทอร์เน็ตไม่ใช่ห้องสมุด แต่ข้อเปรียบเทียบที่ว่าอินเทอร์เน็ตเปรียบเสมือนห้องสมุดก็ได้แสดงให้เรา เห็นอะไรได้หลายอย่าง เช่น แสดงให้เห็นว่าอินเทอร์เน็ตคือศูนย์รวมข้อมูลและความรู้ต่างๆมากมาย แสดงให้เห็นถึงความขยันขันแข็งของเจ้าหน้าที่ในการจัดเรียงเอกสารใหม่ๆที่ เพิ่มเข้ามาเรื่อยๆ และแสดงถึงการวิธีการเรียนรู้อย่างเป็นระบบ รวมถึงเรื่องอื่นๆอีกมากมาย ซึ่งการพยายามคิดถึงอินเทอร์เน็ตในแง่ของการเป็นห้องสมุดแต่เพียงถ่ายเดียว นั้นอาจเป็นความเข้าใจที่ยังไม่ถูกต้องนักก็เป็นได้
เราจึงควรขจัดความเข้าใจที่ไม่ถูกต้องเหล่านี้ออกไปกันเสียก่อน ดังนี้

Google Index (ดัชนีหรืออินเด็กซ์ที่ Google จัดทำขึ้นเพื่อใช้อ้างอิงข้อมูลที่มีอยู่) เป็นเพียงภาพรวมของสิ่งที่ออนไลน์ทั้งหมดเท่านั้น ทั้งนี้เพราะไม่มี Search Engine ตัวไหนที่จะรู้ดีไปหมดทุกอย่าง แม้กระทั่ง Google เองก็ตาม เพราะสิ่งที่ออนไลน์อยู่นั้นมันช่างมากมายมหาศาล และหลั่งไหลเข้ามารวดเร็วมากเสียจนเราติดตามกันไม่ไหว โดยอาจอยู่ในรูปแบบเนื้อหาที่แตกต่างกันออกไป เช่น เป็นภาพยนตร์ เป็นแถบเสียง เป็นภาพการ์ตูนเคลื่อนไหว และข้อมูลที่มีการจัดเก็บในรูปแบบเฉพาะอีกหลากหลายรูปแบบจนนับไม่ถ้วนเลยที เดียว

สิ่งที่ ปรากฏอยู่บนเครือข่ายอินเตอร์เน็ตเชื่อถือได้หรือไม่? คำตอบก็คือไม่ เพราะสิ่งที่เราเห็นในนั้นอาจมีอคติ ถูกบิดเบือน หรือกระทั่งไม่มีความถูกต้องเอาเสียเลยก็เป็นได้ ไม่ว่าจะด้วยความตั้งใจหรือไม่ก็ตาม คุณอาจลองพิสูจน์ข้อเท็จจริงนี้ โดยการเข้าไปเยี่ยมชมเว็บที่ชื่อว่า Urban Legends Reference Pages (http://www.snopes.com/) ดูก็ได้ แล้วคุณจะได้สัมผัสกับตำนานต่างๆที่คลาดเคลื่อนและข้อมูลที่ผิดๆมากมายที่มีอยู่ในอินเทอร์เน็ต

Filter หรือตัวกรองเนื้อหาอาจจะช่วยปกป้องคุณจากเนื้อหาที่น่ารังเกียจทั้งหลายได้ แม้ว่า Filter ของ Google ที่เป็นสิ่งที่คุณจะเลือกใช้หรือไม่ก็ได้นั้น จะทำงานอยู่ในเกณฑ์ดี และถือว่ามีประโยชน์พอสมควรก็ตาม แต่ทว่ามันก็ยังไม่สมบูรณ์แบบโดยไร้ที่ติเลยซะทีเดียว เพราะแม้จะใช้ Filter คุณก็ยังอาจได้พบเจอเนื้อหาที่ไม่เหมาะสมได้อยู่ดี

สำหรับ Google Index คงไม่สามารถอยู่นิ่งๆเสมือนเป็น Snapshot ของเครือข่ายเว็บได้อย่างแน่นอน เพราะอินเด็กซ์ดังกล่าวจะต้องผันแปรไปตามเครือข่ายซึ่งมีการเปลี่ยนแปลงอยู่ ตลอดเวลา โดยที่แต่ละแขนงของเครือข่ายต่างก็มี Web Page ใหม่ๆส่งเข้ามาอยู่ไม่ขาดสาย อีกทั้งยังมีเรื่องของการเปลี่ยนแปลงแก้ไขข้อมูลเดิมที่มีอยู่แล้ว รวมถึง Web Page ที่ถูกลบทิ้งไปอีกด้วย นอกจากนี้แล้ววิธีการของ Google เองก็เปลี่ยนไปเรื่อยๆตามนวัตกรรมใหม่ๆที่ผู้ออกแบบระบบได้ศึกษาและพัฒนา ขึ้นมา ดังนั้นจงอย่าจำกัดตนเองด้วยวิธีการค้นหาแบบเดิมๆ เพราะการทำเช่นนั้นมีแต่จะจำกัดตัวคุณไม่ให้เข้าถึงวิวัฒนาการที่ใหม่และดี ขึ้นกว่าของ Google นั่นเอง

สิ่งที่ Google เป็นอยู่

วิธี การที่คนส่วนใหญ่ใช้งาน Search Engine ก็คือการพิมพ์ keyword สองสามคำลงไปและรอดูผลลัพธ์ (search result) ว่าจะได้อะไรกลับคืนมาบ้าง วิธีการเช่นนี้อาจใช้ได้ผลดีสำหรับ Domain บางประเภท ทว่าเมื่ออินเทอร์เน็ตขยายตัวใหญ่มากขึ้นเรื่อยๆ วิธีนี้ก็จะใช้ได้ผลน้อยลงตามลำดับเช่นกัน
ดังนั้น Google จึงพัฒนาส่วนเพิ่มเติมที่เรียกว่า “ซินแท็กซ์พิเศษ” (Special Syntax) มาให้เราใช้ด้วย และในบทนี้ก็จะพูดถึงซินแท็กซ์พิเศษเหล่านั้นโดยละเอียดเลยทีเดียว ซึ่งเราอาจสรุปได้ดังต่อไปนี้

การสืบค้นภายใน Web Page (within the page)

Google มีซินแท็กซ์พิเศษที่จะทำให้คุณกำหนดการสืบ

ค้นของคุณในระดับ Web Page เช่นการระบุชื่อ หรือ URL (Uniform Resource Locator) ของ Web Page ที่ต้องการได้

ประเภทของ Web Page (kinds of page)

Google ยอมให้คุณสามารถกำหนดการสืบค้นตามประเภทของเว็บไซต์ (search by domain category) ได้ด้วย เช่น เว็บไซต์ที่มี Domain เป็นเรื่องเกี่ยวกับการศึกษา (.edu) หรือค้นหา Web Page ที่ได้มีการจัดทำอินเด็กซ์ (indexing) ในช่วงวันที่ต้องการ (specified date range) เป็นต้น

รูปแบบของเนื้อหา (kinds of content)

เมื่อ สืบค้นด้วย Google คุณสามารถที่จะค้นหาไฟล์ได้หลากหลายรูปแบบ ยกตัวอย่างเช่น เอกสารที่เป็นไมโครซอฟต์เวิร์ด สเปรดชีทของเอ็กเซล หรือไฟล์ PDF ก็ตามที นอกจากนี้คุณยังจะสามารถค้นหา Web Page ที่เขียนด้วยภาษา XML, SHTML
หรือกระทั่ง RSS ได้ด้วย

รูปแบบเฉพาะ (special collections)

Google มีคุณสมบัติในการค้นหาให้คุณได้เลือกใช้อยู่มากมายหลายแบบ และบางแบบก็ยังไม่ถูกลบออกไปจากอินเด็กซ์ดังเช่นที่คุณเข้าใจ คุณอาจจะนึกถึง Google Index ในแง่การเป็นอินเด็กซ์ของเรื่องราวใหม่ๆหรือภาพใหม่ๆเท่านั้น ทว่าคุณเคยรู้เกี่ยวกับวิธีสืบค้นข้อมูลเฉพาะ (specific information) สำหรับงานต่างๆในระดับมหาวิทยาลัยบ้างหรือไม่ หรือคุณรู้บ้างไหมว่า คุณสามารถใช้
Google ทำการค้นหาโดยแยกตาม Topic เช่น Topic ต่างๆที่มีความเกี่ยวข้องกับระบบปฎิบัติการ BSD ไม่ทางใดก็ทางหนึ่ง
หรือ จะเกี่ยวกับลีนุกซ์ หรือแอ๊ปเปิล หรือไมโครซอฟต์ เป็นต้น รวมถึง Topic ที่เป็นเรื่องเกี่ยวกับรัฐบาล (U.S Government) เพียงอย่างเดียวเท่านั้น

ซิ นแท็กซ์‌ต่างๆเหล่านี้สามารถใช้ร่วมกันได้ด้วย ซึ่งนี่แหละคือความสามารถอันพิเศษของ Google เพราะคุณจะสามารถทำการสืบค้นได้ถึงระดับรูปแบบ Web Page ที่ต้องการ ไปจนถึงระดับเนื้อหาและประเภทของ Web Page เลยทีเดียว

กล่าว โดยรวมแล้ว ประโยชน์ที่คุณจะได้รับจากหนังสือเล่มนี้ก็คือ โอกาสที่ไร้ขอบเขตนั่นเอง หนังสือเล่มนี้จะแนะนำคุณเกี่ยวกับเทคนิคต่างๆมากมายเกินจะบรรยายได้หมด แต่หากว่าคุณเพียงแต่รับรู้ในทางทฤษฎีโดยไม่ยอมนำมันไปปฏิบัติ คุณก็จะไม่ได้รับประโยชน์อะไรเลยเช่นกัน ดังนั้นคุณต้องฝึกฝนด้วยการลองผิดลองถูกไปด้วย โดยการกำหนดสิ่งที่คุณต้องการจะค้นหาขึ้นมา และพยายามใช้สิ่งที่คุณได้จากหนังสือเล่มนี้เพื่อการสืบค้นสิ่งที่ต้องการ จากนั้นจึงค่อยสรุปเทคนิคดีๆที่คุณใช้ได้ผลเอาไว้ใช้ในภายหลัง

รู้จักพื้นฐานการทำงานของ Google

จะ ว่าไปแล้ว ในอินเทอร์เน็ตมี Search Engine อยู่สองประเภทหลักๆด้วยกัน ประเภทแรกเราจะเรียกว่าเป็น Search Engine ที่สืบค้นด้วยอินเด็กซ์หัวเรื่อง (searchable subject index) ซึ่งจะทำการสืบค้นเฉพาะชื่อหรือคำอธิบายของเว็บไซต์เท่านั้น แต่จะไม่ทำการสืบค้นในระดับ Web Page ตัวอย่างของ Search Engine ประเภทนี้ก็เช่น Yahoo! เป็นต้น อีกประเภทหนึ่งได้แก่ Search Engine ที่ทำการสืบค้นเนื้อหาทุกอย่างด้วยวิธีแบบ Full Text Search ซึ่งจะใช้การสืบค้นด้วยระบบการประมวลผลแบบ “สไปเดอร์” (spider) เพื่อที่จะจัดทำอินเด็กซ์ให้กับ Web Page ซึ่งมีเป็นล้านๆหน้า หรืออาจจะถึงหลายพันล้านหน้า ทำให้เราสามารถสืบค้นถึงในระดับ Web Page ด้วยการระบุคำที่ต้องการค้นหา (query word) ที่ต้องการ และได้ผลลัพธ์ที่ใกล้เคียงมากกว่าการสืบค้นแบบแรก ซึ่ง Google จัดอยู่ใน Search Engine ประเภทหลังนี้

เมื่อ คุณสืบค้นด้วย keyword มากกว่าหนึ่งคำในแต่ละครั้งนั้น Google จะมีวิธีในการจัดการกับ keyword นั้นๆ ว่าจะสืบค้น keyword ดังกล่าวไปพร้อมๆกัน หรือจะแยกสืบค้น keyword แต่ละคำออกจากกันต่างหาก วิธีการก็คือ Google จะดูที่โอเปอเรเตอร์ตามค่าเริ่มต้น (default operator) ที่ถูกกำหนดเอาไว้ก่อนหน้านี้ ซึ่งอาจเป็นโอเปอเรเตอร์ AND (สืบค้น keyword ดังกล่าวพร้อมๆกัน) หรือโอเปอเรเตอร์ OR (สืบค้นด้วย keyword ใด keyword หนึ่งก่อน) ก็ได้ และหากว่าโอเปอเรเตอร์ซึ่งเป็นค่าเริ่มต้นของ Google เป็น AND (หมายถึงคุณไม่จำเป็นต้องใส่คำว่า AND แทรกลงไปตรงกลางระหว่าง keyword เหล่านี้) แล้วล่ะก็ คุณก็ยังมีวิธีที่จะสั่งให้ทำการสืบค้น keyword แต่ละคำแยกกันด้วยโอเปอเรเตอร์ OR ได้ เพียงแต่ Google จะต้องรู้ก่อนว่าคุณต้องการให้มันทำอะไรกันแน่ ด้วยการดูจากโอเปอเรเตอร์ที่คุณระบุลงไปนั่นเอง

ทำความรู้จักการค้นหาแบบ Boolean Search กันสักนิด

โดย ปกติแล้ว ค่าเริ่มต้นแบบ Boolean Search ของ Google ก็คือ AND นั่นเอง ซึ่งหมายความว่าเมื่อคุณป้อน keyword ที่เป็นคำที่ต้องการค้นหามากกว่าหนึ่งคำเป็นคำสั่งค้นหา (query) โดยไม่แทรก modifier ใดๆเพิ่มเข้าไปเลย กรณีนี้ Google จะสืบค้น keyword ทุกคำพร้อมกันไปเลย ยกตัวอย่างเช่น คุณจะสืบค้นคำว่า

snowblower Honda “GreenBay”

ใน คำสั่งนี้ Google จะสืบค้น keyword ข้างต้นให้ทุกคำ แต่หากความต้องการของคุณเพียงแค่ว่า ถ้าค้นเจอเพียงคำใดคำหนึ่งก็พอแล้ว คุณสามารถที่จะใส่โอเปอเรเตอร์ OR ลงไปในระหว่าง keyword ดังนี้

snowblower OR snowmobile OR “GreenBay”

แต่ ถ้าคุณต้องการผลลัพธ์ (search result) ที่ต้องมีคำใดคำหนึ่งอยู่ด้วยเสมอ และมีคำที่เหลือเพียงคำใดคำหนึ่งร่วมอยู่ด้วยเพียงคำเดียวเท่านั้นก็พอ คุณสามารถใช้เครื่องหมายวงเล็บเพื่อระบุความต้องการดังกล่าวได้ ดังนี้

snowblower (snowmobile OR “GreenBay”)

ด้วย คำสั่งนี้ Google จะค้นหาคำว่า “snowmobile” หรือ “Green Bay” อย่างใดอย่างหนึ่งไปพร้อมๆกับการค้นหาคำว่า “snowblower” ในเวลาเดียวกัน ซึ่งอันที่จริงแล้วโอเปอเรเตอร์ OR นี้ ก็มีที่มาจากรูปแบบการเขียนโปรแกรมคอมพิวเตอร์ (computer programming) นั่นเอง ด้วยการใช้เครื่องหมาย (pipe) แทนโอเปอเรเตอร์ OR ดังนี้

snowblower (snowmobile “GreenBay”)

ใน ทางกลับกัน หากว่าคุณต้องการที่จะระบุว่า ไม่ต้องการให้คำใดคำหนึ่งปรากฏในผลลัพธ์การสืบค้นนั้นๆ คุณก็สามารถที่จะสั่งด้วยการใช้เครื่องหมาย – (ลบ) ได้ เช่น

snowblower snowmobile - “GreenBay”

คำ สั่งนี้จะทำให้ Google สืบค้นได้ผลลัพธ์เฉพาะ Web Page ที่มีทั้งคำว่า “snowblower” และ “snowmobile” เท่านั้น แต่จะไม่มีคำว่า “GreenBay” โดยเด็ดขาด

การสืบค้นอย่างง่ายและฟีเจอร์ I’am Feeling Lucky (ค้นปุ๊บเจอปั๊บ)

I’am Feeling Lucky นั้นเป็นฟีเจอร์ที่เก่งกาจพอดู คือแทนที่จะให้ผลลัพธ์เป็นรายการหางว่าวยาวเหยียด คุณจะได้รับเฉพาะ Web Page หน้าที่ Google เห็นว่ามีความใกล้เคียงกับสิ่งที่คุณต้องการมากที่สุด เช่น เฉพาะผลลัพธ์รายการแรก (top result) รายการเดียวเท่านั้น คุณอาจทดล องพิมพ์คำว่า washington post และคลิกที่ปุ่มคำสั่ง I am Feeling Lucky ดูก็ได้ จะเห็นว่าคุณจะถูกลิงก์ไปที่ http://www.washingtonpost.com / โดยตรงเลย หรือลองพิมพ์คำว่า president ดูอีกสักคำ ซึ่งคำดังกล่าวจะนำคุณตรงเข้าไปที่เว็บไซต์ http://www.whitehouse.gov/ ในทันทีเช่นกัน

ตัวพิมพ์ใหญ่และตัวพิมพ์เล็ก

Search Engine บางตัวจะแยกแยะตัวพิมพ์ใหญ่ (uppercase) และตัวพิมพ์เล็ก (lowercase) นั่นคือ Search Engine จะคำนึงถึงความแตกต่างของตัวพิมพ์ใหญ่และตัวพิมพ์เล็กด้วย (case sensitive) เช่นในการค้นหาด้วยคำว่า “GEORGE WASHINGTON” คุณจะไม่พบผลลัพธ์ที่มี “George Washington” หรือ “george washington” เลยแม้แต่รายการเดียว แต่สำหรับ Google แล้ว เป็น Search Engine ที่ไม่ได้คำนึงถึงความแตกต่างดังกล่าวเลย ดังนั้นไม่ว่าคุณจะสืบค้นด้วยคำว่า Three หรือ three หรือ THREE ก็ตาม คุณก็จะได้ผลลัพธ์ออกมาเหมือนๆกัน

ข้อควรระวังอื่นๆ

ยัง มีข้อควรระวังอื่นๆที่คุณควรจะจำไว้เมื่อใช้ Google ข้อแรกก็คือ Google ยอมรับคำที่คุณใช้เป็น keyword ในการสืบค้น (query word) ไม่เกินกว่า 10 คำในแต่ละครั้งเท่านั้น โดยนับรวมคำที่เป็นซินแท็กซ์พิเศษ (special syntax) ด้วย และถ้าหากคุณระบุ keyword มากกว่าสิบคำแล้วละก็ คำเหล่านั้นก็จะไม่ถูกสืบค้นไปโดยปริยาย อย่างไรก็ตาม ถ้าสิ่งนี้เป็นปัญหาสำหรับคุณ เราก็ยังพอมีทางออกสำหรับเรื่องนี้บ้างเหมือนกัน (ดู Hack #5)

ข้อ ที่สองก็คือ Google ไม่สนับสนุนการสืบค้นแบบ “stemming” หรือการใช้เครื่องหมายดอกจันทน์ (หรือเครื่องหมายแสดงความไม่เฉพาะเจาะจงอื่นๆ) แทนการค้นหาด้วยข้อความ ยกตัวอย่างเช่น การระบุคำว่า moon* ลงไปใน Search Engine ที่สนับสนุนการสืบค้นแบบ stemming เราจะได้คำว่า “moonlight” “moonshot” “moonshadow” และอื่นๆอีกมากกลับคืนมา เป็นต้น แต่อย่างไรก็ตาม Google ก็ยังคงสนับสนุนการใช้เครื่องหมายดอกจันทน์กับคำที่อยู่ในวลีต่างๆ ( Hack #13) เช่น เมื่อค้นหาคำว่า “three * mice” ใน Google คุณก็จะได้คำว่า “three blind mice” “three blue mice” “three red mice” และอื่นๆอันมีลักษณะเดียวกันกลับคืนมา เป็นต้น

ดัง นั้นการใช้ซินแท็กซ์พิเศษที่ถูกต้อง จะต้องประกอบกับการคิดหา keyword อย่างรอบคอบไว้ล่วงหน้าด้วย ซึ่งจะช่วยให้คุณได้อะไรๆมากมายจากการสืบค้นนี้ ยิ่งบวกเข้ากับซินแท็กซ์ที่เราจะพูดถึงในหัวข้อต่อไปด้วยแล้ว คุณก็จะมีภาษาการสืบค้นที่ทรงอานุภาพไว้ในมืออย่างแท้จริง

ซินแท็กซ์พิเศษแบบต่างๆ (Special Syntax)

ดัง ได้เกริ่นไปบ้างแล้ว ว่านอกเหนือจากการสืบค้นด้วย AND และ OR รวมถึงคำเฉพาะบางคำแล้ว Google ยังมีซินแท็กซ์พิเศษเพิ่มเติมให้คุณได้เลือกใช้ตามความเหมาะสม เพื่อช่วยในการค้นหาสิ่งที่คุณต้องการได้ดีขึ้นอีกด้วยในฐานะที่เป็น Search Engine แบบ Full Text Search ตามที่ได้กล่าวไว้ข้างต้น จึงมีการจัดทำอินเด็กซ์ (indexing) ของ Web Page ทุกหน้าในเว็บไซต์ต่างๆ แทนที่จะจัดทำเพียงอินเด็กซ์จาก Title หรือ Description ของเว็บไซต์นั้นๆเพียงเท่านั้น ดังนั้นเพื่อให้ผู้ใช้สามารถสืบค้นได้ถึงส่วนที่เฉพาะเจาะจงของ Web Page หรือรูปแบบข้อมูลที่เฉพาะเจาะจงได้ Google จึงมีซินแท็กซ์พิเศษเพิ่มเติมให้ด้วย ซึ่งเป็นสิ่งที่มีประโยชน์มากเมื่อคุณต้องเผชิญกับ Web Page เป็นจำนวนสองพันล้านหน้าหรือมากกว่านั้น และต้องการที่จะให้ได้ผลลัพธ์ที่ออกมาใกล้เคียงกับสิ่งที่ต้องการมากที่สุด โดยเฉพาะอย่างยิ่ง การระบุว่าให้ค้นหาเฉพาะ Web Page ที่มี Title หรือ URL มีคำที่คุณค้นหาอยู่ด้วยนั้นเป็นวิธีที่ดีมาก ที่จะทำให้คุณได้ผลที่ใกล้เคียงที่สุดโดยไม่ต้องระบุ keyword ให้ละเอียดมากจนเกินไป

Tip ซิ นแท็กซ์ต่อไปนี้ บ้างก็ใช้งานได้ดี บ้างก็ใช้งานได้ไม่ดีนัก จนกระทั่งถึงบางตัวที่ทำงานได้ไม่ดีเอาซะเลย สำหรับรายละเอียดว่าซินแท็กซ์ใดใช้ร่วมกันได้ และซินแท็กซ์ใดใช้ร่วมกันไม่ได้ โปรดดูที่ Hack # 8

intitle:
intitle: เป็นซินแท็กซ์สำหรับการสืบค้นเฉพาะส่วน Title ของ Web Page ส่วน allintitle: จะสืบค้นหา Web Page หน้าที่มี Title ประกอบด้วย keyword ทุกๆคำที่คุณระบุเอาไว้ในคำสั่งที่ใช้ในการค้นหา แต่ทางที่ดีคุณควรหลีกเลี่ยงการใช้ allintitle: จะดีกว่า เพราะมันไม่สามารถใช้ร่วมกับซินแท็กซ์บางตัวได้

intitle: “george bush”
allintitle: “money supply” economics

inurl:inurl: จะจำกัดการสืบค้นของคุณให้อยู่เฉพาะ Web Page หน้าที่มี URL ตรงกับ keyword ที่ใช้ในการค้นหาเท่านั้น ซินแท็กซ์ตัวนี้มักจะใช้งานได้ดีในการค้นหา Web Page หน้าที่เป็น Search and Help Page เท่านั้น เพราะมักจะมีหน้าตาคล้ายคลึงกันเป็นส่วนใหญ่ ส่วน allinurl: จะช่วยค้นหา Web Page หน้าที่มี URL ประกอบด้วย keyword ทุกคำที่คุณใช้อยู่ใน URL ดังกล่าว แต่จะไม่สามารถใช้ร่วมกันได้กับซินแท็กซ์บางตัวได้

inurl: “help”
allinurl: search help

intext:
intext: จะค้นหาเฉพาะในส่วนของรายละเอียด (description) ซึ่งเป็นคำที่ไม่ได้อยู่ในส่วนของ Link , URL หรือ Title) เท่านั้น อีกตัวหนึ่งคือ allintext: ซึ่งก็ใช้งานได้ไม่ดีนักเมื่อใช้ร่วมกับซินแท็กซ์อื่นๆ แม้ว่าจะมีการใช้งานที่ค่อนข้างจำกัด แต่ intext: ก็สามารถใช้งานได้ดีกับการสืบค้นคำที่มักจะพบได้บ่อยๆในการสืบค้นจาก URL หรือ Title ด้วยเช่นกัน ตัวอย่างเช่น

intext : “yahoo.com”
intext : html

inanchor:inanchor: ใช้สำหรับค้นหาคำที่เป็นคำอธิบาย Web Link (link anchor) ยกตัวอย่าง เช่น คำอธิบาย Web Link ในภาษา HTML ของคำสั่ง O’Reilly and Associates คือคำว่า “O’Reilly and Associates.” เป็นต้น ตัวอย่างการใช้ เช่น

inanchor: “tom peters”

site:site: เป็นการระบุการสืบค้นในระดับเว็บไซต์ ถ้าใช้ซินแท็กซ์ตัวนี้แล้วตามด้วย Domain Name (รวมถึง Subdomain ด้วย) ของเว็บไซต์ที่ต้องการสืบค้น จะเป็นการค้นหาข้อมูลทั้งหมดที่อยู่ในเว็บไซต์แห่งนั้นเลย สำหรับใน Search Engine ตัวอื่นก็มีซินแท็กซ์ลักษณะนี้ด้วยเหมือนกัน ยกตัวอย่างเช่น AltaVista ที่มีใช้อยู่สองรูปแบบ (คือ host: และ domain:) แต่ใน Google จะมีรูปแบบเดียวเท่านั้น ตัวอย่างการใช้ เช่น

site:loc.gov
site:thomas.loc.gov
site:edu
site:nc.us

link:
link: จะให้ผลลัพธ์เป็นรายชื่อของ Web Page ที่ลิงก์มายัง Web Page ภายใต้ URL ที่คุณระบุ เช่น ถ้าคุณใส่คำว่า link:www.google.com คุณก็จะได้รับรายชื่อของ Web Page ต่างๆที่ลิงก์มาที่ Google โดยไม่ต้องเป็นกังวลกับการใส่คำว่า http// เพราะจะใส่หรือไม่ก็ให้ผลเหมือนกัน เนื่องจากเอง Google ก็ไม่ได้ใส่ใจกับมันอยู่แล้ว แม้ว่าคุณจะใส่มาด้วยก็ตาม ซินแท็กซ์ตัวนี้ใช้การได้ดีทั้งกับ URL ที่มีรายละเอียดมากๆ เช่น http://www.raelity.org/lang/perl/blosxom/ และ URL ที่มีรายละเอียดไม่มากนัก เช่น raelity.org เป็นต้น

cache:cache: จะสืบค้นส่วนที่เป็นหน้าที่ถูก cache เอาไว้ของ Web Page ที่อยู่ใน Google Index ซึ่งปกติแล้ว Google จะ cache Web Page ทุกหน้าที่ได้ทำอินเด็กซ์เอาไว้เสมอ เพื่อให้สืบค้นในภายหลังได้แม้ Web Page ภายใต้ URL นั้นจะไม่มีอีกต่อไปแล้ว หรือว่ามีการเปลี่ยนแปลงเนื้อหาไปหมดแล้วก็ตาม ซินแท็กซ์ตัวนี้เป็นประโยชน์มากในการค้นหา Web Page หน้าที่มีการเปลี่ยนแปลงบ่อยๆ
ถ้าผลลัพธ์ของ Google ที่ได้ออกมาใกล้เคียงกับสิ่งที่คุณสืบค้น ข้อสันนิษฐานเบื้องต้นขอให้คุณมั่นใจได้ว่าสิ่งที่คุณสืบค้นนั้นมาจากส่วน ของ cache ที่เป็นเวอร์ชั่นที่ล่าสุดแล้ว ตัวอย่างเช่น

cache:www.yahoo.com

daterange:
daterange: เป็นซินแท็กซ์ที่จะช่วยจำกัดช่วงเวลาสำหรับการสืบค้น โดยจำกัดเฉพาะ “วันที่” (date) หรือ “ช่วงของวันที่” (date range) ที่ได้มีการจัดทำอินเด็กซ์ Web Page หน้านั้นๆเอาไว้ สิ่งที่สำคัญก็คือว่า การสืบค้นจะยึดวันที่มีการจัดทำอินเด็กซ์ Web Page หน้านั้นใน Google Index เป็นหลักมากกว่า ยกตัวอย่างเช่น Web Page หน้าที่สร้างขึ้นเมื่อวันที่ 2 กุมภาพันธ์ แต่ยังไม่ได้ถูกจัดทำอินเด็กซ์ให้อยู่ใน Google Index จนกระทั่งมาถูกจัดทำอินเด็กซ์ในวันที่ 11 เมษายน เช่นนี้จะถูกสืบค้นพบด้วย daterange: โดยการระบุวันครอบคลุมวันที่ 11 เมษายนแทนที่จะเป็น 2 กุมภาพันธ์ เป็นต้น อีกอย่างหนึ่งที่จะต้องจำไว้ก็คือ Google จะปรับปรุงอินเด็กซ์ (reindex) ของตนอย่างสม่ำเสมอ การเปลี่ยนวันที่ของอินเด็กซ์จะขึ้นอยู่กับว่า มีการเปลี่ยนแปลงเนื้อหาของ Web Page หน้านั้นด้วยหรือไม่ ยกตัวอย่างเช่น Google จัดทำอินเด็กซ์ Web Page หน้าหนึ่งไว้เมื่อวันที่ 1 มิถุนายน และได้จัดทำอินเด็กซ์ (reindex) Web Page หน้านี้ซ้ำอีกครั้งหนึ่งในวันที่ 13 สิงหาคม แต่ถ้า Web Page หน้านี้ยังคงมีเนื้อหาเหมือนเดิมทุกอย่าง วันที่สำหรับการสืบค้นสำหรับ Web Page หน้านี้ก็จะยังคงเป็นวันที่ 1 มิถุนายนเช่นเดิม

โปรด พึงระวังว่า daterange: มีการใช้วันที่แบบ Julian Date (นับวันด้วยตัวเลขที่แสดงว่าเป็นวันที่เท่าไหร่ โดยเริ่มนับตั้งแต่วันที่ 1 มกราคม 4,713ปี ก่อนคริสต์ศักราช) ไม่ใช่วันที่แบบ Gregorian Date ซึ่งเป็นวันที่ตามปฏิทินที่เราใช้กันทุกวันนี้ แต่กับปัญหาดังกล่าว ยังมีซินแท็กซ์พิเศษที่ช่วยแปลงวันที่จากระบบหนึ่งไปยังอีกระบบหนึ่งขณะที่ คุณออนไลน์อยู่ได้เหมือนกัน คุณสามารถที่จะเข้าไปที่เว็บไซต์ที่เป็นตัวกลางให้กับ Google ได้ที่เว็บไซต์ FaganFinder (http://faganfinder.com/engines/google.shtml) ซึ่งจะทำให้คุณใช้ daterange: โดยเลือกเปลี่ยนระบบของวันที่ได้จากเมนูของวันที่แบบ Gregorian Date ที่ใช้กันอยู่ในปัจจุบัน ซึ่งกฎการแฮ็กหลายข้อในหนังสือเล่มนี้ก็ใช้ daterange: ในการสืบค้นด้วยเช่นกัน ดังนั้นคุณจะได้เห็นซินแท็กซ์ตัวนี้ปรากฎอยู่บ่อยครั้งตลอดเนื้อหาในหนังสือ เล่มนี้ ตัวอย่างได้แก่

“George Bush” daterange:2452389-2452389
neurosurgery daterange:2452389-2452389

filetype:ซิ นแท็กซ์ filetype: จะสืบค้นคำลงท้าย (suffix) หรือคำที่ระบุถึงนามสกุลของไฟล์ (file extension) ซึ่งทั้งสองอย่างนี้อาจจะให้ผลลัพธ์ที่แตกต่างกัน ยกตัวอย่างเช่น การค้นหาด้วยคำสั่ง filetype:htm และ filetype:html นั้น จะทำให้คุณได้ผลลัพธ์ที่แตกต่างกันแม้ว่าทั้งสองแบบจะหมายถึงไฟล์ที่สร้าง ด้วยภาษา HTML เหมือนกัน คุณอาจทำการสืบค้นด้วยการระบุภาษาที่สร้าง Web Page ที่แตกต่างกันออกไป เช่น ASP, PHP, CGI หรือภาษาอื่นๆก็ตามที โดยมีข้อแม้ว่า Web Page เหล่านั้นจะต้องไม่ถูกซ่อนไว้ด้วยวิธีการอย่างใดอย่างหนึ่ง (เช่น ด้วยวิธี redirect หรือการใช้ proxy) โดยผู้ดูแลเว็บไซต์นั้นๆ และสำหรับ Google เองก็ได้มีการจัดทำอินเด็กซ์ให้กับไฟล์หลักๆของไมโครซอฟต์ที่อยู่ในรูปแบบ ต่างๆ เช่นไฟล์พาเวอร์พอยต์ (PPT) ไฟล์เอ็กเซล (XLS) และไฟล์ไมโครซอฟต์เวิร์ด (DOC) ด้วย ตัวอย่างเช่น

homeschooling filetype:pdf
“leading economic” filetype:ppt

related:related: เป็นซินแท็กซ์ที่จะค้นหา Web Page ซึ่งจัดอยู่ในประเภทหรือหมวด (category) เดียวกันกับ Web Page ที่คุณต้องระบุในคำสั่ง ซึ่งเป็นวิธีที่ดีสำหรับการค้นหาโดยแบ่งแยกตามประเภทของ Web Page เช่นคำสั่ง related: google.com จะให้รายการผลลัพธ์ที่จัดอยู่ในประเภท Search Engine ทั้งหมด เช่น HotBot, Yahoo หรือ Northern Light เป็นต้น

related:www.yahoo.com
related:www.cnn.com

info:info: จะให้รายชื่อ Web Link ที่ให้ข้อมูลเพิ่มเติมเกี่ยวกับ Web Page ภายใต้ URL ที่ระบุ ข้อมูลเหล่านี้ยังรวมไปถึงส่วนที่เป็น cache ของ Web Page หน้านั้นๆ และรายชื่อบรรดา Web Page ที่ลิงก์ไปยัง Web Page ภายใต้ URL นั้นๆ และที่ต้องไม่ลืมคือ การที่จะได้รับข้อมูลเหล่านั้นอย่างไรขึ้นอยู่กับว่า Google ได้จัดทำอินเด็กซ์สำหรับ Web Page ภายใต้ URL นั้นเข้าไว้ใน Google Index แล้วหรือไม่ด้วย หากว่า Google ไม่ได้ทำอินเด็กซ์ Web Page ภายใต้ URL ดังกล่าวเอาไว้ ข้อมูลที่ได้ก็จะค่อนข้างจำกัดด้วยเช่นกัน ตัวอย่างการใช้ได้แก่

info:www.oreilly.com
info:www.nytimes.com/technology

phonebook:phonebook: เป็นซินแท็กซ์ที่ใช้สำหรับค้นหาหมายเลขโทรศัพท์ รายละเอียดของซินแท็กซ์ตัวนี้โปรดดูใน Hack #17 สำหรับตัวอย่างเบื้องต้น ได้แก่

phonebook:John Doe CA
Phonebook:(510) 555-1212

ยิ่ง ได้ใช้ซินแท็กซ์พิเศษเหล่านี้บ่อยมากเท่าไหร่ คุณก็จะใช้งานได้คล่องขึ้นเท่านั้น และ Google เองก็มักจะเพิ่มเติมซินแท็กซ์พิเศษชนิดใหม่ๆอยู่เรื่อยๆ จึงเป็นที่ชื่นชอบของผู้ที่ใช้ Google ประเภทขาประจำเป็นอย่างมาก
แต่ หากว่าคุณต้องการ ซินแท็กซ์ที่มีแบบแผนมากกว่าซินแท็กซ์เพียงหนึ่งบรรทัด และเห็นตัวอย่างชัดเจนกว่านี้ โปรดดูที่หัวข้อ “การสืบค้นขั้นสูง” ในส่วนถัดไป

การสืบค้นขั้นสูง (Advanced Search)

การ สืบค้นขั้นสูง (advanced search) จะช่วยให้เราค้นหาสิ่งที่ต้องการได้อย่างมีประสิทธิภาพมากกว่าการสืบค้นปกติ (basic search) ด้วยการระบุสิ่งที่ต้องการเช่น วันที่ ภาษา หรือ Filter ที่ต้องการลงในแบบฟอร์ม เป็นต้น

แม้ ว่าในการสืบค้นแบบธรรมดาซึ่งเป็นรูปแบบการสืบค้นทั่วไปนั้น คุณจะสามารถใช้ลูกเล่นของซินแท็กซ์พิเศษได้บ้าง ทว่าก็ยังไม่มากมายนัก ในหน้าการสืบค้นขั้นสูง (http://www.google.com/advanced_search?hl=en) คุณจะระบุความต้องการได้มากขึ้นเช่น วันที่และ Filter ที่ต้องการ โดยกรอกลงใน Text Box ที่กำหนดมาให้ วิธีนี้ช่วยให้คุณไม่ต้องพะวงกับการจดจำซินแท็กซ์ต่างๆมากจนเกินไปนัก
ตัว เลือกหรือออปชันต่างๆต่อไปนี้ ส่วนใหญ่จะอธิบายตัวมันเองอยู่แล้ว แต่เราจะมาดูกันในส่วนที่ทำได้ไม่ง่ายนัก กรณีที่ใช้แต่เพียงซินแท็กซ์พิเศษอย่างเดียว

การระบุคำสั่ง (Query Input)

ด้วย เหตุที่ Google ใช้ AND เป็นโอเปอเรเตอร์เริ่มต้น (default operator) ในการสืบค้น ในบางครั้งจึงเป็นการยากที่จะแยกแยะผลลัพธ์ออกมาให้ใกล้เคียงสิ่งที่คุณต้อง การ การกรอกคำสั่งลงใน Text Box จะช่วยให้คุณสามารถระบุคำ วลี หรือกลุ่มคำที่ต้องการให้ Google แสดงผลอย่างใดอย่างหนึ่งได้ รวมไปถึงคำที่คุณไม่ต้องการให้แสดงผลออกมาในรายการผลลัพธ์ด้วย

ภาษา (Language)

คุณสามารถที่จะเลือกภาษาที่ต้องการให้แสดงผลลัพธ์ได้จากเมนูตัวเลือก (option)

Filter

การ สืบค้นขั้นสูงของ Google จะกรองผลลัพธ์ด้วยการใช้ Safesearch ซึ่งเป็น Filter ที่จะกรองเฉพาะเนื้อหาที่เกี่ยวกับเรื่องทางเพศ หรือเว็บไซต์ที่มีเนื้อหาที่ไม่เหมาะสมในลักษณะสื่อไปในเชิงทางเพศเท่านั้น (ซึ่งจะแตกต่างจาก Filter ของบางระบบที่ทำการกรองภาพลามกอนาจาร บทความที่น่ารังเกียจ ข้อมูลที่เกี่ยวกับการพนันขันต่อ หรืออื่นๆอันเป็นสิ่งไม่เหมาะสมนอกจากนี้ได้ด้วย) อย่างไรก็ตามพึงระลึกไว้ว่าระบบการกรองนั้นไม่สามารถที่จะกลั่นกรองได้หมด ทั้งร้อยเปอร์เซ็นต์เลยซะทีเดียว

ชนิดของไฟล์ (File Format)

ตัว เลือกสำหรับชนิดของไฟล์ใน Google จะยอมให้คุณเลือกชนิดของไฟล์ของไมโครซอฟต์ทั้งที่ต้องการและไม่ต้องการให้ แสดงในรายการผลลัพธ์ เช่น ไฟล์ของไมโครซอฟต์เวิร์ดหรือเอ็กเซล รวมไปถึงไฟล์ของโปรแกรม Adobe (ส่วนใหญ่จะเป็นไฟล์ PDF) และไฟล์ที่มีรูปแบบเป็น Rich-Text Format และนี่คือส่วนที่เป็นข้อจำกัดของการสืบค้นขั้นสูง นอกจากนี้ยังมีไฟล์ชนิดอื่นๆที่ Google จะช่วยสืบค้นให้คุณได้ แต่จะเป็นตัวเลือกย่อยเท่านั้น

วันที่ (Date)

ใน ส่วนของวันที่คุณสามารถที่จะระบุการสืบค้นช่วงของข้อมูลที่ได้รับการปรับ ปรุงภายในระยะเวลาสามเดือน หกเดือน หรือหนึ่งปี การสืบค้นด้วยช่วงเวลาภายใต้การสืบค้นขั้นสูงนี้จะมีข้อจำกัดมากกว่าการใช้ ซินแท็กซ์ daterange: ข้างต้น (ดู Hack #11) ซึ่งจะสามารถให้ข้อมูลในช่วงที่แคบที่สุดคือหนึ่งวันได้ แต่ในการสืบค้นขั้นสูงนี้คุณจะต้องเลือกใช้ตัวเลือกที่มีอยู่เท่านั้น เพราะ Google ไม่สนับสนุนการใช้ daterange: กับการสืบค้นประเภทนี้

ส่วน ที่เหลือของหน้าสืบค้นขั้นสูง (advanced search page) จะเป็นแบบฟอร์มการกรอกข้อมูลเพื่อระบุคุณสมบัติอื่นๆของ Google เช่น การสืบค้นเกี่ยวกับข่าว (news search) หรือสืบค้น Web Page ที่เฉพาะเจาะจงไปด้านใดด้านหนึ่ง (page-specific search) รวมถึงการสืบค้น Web Link ต่างๆที่นำคุณตรงไปยัง Web Page ที่เป็นเรื่องเฉพาะทาง (topic-specific search) อื่นๆ ซึ่งการสืบค้นเกี่ยวกับข่าวและการสืบค้นเรื่องเฉพาะทางนั้นจะทำงานแยกกันกับ การสืบค้นขั้นสูงจากแบบฟอร์มที่เรากรอกเอาไว้

หน้า สืบค้นขั้นสูง (advance search page) จะเป็นประโยชน์สำหรับในกรณีที่คุณต้องการใช้คุณสมบัติที่พิเศษนี้หรือเมื่อ คุณต้องสืบค้นด้วยคำสั่งที่ซับซ้อนมากขึ้น การระบุด้วยการกรอกแบบสอบถามแบบนี้จะเป็นประโยชน์ทั้งสำหรับผู้ที่เพิ่งจะ เรียนรู้การใช้งานใหม่ๆหรือผู้ที่ต้องการใช้งานในขั้นสูงโดยได้รับผลลัพธ์ ที่แม่นยำถูกต้อง เนื่องจากความยากของการใช้งานซินแท็กซ์พิเศษชนิดต่างๆอาจสร้างความผิดพลาด ได้ง่าย ตัวอย่างเป็นต้นว่า ในการใช้ OR นั้น มันเป็นไปไม่ได้เลย ที่คุณจะใช้คำสั่ง site:edu OR site:org เป็นต้น

นอก จากที่กล่าวมาทั้งหมดแล้วนี้ คุณยังมีวิธีการที่จะช่วยให้ได้ผลลัพธ์การสืบค้นจาก Google ดีขึ้น โดยไม่เกี่ยวกับคุณสมบัติการสืบค้นแบบพื้นฐานหรือในขั้นสูงอีกอย่างหนึ่ง นั่นก็คือการใช้ Preference Page หรือคุณสมบัติการปรับแต่งตัวเลือกเพิ่มเติม

ค้นหาบล็อกนี้

Whiteboard

บทที่ 1 เจาะ Google ให้รู้แจ้ง (Hack #1 - 28)

โพสต์ยอดนิยมจากบล็อกนี้

I miss you all กับ I miss all of you ต่างกันอย่างไร

ปัญหาและเฉลยวิชาธรรม นักธรรมชั้นตรี สอบในสนามหลวง วันอังคาร ที่ ๒๙ กันยายน พ.ศ.๒๕๕๒

ปัญหาและเฉลยวิชาอนุพุทธประวัติ นักธรรมชั้นโท สอบในสนามหลวง วันอาทิตย์ ที่ ๒๐ พฤศจิกายน พ.ศ. ๒๕๔๘