मैं ध्यान से Pratik Chowdhury और Robbie Vercammen से जवाब की जांच की। वे वेब दस्तावेज़ों के लिए एक लिंक प्रदान करते हैं जो Google खोज फ़ॉर्म में उपयोग किए जाने वाले संभावित टेक्स्ट फ़िल्टरिंग की एक सूची की रिपोर्ट करते हैं। इसके बावजूद दिलचस्प है, वे सवाल का जवाब नहीं देते हैं। इसलिए, मैंने बहुत सारी समस्या का अध्ययन किया और मुझे निम्नलिखित समाधान मिला।
मान लीजिए कि आप एक ऊना tantum HTTP कॉल करने के लिए किसी विशेष स्ट्रिंग क्वेरी, उदा के लिए खोज परिणाम लाने के लिए गूगल खोज करने के लिए (उदाहरण के लिए एक PHP वर्ग क्रॉन एक बार एक महीने के माध्यम से runned द्वारा) की जरूरत है आपकी वेबसाइट में कुछ शब्द (यानी "हैलो" और "दुनिया") वाले सभी पृष्ठ (यानी mywebsite।कॉम), तो आप एक HTTP निम्न पते पर फोन करने के कर सकते हैं:
http://www.google.com/search?q=hello+world+site:mywebsite.com
q
पैरामीटर पूरे खोज क्वेरी शामिल कर सकते हैं, हालांकि गूगल मानकों का एक डमी सबूत सूची में परिभाषित किया।
ध्यान दें कि AND
ऑपरेटर को इसके बजाय as_q
पैरामीटर द्वारा दर्शाया जा सकता है।
"हैलो" और "दुनिया" (यानी और या) के बीच एक के साथ पेज परिणाम प्राप्त करने के लिए, के रूप में क्वेरी "q" पैरामीटर परिवर्तित किया जाना चाहिए:
q=hello+OR+world
जबकि एक अधिक कॉम्पैक्ट प्रतिनिधित्व as_oq
का उपयोग करता है पैरामीटर:
as_oq=hello+world
एक "हैलो दुनिया" सटीक वाक्यांश लग रहा है, q
पैरामीटर है:
q="hello+world"
जबकि, फिर से, एक और कॉम्पैक्ट प्रतिनिधित्व as_epq
पैरामीटर का उपयोग करता:
as_epq=hello+world
एक सारे परिणाम दिखाते हैं शब्द "हैलो" और "दुनिया" को शामिल नहीं करने के लिए लग रहा है, q
पैरामीटर है:
as_eq=hello+world
:
q=-hello+-world
जबकि, फिर से, एक और कॉम्पैक्ट प्रतिनिधित्व as_eq
पैरामीटर का उपयोग करता
बेशक, as_q
, as_oq
, as_epq
, as_eq
, आदि सामान्य रूप से एक अद्वितीय खोज क्वेरी में संयुक्त हो सकते हैं (यानी। &
वर्ण का उपयोग करके)। इस प्रकार, उदाहरण के लिए मैं दोनों शब्द "हैलो" और "शब्द" प्लस "प्रोग्रामिंग" के बीच एक और "कोड" के लिए खोज कर सकते हैं, जैसा कि यहाँ का पालन करें:
q=hello+world&as_oq=programming+code
एक विशिष्ट डोमेन (फिर से, mydomain लिए खोज सकते हैं .com) के रूप में अनुवर्ती:
as_sitesearch=mydomain.com
हालांकि, अगर आप एक विशिष्ट डोमेन बाहर करने के लिए (जैसे, क्योंकि यह एक स्पैम स्रोत है) चाहते हैं, आप मानक संकेत करने के लिए पुनरावृत्ति होनी ही चाहिए। उदा .:
q=hello+-site:mydomain.com
वापसी सभी शब्द के साथ पेजों "हैलो" उस साइट mydomain.com में नहीं हैं।
एक विशिष्ट फ़ाइल प्रकार के लिए प्राप्त करने के लिए, उदा। एक PDF, आप as_filetype
उपयोग कर सकते हैं:
as_filetype=pdf
अधिक जटिल खोज पैरामीटर के रूप में Google support docs में प्रदान की, इस्तेमाल किया जा सकता। उदाहरण के लिए, किसी शब्द के पर्याय के साथ परिणाम प्राप्त करने के लिए, शब्द के सामने ~
ऑपरेटर का उपयोग करें, उदा।
q=~hello
इसके अलावा, यदि आप वाइल्डकार्ड का उपयोग करना चाहते हैं, उदा।
q="hello+*+world"
जो शायद की तरह कुछ वापस आ जाएगी: "हैलो दुनिया के लिए" और "हैलो स्वीट सभी सटीक वाक्यांशों उस के साथ" हैलो "शुरू करने और" दुनिया "के साथ समाप्त करने के लिए, आप *
ऑपरेटर का उपयोग करना चाहिए विश्व"।
एक भी पृष्ठ का शीर्षक के अंदर या निम्नलिखित कीवर्ड का उपयोग करके पृष्ठ URL में विशिष्ट शब्दों को खोजना कर सकते हैं (अधिक जानकारी के लिए here पढ़ें):
- शीर्षक देना
- सभी शीर्षक
- इनयूआरएल
- allinurl
उदाहरण के लिए, निम्नलिखित सभी पृष्ठों को वापस देता है दोनों शब्द "हैलो" और "दुनिया" यूआरएल में हैं:
q=allinurl:hello+world
गूगल जीयूआई पेज (नहीं परिणामों में से एक), एक क्वेरी स्ट्रिंग में भाषा स्ट्रिंग डालना होगा की भाषा के लिए (जैसे अंग्रेजी के लिए en
, फ्रेंच के लिए fr
, इतालवी के लिए it
) hl
पैरामीटर पर।
http://www.google.com/search?hl=en&q=hello+world+site:mywebsite.com
एक विशिष्ट भाषा का चयन करने के लिए, उदाहरण के लिए: दूसरे शब्दों में, गूगल के अंग्रेजी संस्करण के साथ एक खोज, क्वेरी स्ट्रिंग के रूप में पालन हो जाता है इतालवी, lr
क्वेरी पैरामीटर का उपयोग:
lr=lang_it
एक भी cr
पैरामीटर का उपयोग करके एक विशिष्ट भौगोलिक क्षेत्र में प्रकाशित चयनित पृष्ठ कर सकते हैं। जैसे, सभी पृष्ठों इटली में प्रकाशित लगता है:
cr=countryIT
मुझे आशा है कि आप जानते हैं कि वेब फ़ॉर्म का उपयोग नहीं और scraping परिणाम पृष्ठों Googles का उल्लंघन कर रहे हैं उपयोग की शर्तें। – Filburt
@ फ़िलबर्ट धन्यवाद! तुमने मुझे यह याद किया! हालांकि, मेरा प्रश्न कुछ कैसे बनाना है, यह नहीं जानता कि यह Google शर्तों का उल्लंघन करता है या नहीं! मैं एक प्रोटोटाइप का परीक्षण कर रहा हूँ। Google पहले से ही खुद से बचाव करने में सक्षम है :) – JeanValjean