आप या तो IP पते या 'उपयोगकर्ता-एजेंट' स्ट्रिंग बॉट या वेब ब्राउज़र आपको भेजे द्वारा जा सकते हैं।
जब Googlebot (या अन्य सभी अच्छी तरह से व्यवहार करने वाले रोबोट) आपकी वेबसाइट पर जाते हैं, तो वे आपको $ _SERVER ['HTTP_USER_AGENT'] वेरिएबल भेज देंगे जो पहचानता है कि वे क्या हैं। कुछ उदाहरण हैं:
Googlebot/2,1 (+ http://www.google.com/bot.html)
NutchCVS/0.8-देव (Nutch; http://lucene.apache.org/nutch/bot.html
Baiduspider + (+ http://www.baidu.com/search/spider_jp.html)
Mozilla/5.0 (X11, यू, लिनक्स i686; en-US) AppleWebKit/531.4 (KHTML, छिपकली की तरह)
आप इन वेबसाइटों पर कई और अधिक उदाहरण मिल सकते हैं: link text link text
फिर आप उन उपयोगकर्ता के एजेंट स्ट्रिंग की जांच करने और निर्धारित करता है, तो उपयोगकर्ता एक खोज इंजन है या नहीं करने के लिए PHP इस्तेमाल कर सकते हैं। मैं इस बार की तरह कुछ का उपयोग करें:
$searchengines = array(
'Googlebot',
'Slurp',
'search.msn.com',
'nutch',
'simpy',
'bot',
'ASPSeek',
'crawler',
'msnbot',
'Libwww-perl',
'FAST',
'Baidu',
);
$is_se = false;
foreach ($searchengines as $searchengine){
if (!empty($_SERVER['HTTP_USER_AGENT']) and
false !== strpos(strtolower($_SERVER['HTTP_USER_AGENT']), strtolower($searchengine)))
{
$is_se = true;
break;
}
}
if ($is_se) { print('Its a search engine!'); }
याद रखें कि कोई पहचान पद्धति (गूगल एनालिटिक्स या किसी अन्य आंकड़े पैकेज या अन्यथा) 100% सही होने जा रहा है। कुछ वेब ब्राउज़र आपको कस्टम उपयोगकर्ता-एजेंट स्ट्रिंग सेट करने की अनुमति देते हैं, और कुछ गलत व्यवहार करने वाले वेब क्रॉलर उपयोगकर्ता-एजेंट स्ट्रिंग को बिल्कुल भी नहीं भेज सकते हैं। हालांकि यह विधि शायद 95% + क्रॉलर/आगंतुकों के लिए प्रभावी हो सकती है।
मुझे लगता है कि यह देख रहा था .... – coderex