2008-11-07 12 views
6

यदि मेरे पास बड़ी संख्या में थ्रेड के साथ फ़ोरम साइट है, तो खोज इंजन बॉट हर बार पूरी साइट को क्रॉल करेगा? मान लीजिए कि मेरी साइट में 1,000,000 से अधिक धागे हैं, क्या वे हर बार जब मेरी साइट क्रॉल क्रॉल करते हैं तो वे क्रॉल हो जाएंगे? या यह कैसे काम करता है? मैं चाहता हूं कि मेरी वेबसाइट को अनुक्रमित किया जाए लेकिन मैं नहीं चाहता कि बॉट मेरी वेबसाइट को मार डाले! दूसरे शब्दों में, मैं नहीं चाहता कि बॉट बार-बार पुराने धागे को क्रॉल करना जारी रखे, हर बार जब यह मेरी वेबसाइट को क्रॉल करता है।खोज इंजन बॉट फ़ोरम कैसे क्रॉल करते हैं?

इसके अलावा, पृष्ठों के बारे में क्या पहले क्रॉल किया गया था? क्या बॉट उन्हें हर बार यह अनुरोध करने के लिए अनुरोध करेगा कि वे अभी भी साइट पर हैं? मैं यह पूछ रहा हूं क्योंकि मैं केवल नवीनतम धागे से लिंक करता हूं, यानी एक ऐसा पृष्ठ है जिसमें सभी नवीनतम धागे की एक सूची है, लेकिन मैं पुराने धागे से लिंक नहीं करता हूं, उन्हें स्पष्ट रूप से यूआरएल द्वारा अनुरोध किया जाना चाहिए, उदा। http: // example.com/showthread.aspx?threadid=7, क्या यह मेरी साइट को नीचे लाने और मेरी सभी बैंडविड्थ लेने से बॉट को रोकने के लिए काम करेगा?

पीएस साइट अभी भी विकास में है लेकिन मैं साइट को डिजाइन करने के लिए जानना चाहता हूं ताकि खोज इंजन के बॉट इसे नीचे नहीं लाए।

उत्तर

8

जटिल सामग्री।

मेरे अनुभव से, यह पृष्ठ पर लिंक करने के लिए आप किस यूआरएल योजना का उपयोग करते हैं, इस पर निर्भर करता है कि यह निर्धारित करेगा कि क्रॉलर कौन से पृष्ठों को क्रॉल करेगा या नहीं।

  • अधिकांश इंजन क्रॉल संपूर्ण वेबसाइट, अगर यह होता है सब ठीक से एक क्रॉल के अनुकूल यूआरएल उदा हाइपरलिंक topicID = 123 क्वेरीस्ट्रिंग्स के बजाय यूआरएल रीराइटिंग का उपयोग करें और सभी पेज मुख्य पृष्ठ से कुछ क्लिक आसानी से लिंक करने योग्य हैं।

  • एक और मामला पेजिंग है, यदि आपके पास कभी-कभी बॉट क्रॉल केवल पहला पृष्ठ होता है और जब यह पाता है कि अगला पृष्ठ लिंक उसी दस्तावेज़ को मारता रहता है उदा। पूरी वेबसाइट के लिए एक index.php।

  • आप कुछ बॉट को आकस्मिक रूप से हिट करने के लिए एक बॉट नहीं चाहते हैं जो कुछ क्रियाएं करता है उदा। एक "विषय हटाएं" लिंक जो "delete.php? topicID = 123" से लिंक है, इसलिए अधिकांश क्रॉलर उन मामलों की भी जांच करेंगे।

  • Tools page at SEOmoz कुछ क्रॉलर काम करने के तरीके के बारे में बहुत सारी जानकारी और अंतर्दृष्टि प्रदान करते हैं और यह किस जानकारी को निकालेगा और चबाएगा आदि। आप अपने मंच के अंदर गहरे पृष्ठों को गीला करने के लिए उन लोगों का उपयोग कर सकते हैं। एक साल पुरानी पोस्ट क्रॉल हो सकती है या नहीं।

  • और कुछ क्रॉलर आपको अपने क्रॉलिंग व्यवहार को अनुकूलित करने में सक्षम बनाता है ... Google Sitemaps जैसे कुछ। आप उन्हें बता सकते हैं कि कौन से पेज और किस क्रम पर आदि क्रॉल करें और क्रॉल करें। मुझे याद है कि ऐसी सेवाएं एमएसएन और याहू से भी उपलब्ध हैं, लेकिन मैंने इसे कभी भी कोशिश नहीं की है।

  • आप क्रॉलिंग बॉट को थ्रॉटल कर सकते हैं, इसलिए यह वेबसाइट रूट में robots.txt फ़ाइल प्रदान करके आपकी वेबसाइट को जबरदस्त नहीं करता है।

मूल रूप से, अगर आप अपने मंच डिजाइन ताकि URL क्रॉलर्स के लिए शत्रुतापूर्ण नहीं लगती है, यह ख़ुशी से पूरे वेबसाइट क्रॉल करता हूँ।

0

चक्राइट ने कहा कि कुछ खोज इंजन (विशेष रूप से Google) केवल उन पृष्ठों को सूचीबद्ध करेगा जिनमें केवल एक या दो पैरामीटर हैं।उसके बाद पृष्ठ को आम तौर पर अनदेखा किया जाता है क्योंकि इसे बहुत गतिशील और इसलिए अविश्वसनीय यूआरएल माना जाता है।

एसईओ दोस्ताना यूआरएल बनाने के लिए सबसे अच्छा है जो पैरामीटर से रहित हैं लेकिन इसके बजाय अपाचे में mod_rewrite या रेलवे में routes जैसे कार्यान्वयन को छुपाएं। (उदाहरण के लिए http://domain.com/forum/post/123 मानचित्र http://domain.com/forum/post.php?id=123)।

चक्रित में भी Google Sitemaps का उल्लेख है। यह सुनिश्चित करने में उपयोगी है कि Google प्रत्येक पोस्टिंग स्कैन करता है और इसे स्थायी रूप से अपनी अनुक्रमणिका में रखता है। जेफ एटवुड Stackoverflow podcast24 पर इस पर चर्चा करता है जिसमें वह बताता है कि Google सभी स्टैक ओवरफ्लो पोस्ट नहीं रख रहा था जब तक कि वे प्रत्येक साइटमैप के अंदर नहीं डालते।

0

क्रॉलिंग बॉट आपकी साइट को एक बार में क्रॉल नहीं करते हैं लेकिन प्रत्येक विज़िट के साथ कुछ पृष्ठ। प्रत्येक साइट के साथ क्रॉल और पृष्ठों की संख्या प्रत्येक बार क्रॉल की आवृत्ति बहुत भिन्न होती है।

Google द्वारा अनुक्रमित प्रत्येक पृष्ठ को कुछ समय में फिर से क्रॉल किया जाता है ताकि यह सुनिश्चित किया जा सके कि कोई बदलाव नहीं है।

साइटमैप का उपयोग करना निश्चित रूप से यह सुनिश्चित करने में सहायक होता है कि सर्च इंजन इंडेक्स जितना संभव हो सके उतने पेज।

संबंधित मुद्दे