ऐसे समाधान को कोड करना बहुत कठिन होगा जो किसी भी मनमानी साइट के साथ काम करेगा। प्रत्येक नेविगेशन मेनू कार्यान्वयन काफी अद्वितीय हो सकता है। मैंने स्क्रैपर्स के साथ बहुत अच्छा काम किया है, और बशर्ते आप उस साइट को जानते हों जिसे आप लक्षित करना चाहते हैं, यहां मैं इस तरह से संपर्क करूंगा।
आमतौर पर, यदि आप एक नौसेना मेनू में उपयोग की जाने वाली विशेष जावास्क्रिप्ट का विश्लेषण करते हैं, तो Navmenu बनाने के लिए उपयोग किए जाने वाले चर के पूरे सेट को खींचने के लिए नियमित अभिव्यक्तियों का उपयोग करना काफी आसान है। मैंने सुंदर सूप का कभी भी उपयोग नहीं किया है, लेकिन आपके विवरण से ऐसा लगता है कि यह केवल HTML तत्वों पर काम कर सकता है और स्क्रिप्ट टैग के अंदर काम करने में सक्षम नहीं है।
यदि आपको अभी भी समस्याएं हैं, या कुछ फॉर्म POSTs या AJAX अनुकरण करने की आवश्यकता है, तो फ़ायरफ़ॉक्स प्राप्त करें और LiveHttpHeaders प्लगइन इंस्टॉल करें। यह प्लगइन आपको मैन्युअल रूप से साइट ब्राउज़ करने और आपके मैन्युअल ब्राउज़िंग के दौरान पारित होने वाली किसी भी कुकीज़ के साथ नेविगेट किए जाने वाले यूआरएल को कैप्चर करने की अनुमति देगा। लक्ष्य वेबसर्वर से वैध प्रतिक्रिया प्राप्त करने के अनुरोध में भेजने के लिए आपको अपने स्क्रैपरबॉट की आवश्यकता है। यह किसी भी AJAX कॉल को भी कैप्चर करेगा, और कई मामलों में वांछित प्रतिक्रिया प्राप्त करने के लिए आपके स्क्रैपर में एक ही AJAX कॉल लागू की जानी चाहिए।
सेलेनियम ठीक वही था जो मुझे चाहिए था। यह बहुत बहुमुखी है, पाइथन सहित कई भाषाओं के साथ इंटरफेस, जो मुझे सामग्री को स्टोर करने और इसे पार्स करने की अनुमति देता है, और उसके बाद सेलेनियम के कार्यों को वापस लौटाई गई सामग्री के आधार पर निर्देशित करता है। प्रतिक्रियाओं के लिए सभी को धन्यवाद! –