शामिल एचटीएमएल का विश्लेषण कैसे करें जावास्क्रिप्ट का भारी उपयोग करने वाले एचटीएमएल दस्तावेज़ों का विश्लेषण कैसे करता है? मुझे पता है कि अजगर में कुछ पुस्तकालय हैं जो स्थैतिक एक्सएमएल/एचटीएमएल फाइलों को पार्स कर सकते हैं और मैं मूल रूप से प्रोग्राम या लाइब्रेरी (या यहां तक कि फ़ायरफ़ॉक्स प्लगइन) की तलाश कर रहा हूं जो एचटीएमएल + जावास्क्रिप्ट पढ़ता है, जावास्क्रिप्ट बिट निष्पादित करता है और जावास्क्रिप्ट के बिना एचटीएमएल कोड आउटपुट करता है तो ब्राउज़र में प्रदर्शित होने पर यह समान दिखता है।जावास्क्रिप्ट कोड
एक सरल उदाहरण
<a href="javascript:web_link(34, true);">link</a>
के रूप में उचित मान जावास्क्रिप्ट समारोह रिटर्न, उदा प्रतिस्थापित किया जाना चाहिए
<a href="http://www.example.com">link</a>
एक और जटिल उदाहरण एक सहेजा गया फेसबुक HTML पृष्ठ होगा जो जावास्क्रिप्ट कोड के भार से भरा हुआ है।
शायद How to "execute" HTML+Javascript page with Node.js से संबंधित है, लेकिन क्या मुझे वास्तव में Node.js और JSDOM की आवश्यकता है? इसके अलावा थोड़ा सा संबंधित Python library for rendering HTML and javascript है लेकिन मुझे केवल शुद्ध HTML आउटपुट प्रस्तुत करने में रूचि नहीं है।
या तो एक जावास्क्रिप्ट क्रम मिलता है और इसके साथ कुछ सुलझा, या कोड का विश्लेषण करें और यह बताएं कि यह क्या खत्म हो रहा है (दृढ़ता से प्रति-साइट कॉन्फ़िगरेशन)। –
http://stackoverflow.com/questions/19465510/how-to-parse-a-webpage-that-includes-javascript?rq=1 – gliptak