मुझे किसी एप्लिकेशन में डेटा आयात करने के लिए वेब पृष्ठों की एक श्रृंखला का विश्लेषण करना होगा। प्रत्येक प्रकार का वेब पेज एक ही प्रकार का डेटा प्रदान करता है। समस्या यह है कि प्रत्येक पृष्ठ का HTML अलग है, इसलिए डेटा का स्थान बदलता रहता है। एक और समस्या यह है कि एचटीएमएल कोड खराब रूप से स्वरूपित है, जिससे एक्सएमएल-जैसे पार्सर का उपयोग करना असंभव हो जाता है।आप खराब रूप से स्वरूपित HTML फ़ाइल को कैसे पार्स करते हैं?
अब तक, सबसे अच्छी रणनीति मैं के बारे में सोच सकते हैं, पेज के प्रत्येक प्रकार के लिए एक टेम्पलेट परिभाषित करने के लिए है, जैसे:
खाका एक:
<html>
...
<tr><td>Table column that is missing a td
<td> Another table column</td></tr>
<tr><td>$data_item_1$</td>
...
</html>
खाका बी:
<html>
...
<ul><li>Yet another poorly formatted page <li>$data_item_1$</td></tr>
...
</html>
इस तरह मुझे केवल सभी पृष्ठों के लिए एक सिंगल पार्सर की आवश्यकता होगी, जो प्रत्येक पृष्ठ की तुलना अपने टेम्पलेट के साथ करेगा और $data_item_1$
, $data_item_2$
आदि पुनर्प्राप्त करेगा। फिर भी, यह है बहुत काम होने जा रहा है। क्या आप किसी भी सरल समाधान के बारे में सोच सकते हैं? कोई पुस्तकालय जो मदद कर सकता है?
धन्यवाद
मैं पूरी तरह से सहमत हूं। पहले इसे टिडी के माध्यम से पास करें। –
कुछ साफ-सुथरे रैपर यहां उपलब्ध हैं: http://users.rcn.com/creitzel/tidy.html –