मैं एक पर्ल मॉड्यूल के साथ एक HTML दस्तावेज़ पार्स कर रहा हूं: HTML::TreeBuilder और HTML::Element। जो उम्मीद की जा करने के लिए है किसी कारण जब भी कोई टैग की सामग्री सिर्फ
है, यह एक अजीब चरित्र के रूप में HTML :: तत्व द्वारा दिया जाता है के लिए मैं पहले कभी नहीं देखा:यह ए0 चरित्र मेरे एचटीएमएल :: एलिमेंट आउटपुट में क्यों दिख रहा है?
alt text http://www.freeimagehosting.net/uploads/2acca201ab.jpg
मैं कर सकते हैं ' टी चरित्र की प्रतिलिपि बनाते हैं, इसलिए Google इसे नहीं देख सकता, इसे चरित्र मानचित्र में नहीं मिला, और जब मैं नियमित अभिव्यक्ति के साथ खोज करता हूं तो आश्चर्यजनक रूप से \w
इसे पाता है। जब मैं लौटा दस्तावेज़ को एएनएसआई या यूटीएफ -8 में परिवर्तित करता हूं तो यह पूरी तरह से गायब हो जाता है। मुझे HTML :: Element दस्तावेज़ में कोई जानकारी नहीं मिली।
null
जैसे कुछ और उपयोगी के साथ मैं इस चरित्र को कैसे पहचान और प्रतिस्थापित कर सकता हूं और भविष्य में इस तरह के अजीब पात्रों से मुझे कैसे निपटना चाहिए?
छवि लिंक –