यहां एक त्वरित पर्ल सवाल है:मैं HTML इकाइयों को कैसे डीकोड कर सकता हूं?
मैं कैसे सामान्य ASCII पाठ करने के लिए ü
या '
तरह HTML विशेष वर्ण में बदल सकते हैं?
मैं कुछ इस तरह के साथ शुरू किया:
s/\&#(\d+);/chr($1)/eg;
और सभी HTML पात्रों के लिए यह लिख सकता है, लेकिन इस तरह की कुछ समारोह शायद पहले से ही मौजूद है?
ध्यान दें कि मैं एक पूर्ण html-> पाठ कनवर्टर की जरूरत नहीं है। मैं पहले से ही HTML::Parser
के साथ HTML पार्स। मुझे टेक्स्ट को विशेष वर्णों के साथ बदलने की जरूरत है।
उन लोगों के लिए जो सीएलआई एक लाइनर पसंद करते हैं: 'perl -MHTML :: Entities -le' print decode_entities ("& iquest; '") –