का उपयोग कर एचटीएमएल दस्तावेज़ से स्ट्रिप टेक्स्ट रूबी, हैप्रिकॉट और नोकोगिरी का उपयोग करके दस्तावेज़ से एचटीएमएल टैग को कैसे छीनने के कई उदाहरण हैं आंतरिक_text विधियों में जो आपके लिए आसानी से और जल्दी से सभी HTML हटाते हैं।रूबी
जो मैं करने की कोशिश कर रहा हूं वह विपरीत है, HTML दस्तावेज़ से सभी पाठ हटा दें, केवल टैग और उनके गुणों को छोड़ दें।
मैंने दस्तावेज़ को आंतरिक_एचटीएमएल को शून्य में डालने पर विचार किया लेकिन फिर वास्तव में आपको इसे विपरीत में करना होगा क्योंकि पहले तत्व (रूट) में पूरे दस्तावेज़ के आंतरिक_एचटीएमएल हैं, तो आदर्श रूप में मेरे पास अंदरूनी अधिकांश तत्वों को शुरू करने के लिए और पूर्वजों के माध्यम से आगे बढ़ते समय भीतरी_एचटीएमएल को शून्य पर सेट करें।
क्या कोई इसे कुशलता से करने के लिए एक साफ छोटी सी चाल जानता है? मैं सोच रहा था कि शायद रेगेक्स की यह हो सकती है लेकिन शायद एचटीएमएल टोकननाइज़र/पार्सर के रूप में कुशलता से नहीं।
क्या आपको खराब मार्कअप से निपटना होगा? (अनपेक्षित संस्थाएं, आदि) – Neall
यह संभव है - मैं जिस मार्कअप को संसाधित कर रहा हूं वह अंतिम उपयोगकर्ताओं से आता है, इसलिए इस पर भरोसा नहीं किया जा सकता है। – davidsmalley