मैं एचटीएमएल डॉक्टर, से शरीर निकालने के लिए रेगेक्स का उपयोग कैसे करूं, यह ध्यान में रखते हुए कि एचटीएमएल और बॉडी टैग अपरकेस, लोअरकेस या हो सकता है?रेगेक्स निकालें एचटीएमएल बॉडी
उत्तर
इसके लिए नियमित अभिव्यक्ति का उपयोग न करें - Html Agility Pack जैसे कुछ का उपयोग करें।
यह एक चुस्त HTML पार्सर कि पढ़ने बनाता है/डोम लिखने और सादा XPATH या XSLT का समर्थन करता है (आप वास्तव में XPATH है और न ही XSLT इसका इस्तेमाल करने को समझने के लिए नहीं है, चिंता मत करो। ..)। यह एक .NET कोड लाइब्रेरी है जो आपको "वेब से बाहर" HTML फ़ाइलों को पार्स करने की अनुमति देता है। पार्सर "वास्तविक दुनिया" विकृत HTML के साथ बहुत सहिष्णु है। ऑब्जेक्ट मॉडल System.Xml का प्रस्ताव करता है, लेकिन HTML दस्तावेज़ों (या स्ट्रीम) के लिए बहुत समान है।
फिर आप XPATH के साथ body
निकाल सकते हैं।
मैं सहमत हूं। मैंने इसका इस्तेमाल किया है और कहना चाहिए कि यह तेज़, साफ और साफ है। –
यह आपको बहुत करीब मिलना चाहिए:
(?is)<body(?:\s[^>]*)>(.*?)(?:</\s*body\s*>|</\s*html\s*>|$)
कृपया विस्तार समाधान प्रदान करें। स्वच्छ और साफ समाधान के लिए – ShaileshDev
कैसे कुछ इस तरह के बारे में?
यह theBody
नाम के एक समूह में <body></body>
टैग के बीच सब कुछ (मामले RegexOptions.IgnoreCase
की वजह से असंवेदनशील) कैप्चर करता है।
RegexOptions.Singleline
हमें मल्टीलाइन HTML को एक स्ट्रिंग के रूप में संभालने की अनुमति देता है।
यदि एचटीएमएल में <body></body>
टैग नहीं हैं, तो Success
मैच की संपत्ति झूठी होगी।
string html;
// Populate the html string here
RegexOptions options = RegexOptions.IgnoreCase | RegexOptions.Singleline;
Regex regx = new Regex("<body>(?<theBody>.*)</body>", options);
Match match = regx.Match(html);
if (match.Success) {
string theBody = match.Groups["theBody"].Value;
}
- 1. एचटीएमएल बॉडी
- 2. एचटीएमएल बॉडी और बाइनरी अटैचमेंट
- 3. एचटीएमएल बॉडी सामग्री निकालने के लिए नियमित अभिव्यक्ति
- 4. रूबी रेगेक्स: उद्धरण के बीच पाठ निकालें
- 5. बॉडी तत्व
- 6. ईडब्ल्यूएस बॉडी सादा पाठ
- 7. वेबसाइटों से बॉडी टेक्स्ट निष्कर्षण उदा। केवल लेख शीर्षक और पाठ निकालें साइट पर सभी पाठ
- 8. रेगेक्स - एचटीएमएल कोड में मिलान विशेषता
- 9. "एचटीएमएल" और "बॉडी" दोनों के लिए सीएसएस गुण
- 10. क्लोजिंग बॉडी और एचटीएमएल टैग को छोड़ने के लाभ?
- 11. एचटीएमएल बॉडी तत्व में सीएसएस कैसे लागू करें?
- 12. मेलक्स मेल बॉडी में एचटीएमएल कोड कैसे शामिल करें
- 13. एचटीएमएल बॉडी में शैली और स्क्रिप्ट टैग ... क्यों नहीं?
- 14. लोड आवश्यकताएँ जेएस मॉड्यूल एचटीएमएल बॉडी इनलाइन करता है?
- 15. क्यों $ ("बॉडी") == $ ("बॉडी") झूठी वापसी करता है?
- 16. टेक्स्ट एचटीएमएल कैनवास से पथ निकालें
- 17. निकालें खाली एचटीएमएल टुकड़ा से टैग जोड़े
- 18. रेगेक्स
- 19. रेगेक्स: सी # डबल कोट्स के भीतर पाठ निकालें
- 20. बॉडी टैग
- 21. जेड टेम्पलेट में 'बॉडी! = बॉडी' का क्या अर्थ है?
- 22. निकालें/bash
- 23. कैलिब्ररी (बॉडी) फ़ॉन्ट को
- 24. ByteArrayOutputStream एक फ़ाइल बॉडी
- 25. स्केपर बॉडी टेक्स्ट केवल
- 26. document.activeelement रिटर्न बॉडी
- 27. बॉडी हाईचार्ट लाइब्रेरी
- 28. पारदर्शी इफ्रेम बॉडी
- 29. जावा रेगेक्स - स्ट्रिंग
- 30. एक रेगेक्स मैच
http://stackoverflow.com/questions/356340/regular-expression-to-extract-html-body-content का डुप्लिकेट? – M4N