2010-09-27 10 views
6

मुझे सी # का उपयोग कर एक HTML फ़ाइल से टेक्स्ट निकालने की आवश्यकता है। मैं HTMLAgilityPack का उपयोग करने की कोशिश कर रहा हूं लेकिन मुझे कुछ पार्स त्रुटियां दिखाई दे रही हैं (टैग बंद नहीं हैं)। मैं इन दो विकल्पों का उपयोग कर रहा:सी # HTMLAgilityPack HTML से टेक्स्ट - पार्स त्रुटियां

 htmlDoc.OptionFixNestedTags = true; 
     htmlDoc.OptionAutoCloseOnEnd = true; 

वहाँ किसी भी प्रकार के विकल्प "सब ठीक करें" है। मुझे त्रुटियों की परवाह नहीं है, मैं सिर्फ सामग्री या बंद करना चाहता हूं।

उत्तर

4

हो सकता है कि इस समाधान है, लेकिन मैं regex इस्तेमाल किया एक बार मैं HTML से पाठ निकाल पड़ा:

result = Regex.Replace(result, @"<(.|\n)*?>", String.Empty); 
result = Regex.Replace(result, @"^\n*", String.Empty, RegexOptions.Singleline | RegexOptions.IgnoreCase); 
result = Regex.Replace(result, @"\n*$", String.Empty, RegexOptions.Singleline | RegexOptions.IgnoreCase); 
result = result.Replace("\n", " "); 
+2

धन्यवाद! मैं एक और अधिक HTMLAgilityPack समाधान की तलाश में था ... – tvr

संबंधित मुद्दे