2010-10-04 15 views
5

मेरे पास एक सी # एप्लिकेशन है जो एक HTML फ़ाइल प्राप्त करता है। मैं इसे पार्स करना और मान्य करना चाहता हूं। आउटपुट पर यह त्रुटियों की एक सूची लौटाएगा या मेरा एचटीएमएल मान्य है।मैं सी # के साथ एक HTML फ़ाइल कैसे मान्य करूं?

क्या किसी को भी कोई विचार है कि मैं यह कैसे कर सकता हूं? (!):

+0

संभावित डुप्लिकेट [सी # में एचटीएमएल पार्स करने का सबसे अच्छा तरीका क्या है?] (Http://stackoverflow.com/questions/56107/what-is-the-best-way -to-parse-html-in-c) –

+2

इस प्रश्न का सत्यापन भाग इसे HTML को पार्स करने के बारे में प्रश्नों से काफी अलग बनाता है। – Quentin

+0

यह सही है, मुझे HTML को पार्स करने में कोई दिलचस्पी नहीं है, मुझे संभावित त्रुटियों के लिए इसे सत्यापित करने में रूचि है। –

उत्तर

10

मैं W3C Markup Validation service की एक स्थानीय उदाहरण चलाने के लिए और API

+2

मुझे पता नहीं था कि इसके लिए एक एपीआई था, अच्छा लगता है। – Dave

1

यह आपके प्रश्न के लिए प्रासंगिक है

Looking for C# HTML parser

+0

वास्तव में नहीं। वह ऐसी चीज की तलाश में है जो त्रुटियों से ठीक हो सके, उनके लिए परीक्षण न करें। – Quentin

+0

हां यह है, त्रुटियों को सूचीबद्ध विकल्पों में से कई से पुनर्प्राप्त किया जा सकता है। – Dave

+2

उनके बारे में थोड़ा और विवरण अच्छा होगा, मुझे नहीं लगता कि उत्तर के माध्यम से शिकार उस जानकारी को प्रकट करता है, इसलिए लोगों को बदले में उनमें से प्रत्येक के लिए प्रलेखन की जांच करनी होगी। – Quentin

1

ढांचा संस्करण 1.0 Microsoft.mshtml.dll में एक अस्पष्ट DLL नहीं है और उस ढांचे में एक ही रास्ता है डीओएम से निपटने के लिए। यदि एचटीएमएल एक्सएचटीएमएल और वैध एक्सएमएल है, तो आप एक्सएमएल का उपयोग कर सकते हैं लेकिन अन्यथा यह एकमात्र मौका है।

+0

मुझे आश्चर्य होगा कि यह डीओएम से निपटने के लिए * केवल * तरीका था। – Quentin

+0

ढांचे में श्री ऋणात्मक ... – Aliostad

+0

हमम, मुझे बताएं कि आप एक्सएमएल के साथ एक बहुत विस्तृत HTML फ़ाइल को कैसे सत्यापित कर सकते हैं। मैंने इसके बारे में भी सोचा, और मुझे लगता है कि यह सबसे अच्छा तरीका नहीं है। –

3

आप HTML साफ उपयोग कर सकते हैं के माध्यम से इसे के साथ संवाद चाहते हैं। .NET के लिए एक रैपर है जिसे TidyManaged

+1

TidyManaged कोई कार्यात्मक डीएल –

+1

नहीं देता है क्या आपने यहां कोशिश की है? http://github.com/markbeaton/TidyManaged/downloads – gcores

+0

मेरे पास tidy.net के बारे में एक ब्लॉग पोस्ट है और tidymanaged http://www.jphellemons.nl/post/Tidy-your-HTML-with-AspNet-TidyManaged-vs- Tidynet.aspx –

संबंधित मुद्दे