के साथ एक वेबपृष्ठ स्क्रैप करना मैंने पढ़ा है कि HTMLAgility 1.4 वेबपृष्ठ को स्क्रैप करने का एक अच्छा समाधान है। एक नया प्रोग्रामर होने के नाते मुझे आशा है कि मुझे इस परियोजना पर कुछ इनपुट मिल सकता है। मैं इसे एक सी # आवेदन पत्र के रूप में कर रहा हूं। जिस पृष्ठ के साथ मैं काम कर रहा हूं वह काफी सीधे है। मुझे जो जानकारी चाहिए वह केवल 2 टैग और के बीच फंस गई है। मेरा लक्ष्य भाग-संख्या, मनु-संख्या, विवरण, मनु-देश, अंतिम संशोधित, अंतिम संशोधित पृष्ठ के बाहर डेटा को खींचना है और डेटा को एक एसक्यूएल तालिका में भेजना है। एक मोड़ यह है कि एक छोटी पीएनजी तस्वीर भी है जिसे src = "/ partcode/number से पकड़ने की आवश्यकता है।सी # और HTMLAgility
मेरे पास कोई पूरा कोड नहीं है जो मुझे लगता है। मैंने सोचा कि यह कोड मुझे बताएगा अगर मैं सही दिशा में जा रहा हूं। यहां तक कि डीबग में कदम उठाने से मैं नहीं देख सकता कि यह कुछ भी करता है। क्या कोई संभवतः मुझे इस पर सही दिशा में इंगित कर सकता है। यह स्पष्ट है क्योंकि यह स्पष्ट है क्योंकि मेरे पास बहुत कुछ है जानने के लिए धन्यवाद मैं वास्तव में यह जानना चाहेंगे
using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using HtmlAgilityPack;
using System.Xml;
namespace Stats
{
class PartParser
{
static void Main(string[] args)
{
HtmlDocument doc = new HtmlDocument();
doc.LoadHtml("http://localhost");//my understanding this reads the entire page in?
var tables = doc.DocumentNode.SelectNodes("//table");// I assume that this sets up the search for words containing table
}
catch (Exception ex)
{
Console.WriteLine(ex.Message);
Console.WriteLine(ex.StackTrace);
Console.ReadKey();
}
}
}
}
वेब कोड है:।।
<!DOCTYPE html
PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="en" lang="en">
<head>
<meta http-equiv="Content-Type" content="text/html;charset=UTF-8" />
<title>Part Number Database: Item Record</title>
<table class="data">
<tr><td>Part-Num</td><td width="50"></td><td><img src="/partcode/number/072140" alt="072140"/></td></tr>
<tr><td>Manu-Number</td><td width="50"></td><td><img src="/partcode/manu/00721408" alt="00721408" /></td></tr>
<tr><td>Description</td><td></td><td>Widget 3.5</td></tr>
<tr><td>Manu-Country</td><td></td><td>United States</td></tr>
<tr><td>Last Modified</td><td></td><td>26 Jan 2009, 8:08 PM</td></tr>
<tr><td>Last Modified By</td><td></td><td>Manu</td></tr>
</table>
<p>
</body>
</html>
यदि आप प्रदान किए गए HTML कोड का उपयोग कर एक कार्य कोड चाहते हैं तो मेरा उत्तर देखें। –