RDF

2010-02-25 13 views
5
करने के लिए HTML परिवर्तित

मैं एक सामान्य प्रयोजन एपीआई/वेब सेवा/उपकरण के लिए देख रहा हूँ/आदि ... कि एक RDF ग्राफ यथासंभव विशिष्ट करने के लिए किसी दिए गए HTML पृष्ठ परिवर्तित (संभवत: एक पीठ की हड्डी सत्तामीमांसा का उपयोग कर की अनुमति देता है और/या मैपर)।RDF

+1

क्या आपके पास HTML दस्तावेज़ की सामग्री पर कोई नियंत्रण है? या क्या यह कोई यादृच्छिक दस्तावेज होना चाहिए? – Scott

+0

यह कोई HTML दस्तावेज़ हो सकता है। मुझे HTML दस्तावेज़ की संरचना को आरडीएफ ग्राफ में निकालने की आवश्यकता है। यदि रूपांतरण रीढ़ की हड्डी के मानचित्र/ऑटोलॉजी का उपयोग करता है तो यह भी बेहतर होता है। – jaxvy

+0

ऐसा लगता है कि एक्सएसपीएआरक्यूएल एक ऑटोलॉजी के अनुसार लिखी गई कस्टम क्वेरी के साथ इसे प्राप्त कर सकता है ... – jaxvy

उत्तर

2

मैंने वेब पृष्ठों के दिए गए सेट से डेटा निकालने के लिए XQuery का उपयोग किया। मुझे वेब पृष्ठों के लिए कस्टम प्रश्न लिखना पड़ा। मुझे लगता है कि एचटीएमएल फाइलों के एक विशिष्ट सेट के लिए यह सबसे आसान आगे दृष्टिकोण है। हालांकि, यह सामान्य मामले के लिए स्पष्ट रूप से अच्छा नहीं है। वेब पृष्ठों के एक अलग सेट के लिए अन्य कस्टम प्रश्नों को लिखने की आवश्यकता है।

2

क्या आपने GRDDL साबित किया है?

GRDDL RDF एक्सएमएल दस्तावेजों से और विशेष XHTML पृष्ठ में डेटा प्राप्त करने के लिए एक तकनीक है।

0

मैंने HTML से डेटा को स्क्रैप करने के लिए JSoup का उपयोग किया। यह एचटीएमएल डोम से पूछताछ की jQuery शैली का उपयोग करता है, जिसमें मैं पहले से ही famirial था, तो यह मेरे लिए उपयोग करने के लिए वास्तव में सरल उपकरण था। मैं इसे काफी मजबूत भी फंड करता हूं लेकिन मुझे केवल 3 डेटा स्रोतों को स्क्रैप करने की आवश्यकता है, इसलिए मुझे अभी तक इस टूल के साथ समृद्ध अनुभव नहीं है। jsoup

संबंधित मुद्दे