आप एक HTML पृष्ठ को मुफ्त टेक्स्ट, सूचियों, तालिकाओं, शीर्षलेख इत्यादि के साथ वाक्यों में कैसे पार्स करते हैं?एचटीएमएल को वाक्यों में पार्स करना - तालिकाओं/सूचियों/शीर्षलेखों/आदि को कैसे संभालना है?
उदाहरण के लिए this wikipedia page लें। है वहाँ/कर रहे हैं:
- मुक्त पाठ: http://en.wikipedia.org/wiki/Neurotransmitter#Discovery
- सूचियां: http://en.wikipedia.org/wiki/Neurotransmitter#Actions
- टेबल: http://en.wikipedia.org/wiki/Neurotransmitter#Common_neurotransmitters
अजगर NLTK साथ चारों ओर खिलवाड़ के बाद, मैं इन विभिन्न के सभी बाहर का परीक्षण करना चाहते कॉर्पस एनोटेशन विधियां (http://nltk.googlecode.com/svn/trunk/doc/book/ch11.html#deciding-which-layers-of-annotation-to-include से):
- शब्द टोकनकरण: टेक्स्ट का ऑर्थोग्राफिक रूप अनजाने में अपने टोकन की पहचान नहीं करता है। परंपरागत ऑर्थोग्राफिक संस्करण के अलावा, एक टोकनयुक्त और सामान्यीकृत संस्करण, एक बहुत ही सुविधाजनक संसाधन हो सकता है।
- वाक्य सेगमेंटेशन: जैसा कि हमने अध्याय 3 में देखा था, वाक्य विभाजन ऐसा लगता है उससे कहीं अधिक कठिन हो सकता है। कुछ निगम इसलिए वाक्य विभाजन को चिह्नित करने के लिए स्पष्ट एनोटेशन का उपयोग करते हैं।
- पैराग्राफ सेगमेंटेशन: पैराग्राफ और अन्य संरचनात्मक तत्व (शीर्षक, अध्याय इत्यादि) स्पष्ट रूप से एनोटेटेड हो सकते हैं।
- भाषण का हिस्सा: दस्तावेज़ में प्रत्येक शब्द की वाक्य रचनात्मक श्रेणी।
- सिंटेक्टिक संरचना: एक पेड़ संरचना एक वाक्य की घटक संरचना दिखाती है।
- शैलो सेमेटिक्स: नामित इकाई और कोरिफरेंस एनोटेशन, अर्थात् भूमिका लेबल।
- वार्ता और प्रवचन: बातचीत अधिनियम टैग, बयानबाजी संरचना
एक बार जब आप वाक्य में एक दस्तावेज़ को तोड़ने यह बिल्कुल स्पष्ट लगता है। लेकिन आप उस विकिपीडिया पेज से HTML की तरह कुछ तोड़ने के बारे में कैसे जाते हैं? मैं एचटीएमएल/एक्सएमएल पार्सर्स का उपयोग करने और पेड़ को घुमाने के लिए बहुत परिचित हूं, और मैंने सादा पाठ प्राप्त करने के लिए केवल HTML टैग को अलग करने की कोशिश की है, लेकिन HTML हटा दिए जाने के बाद विराम चिह्न गायब है, एनएलटीके तालिका कोशिकाओं जैसी चीजों का विश्लेषण नहीं करता है, या यहां तक कि सूचियां भी सही ढंग से।
क्या एनएलपी के साथ उस सामान को पार्स करने के लिए कुछ सर्वोत्तम अभ्यास या रणनीति है? या क्या आपको उस व्यक्तिगत पृष्ठ पर विशिष्ट रूप से एक पार्सर लिखना है?
बस सही दिशा में कुछ पॉइंटर्स की तलाश में, वास्तव में इस एनएलटीके को आजमाएं!
क्या आपने पंकेट (इसे एनएलटीके में कार्यान्वित किया है) का उपयोग करके छीनने वाले पाठ पर यह देखने के लिए प्रयास किया है कि यह आपको कहीं भी ले जाता है या नहीं? – dmh
मेरा अनौपचारिक अवलोकन यह है कि पार्सर्स आमतौर पर प्रदर्शन टेक्स्ट (प्रदर्शन करने वाले गद्य के विरोध में) को संभालने और प्रतिनिधित्व करने में खराब होते हैं। यदि आप एक अच्छा समाधान ढूंढते हैं या तैयार करते हैं, तो कृपया यहां फ़ॉलो करें! – tripleee