पर असंगठित ग्रंथसूची को परिवर्तित करना वर्तमान में एक प्राकृतिक भाषा प्रसंस्करण प्रोजेक्ट पर काम कर रहा है जिसमें मुझे "वर्ष" जैसे संरचित मेटाडेटा में अनियंत्रित ग्रंथसूची अनुभाग (जो शोध लेख के अंत में है) को परिवर्तित करने की आवश्यकता है। "," जर्नल "," वॉल्यूम आईडी "" पृष्ठ संख्या "," शीर्षक ", आदिप्राकृतिक भाषा प्रसंस्करण - संरचित मेटाडाटा
उदाहरण के लिए: इनपुट
McCallum, A.; Nigam, K.; and Ungar, L. H. (2000). Efficient clustering of high-dimensional data sets with application to reference matching. In Knowledge Discovery and Data Mining, 169–178
अपेक्षित उत्पादन:
<Author> McCallum, A.</Author> <Author>Nigam, K.</Author> <Author>Ungar, L. H.</Author>
<Year> 2000 </Year>
<Title>Efficient clustering of high-dimensional data sets with application to reference matching <Title> and so on
उपकरण का उपयोग किया: CRFsuite
डाटा सेट: यह 12000 संदर्भ
- जर्नल शीर्षक होता है,
- लेख का शीर्षक के शब्द शामिल हैं,
- स्थान का नाम शामिल होता है ,
दिया लाइन में प्रत्येक शब्द के रूप में टोकन माना जाता है और मैं निम्नलिखित प्राप्त प्रत्येक टोकन के लिए सुविधाओं
- लाइन के शुरू में सीमा, अंत के लिए
- ईओआर
- digitFeature: यदि टोकन अंक
- वर्ष: यदि टोकन वर्ष 1 9 ** और 20 **
- वर्तमान डेटा-सेट में उपलब्ध है, तो
उपकरण और ऊपर से डेटा-सेट मैं केवल 63.7% सटीकता मिला है। "शीर्षक" के लिए शुद्धता बहुत कम है और "वर्ष" और "वॉल्यूम" के लिए अच्छा है।
सवाल:
- मैं किसी भी अतिरिक्त सुविधाओं आकर्षित कर सकते हैं?
- क्या मैं किसी अन्य उपकरण का उपयोग कर सकता हूं?
आप को दिखाने के लिए उदाहरण के तार का एक पूरा सेट देने के लिए हो सकता है के लिए उपकरणों की एक टन है ग्रंथसूची प्रविष्टियों को स्वरूपित करने के तरीकों की विविधता।एक उदाहरण ठीक है यदि प्रत्येक प्रविष्टि में बिल्कुल एक ही प्रारूप है, लेकिन मुझे संदेह है कि आप इन ग्रंथसूची प्रविष्टियों में विभिन्न संरचनाओं की एक बड़ी संख्या देख रहे हैं, इसलिए उदाहरणों का एक पूर्ण सेट लोगों को आपके इच्छित डेटा निकालने के तरीकों का सुझाव देने में मदद करेगा। – Bobulous