2015-08-26 3 views
9

पर असंगठित ग्रंथसूची को परिवर्तित करना वर्तमान में एक प्राकृतिक भाषा प्रसंस्करण प्रोजेक्ट पर काम कर रहा है जिसमें मुझे "वर्ष" जैसे संरचित मेटाडेटा में अनियंत्रित ग्रंथसूची अनुभाग (जो शोध लेख के अंत में है) को परिवर्तित करने की आवश्यकता है। "," जर्नल "," वॉल्यूम आईडी "" पृष्ठ संख्या "," शीर्षक ", आदिप्राकृतिक भाषा प्रसंस्करण - संरचित मेटाडाटा


उदाहरण के लिए: इनपुट

McCallum, A.; Nigam, K.; and Ungar, L. H. (2000). Efficient clustering of high-dimensional data sets with application to reference matching. In Knowledge Discovery and Data Mining, 169–178 

अपेक्षित उत्पादन:

<Author> McCallum, A.</Author> <Author>Nigam, K.</Author> <Author>Ungar, L. H.</Author> 
<Year> 2000 </Year> 
<Title>Efficient clustering of high-dimensional data sets with application to reference matching <Title> and so on 

उपकरण का उपयोग किया: CRFsuite


डाटा सेट: यह 12000 संदर्भ

  1. जर्नल शीर्षक होता है,
  2. लेख का शीर्षक के शब्द शामिल हैं,
  3. स्थान का नाम शामिल होता है ,

दिया लाइन में प्रत्येक शब्द के रूप में टोकन माना जाता है और मैं निम्नलिखित प्राप्त प्रत्येक टोकन के लिए सुविधाओं

  1. लाइन के शुरू में सीमा, अंत के लिए
  2. ईओआर
  3. digitFeature: यदि टोकन अंक
  4. वर्ष: यदि टोकन वर्ष 1 9 ** और 20 **
  5. वर्तमान डेटा-सेट में उपलब्ध है, तो

उपकरण और ऊपर से डेटा-सेट मैं केवल 63.7% सटीकता मिला है। "शीर्षक" के लिए शुद्धता बहुत कम है और "वर्ष" और "वॉल्यूम" के लिए अच्छा है।

सवाल:

  1. मैं किसी भी अतिरिक्त सुविधाओं आकर्षित कर सकते हैं?
  2. क्या मैं किसी अन्य उपकरण का उपयोग कर सकता हूं?
+3

आप को दिखाने के लिए उदाहरण के तार का एक पूरा सेट देने के लिए हो सकता है के लिए उपकरणों की एक टन है ग्रंथसूची प्रविष्टियों को स्वरूपित करने के तरीकों की विविधता।एक उदाहरण ठीक है यदि प्रत्येक प्रविष्टि में बिल्कुल एक ही प्रारूप है, लेकिन मुझे संदेह है कि आप इन ग्रंथसूची प्रविष्टियों में विभिन्न संरचनाओं की एक बड़ी संख्या देख रहे हैं, इसलिए उदाहरणों का एक पूर्ण सेट लोगों को आपके इच्छित डेटा निकालने के तरीकों का सुझाव देने में मदद करेगा। – Bobulous

उत्तर

2

मैं अस्तित्व के दृष्टिकोण पर आधार समाधान का प्रस्ताव दूंगा। उदाहरण के लिए this paper

पार्क, सुंग हे, रोजर डब्ल्यू एरिक और एडवर्ड ए फॉक्स पर एक नज़र डालें। "एक हाइब्रिड अनुशासन-स्वतंत्र कैननिकल प्रतिनिधित्व संदर्भों से निष्कर्षण के लिए दो चरण दृष्टिकोण।" डिजिटल पुस्तकालयों पर 12 वीं एसीएम/आईईईई-सीएस संयुक्त सम्मेलन की कार्यवाही। एसीएम, 2012.

अनुभाग 3.2 और 4.2 दर्जनों विशेषताओं के विवरण प्रदान करते हैं।

सीआरएफ कार्यान्वयन के लिए, this one जैसे अन्य टूल्स हैं, लेकिन मुझे नहीं लगता कि यह कम सटीकता का स्रोत है।

2

जबकि मैं आम तौर पर निकिता से सहमत हूं कि कोई विशेष सीआरएफ टूलसेट कम सटीकता का स्रोत नहीं है, और यह एक समाधान दृष्टिकोण मुद्दा है। मुझे यकीन नहीं है कि दो चरणबद्ध दृष्टिकोण, जबकि पूरा होने पर बहुत सटीक और प्रभावी, पार्क, एट अल द्वारा प्रदर्शित किया गया। आपकी समस्या का एक व्यावहारिक दृष्टिकोण है।

एक के लिए, पेपर में उल्लिखित "दो चरणों" एक जोड़े वाले एसवीएम/सीआरएफ हैं जो फ्लाई पर सेटअप करना आसान नहीं है यदि यह अध्ययन का आपका मुख्य क्षेत्र नहीं है। उनमें प्रत्येक लेबल किए गए डेटा, और ट्यूनिंग की डिग्री पर प्रशिक्षण शामिल है।

दो, यह संभावना नहीं है कि आपका वास्तविक डेटा (ऊपर दिए गए विवरण के आधार पर) अलग-अलग संरचित है क्योंकि इस विशेष समाधान को उच्च सटीकता बनाए रखने के दौरान सामना करने के लिए डिज़ाइन किया गया था। इस मामले में पर्यवेक्षित शिक्षा का यह स्तर आवश्यक नहीं है।

यदि मैं उन कई विशेषताओं के साथ एक डोमेन विशिष्ट समाधान का प्रस्ताव दे सकता हूं जो आपके द्वारा उपयोग किए जा रहे किसी भी उपकरण में लागू करने के लिए कहीं अधिक आसान हो, तो मैं एक (प्रतिबंधित) अर्थपूर्ण पेड़ दृष्टिकोण का प्रयास करूंगा, जो अर्द्ध पर्यवेक्षित है, विशेष रूप से अपवाद (त्रुटि) सलाह दी।

आपके डेटा अणु के रूप में अंग्रेजी वाक्य के बजाय, आपके पास ग्रंथसूची प्रविष्टि है। इस अणु के कुछ हिस्सों में लेखक भाग, शीर्षक भाग, दिनांक भाग और प्रकाशक भाग होना चाहिए, वहां अन्य डेटा पार्ट्स भी हो सकते हैं (पृष्ठ संख्या, वॉल्यूम आईडी, आदि)।

चूंकि इनमें से कुछ हिस्सों को एक दूसरे के अंदर या व्यवस्था के विभिन्न क्रम में घोंसला (उदाहरण के लिए प्रकाशक भाग में पृष्ठ #) किया जा सकता है, लेकिन फिर भी परिचालन रूप से मान्य है, यह अर्थपूर्ण पेड़ों के उपयोग के लिए एक अच्छा संकेतक है।

और भी, तथ्य यह है कि प्रत्येक क्षेत्र में परिवर्तनीय अद्वितीय विशेषताएं हैं: लेखक भाग (व्यक्तिगत नाम प्रारूप जैसे ब्लो, जे। या जेम्स, एट सब इत्यादि); शीर्षक भाग (उद्धृत, या इटालिसिक, मानक वाक्य संरचना है); दिनांक भाग (तारीख प्रारूप,(), आदि में संलग्न), इसका मतलब है कि आपको टोकननाइज्ड और असंगठित विश्लेषण के मुकाबले कम समग्र प्रशिक्षण की आवश्यकता है। अंत में आपके कार्यक्रम के लिए यह कम सीखना।

इसके अतिरिक्त संरचनात्मक संबंध हैं जो उदाहरण के लिए सटीकता में सुधार करने के लिए सीखा जा सकता है: दिनांक भाग (अक्सर अंत में या अलग-अलग वर्गों को अलग करना), लेखक भाग (अक्सर शुरुआत में, या शीर्षक के बाद अन्यथा) आदि। इस तथ्य से आगे समर्थित है कि कई संघों और प्रकाशकों के पास ऐसे संदर्भ स्वरूपण का अपना तरीका है, इन्हें बिना प्रशिक्षण प्रशिक्षण के संबंध में आसानी से सीखा जा सकता है।

तो भागों को विभाजित करके और संरचित सीखने के द्वारा समेकित करने के लिए आप प्रत्येक उप-भाग में मिलान पैटर्न को कम कर रहे हैं और सीखने को पैटर्न के संबंध में संदर्भित किया गया है, जो अधिक विश्वसनीय हैं, इस प्रकार हम इस तरह की प्रविष्टियों का निर्माण करते हैं मनुष्य।

इसके अलावा डोमेन विशिष्ट semantical सीखने

http://www.semantic-measures-library.org/ http://wiki.opensemanticframework.org/index.php/Ontology_Tools

आशा की इस तरह मदद करता है कि :)

संबंधित मुद्दे