2012-09-25 9 views
6

मेरे पास टेक्स्ट दस्तावेज़ों का एक समूह है जो बीमारियों का वर्णन करता है। वे दस्तावेज ज्यादातर मामलों में काफी कम होते हैं और अक्सर केवल एक वाक्य होते हैं। एक उदाहरण यहाँ दिया जाता है:रोग पहचान इकाई नाम

प्राथमिक फुफ्फुसीय उच्च रक्तचाप एक प्रगतिशील बीमारी है, जिसमें सबसे छोटी फुफ्फुसीय धमनियों के व्यापक रोड़ा फेफड़े संवहनी प्रतिरोध वृद्धि हुई की ओर जाता है, और बाद में सही वेंट्रिकुलर असफलता है।

क्या मैं जरूरत है एक उपकरण है जो वाक्यों में (इस मामले में उदाहरण के लिए "फुफ्फुसीय उच्च रक्तचाप") सभी रोग शर्तों पाता है और उन्हें MeSH की तरह एक नियंत्रित शब्दावली के लिए नक्शे है।

आपके उत्तरों के लिए अग्रिम धन्यवाद!

+1

यह बहुत विशिष्ट लगता है और प्रोग्रामिंग समस्या नहीं * प्रति * *। कम से कम यहां व्यक्त नहीं किया गया है। –

+1

लगता है कि यह डेटा खनन प्रश्न से अधिक है? – Harpal

उत्तर

2

देखें http://www.ebi.ac.uk/webservices/whatizit/info.jsf

Whatizit एक पाठ संसाधन प्रणाली है कि आप पाठ पर कार्यों textmining करने की अनुमति देता है। कार्यों को उपरोक्त विंडो की ड्रॉप नीचे पाइपलाइनों द्वारा परिभाषित किया गया है और पाठ को क्षेत्र में चिपकाया जा सकता है।

तुम भी पूछ सकते biostars: http://www.biostars.org/show/questions/

2

ऐसा करने के लिए कई उपकरण देखते हैं। कुछ लोकप्रिय वालों:

सबसे उनमें से कुछ पूर्वनिर्धारित मॉडल के साथ आते हैं, यानी वे पहले से ही कुछ सामान्य डेटासेट पर प्रशिक्षित किए जा चुके हैं एस (समाचार लेख, आदि)। हालांकि, आपके ग्रंथ बहुत विशिष्ट हैं, इसलिए आप पहले अपने डेटा में समायोजित करने के लिए, एक कॉर्पस का गठन करना चाहते हैं और उन उपकरणों में से एक को फिर से प्रशिक्षित करना चाहते हैं।

अधिक पहले, एक परीक्षण के रूप में, आप एक शब्दकोश-आधारित दृष्टिकोण आज़मा सकते हैं: इकाई नामों की एक सूची तैयार करें, और कुछ सटीक या अनुमानित मिलान करें। उदाहरण के लिए, यह ऑपरेशन LingPipe's tutorial में लिखा गया है।

6

यहाँ दो पाइपलाइनों कि विशेष रूप से चिकित्सा दस्तावेज़ पार्स के लिए तैयार कर रहे हैं कर रहे हैं:

दोनों UMLS, एकीकृत चिकित्सा भाषा प्रणाली का उपयोग, और इस प्रकार की आवश्यकता होती है कि आपके पास एक (मुफ्त) लाइसेंस। दोनों जावा हैं और सेट अप करने के लिए कम या ज्यादा आसान है।

+2

मुझे यकीन नहीं है कि मैं उन्हें "स्थापित करने में आसान" के रूप में वर्गीकृत करूंगा लेकिन वे काम करते हैं।मेटामैप का एक नया संस्करण पिछले साल भी जारी किया गया था। –

संबंधित मुद्दे