2011-03-15 16 views
6

मेरे पास कुछ पाठ है जो किसी अन्य सिस्टम द्वारा उत्पन्न किया गया था। यह कुछ शब्दों को एक साथ जोड़ता है जो मुझे लगता है कि कुछ प्रकार के वर्डप्रेस द्वारा उत्पादित किया गया था। तो 'कुत्ते' जैसी कुछ सरल 'थियोग' में मिलती है।संयुक्त भाषा के लिए प्राकृतिक भाषा प्रसंस्करण फिक्स

मैंने एसीआई और यूनिकोड स्ट्रिंग को देखने के लिए जांच की है कि वहां कुछ अदृश्य चरित्र नहीं था, लेकिन वहां नहीं था। एक उलझन में समस्या यह है कि यह चिकित्सा पाठ है और जांच करने के लिए एक कॉर्पस उपलब्ध नहीं है। तो, असली उदाहरण है ... 'एसएआरएस बनाम निमोनिया' से बाहर निकलने का परीक्षण '... बनाम बनामोनिया' के रूप में समाप्त होता है।

किसी को भी इन्हें खोजने और अलग करने के लिए कोई सुझाव है?

+0

क्या यह OCR'd टेक्स्ट था? – tchrist

उत्तर

0

यहां मैंने जो किया है। मैंने कुछ विचारों को जोड़ दिया और एक सामान्य बूटस्ट्रैपिंग पद्धति का उपयोग करके एक बहुत अच्छा समाधान आया। मैंने इन सब के लिए पायथन का इस्तेमाल किया।

  1. रिपोर्ट का नमूना लिया, सभी शब्दों को टोकननाइज्ड किया और आवृत्ति तालिका बनाई।
  2. 3 की या के तहत एक आवृत्ति के साथ शब्दों के लिए (4 या उससे अधिक की आवृत्ति काफी आम सही नहीं समझा गया था), मैं उन्हें PyEnchant पैकेज का उपयोग (पुस्तकालय मंत्रमुग्ध) की जाँच की वर्तनी
  3. से 'गलत वर्तनी' एक चिकित्सा शब्दकोश का निर्माण शब्द, चरण 2 में, जो नैदानिक ​​थे।
  4. सभी रिपोर्ट्स के लिए, 4 के तहत एक आवृत्ति तालिका
  5. एक आवृत्ति के साथ शब्दों के लिए बनाया है, मैं हर PyEnchant का उपयोग कर और मेरी चिकित्सा शब्दकोश की जाँच की वर्तनी
  6. प्रत्येक गलत वर्तनी वाले शब्द ले गए और उन्हें हर संभव तरीके में विभाजित कर दिया। विभाजनों का परीक्षण 2 सही वर्तनी वाले शब्दों के निर्माण के लिए किया गया था।किसी भी सफल विभाजन
  7. प्रत्येक संभावित समाधान के लिए उच्चतम भारित समाधान का उपयोग किया गया था।
1

यह एक कठिन समस्या है।

मैं शायद कहूंगा कि एक संयोजन विधि आपकी सबसे अच्छी शर्त है। "गलत वर्तनी वाले शब्द"

  • इन में से हर एक के लिए, यदि जो यह कर सकते हैं शब्दकोश शब्द के कुछ संयोजन है देखने के लिए जाँच के लिए

    1. खोजें। चरण 4 2.1 के कारण आप यह मान सकते हैं कि एक शब्द केवल दो शब्दों से बना है। यदि आप एक मैच प्राप्त करते हैं, तो मानव के साथ पुष्टि करें।
    2. अगर वहाँ कोई मुकाबला नहीं है, मानव पूछना कहते हैं "यह एक असली शब्द आप नहीं है", या

    "इस सुधार है" यह काफी का एक उन्नत प्रपत्र होगी अक्षर जाँच लें। आप इसे और अधिक स्वचालित कर सकते हैं, लेकिन मैं इसे किसी महत्वपूर्ण चीज़ पर जोखिम नहीं उठाऊंगा।

    वैकल्पिक रूप से, आप ब्रेक होने पर पैटर्न के लिए देख सकते हैं। इस प्रकार, उदाहरण के लिए, प्रत्येक एनएच चरित्र जो अंतरिक्ष होना चाहिए, वह आप ठीक कर सकते हैं।

  • 2

    यह आपकी रुचि का हो सकता है http://www.perlmonks.org/?node_id=336331

    आप शायद एक दो शब्दकोशों का उपयोग कर, केवल चिकित्सा शब्दावली और सामान्य अंग्रेजी में से एक युक्त द्वारा अपने लाभ के लिए पाठ की चिकित्सा प्रकृति का उपयोग कर सकते हैं।

    आप चिकित्सा शब्द बाहर अलग कर सकते हैं, तो सामान्य शब्दकोश के खिलाफ स्ट्रिंग के बाकी चलाने आप कुछ सभ्य परिणाम प्राप्त करना चाहिए।

    संबंधित मुद्दे