मेरे पास कुछ पाठ है जो किसी अन्य सिस्टम द्वारा उत्पन्न किया गया था। यह कुछ शब्दों को एक साथ जोड़ता है जो मुझे लगता है कि कुछ प्रकार के वर्डप्रेस द्वारा उत्पादित किया गया था। तो 'कुत्ते' जैसी कुछ सरल 'थियोग' में मिलती है।संयुक्त भाषा के लिए प्राकृतिक भाषा प्रसंस्करण फिक्स
मैंने एसीआई और यूनिकोड स्ट्रिंग को देखने के लिए जांच की है कि वहां कुछ अदृश्य चरित्र नहीं था, लेकिन वहां नहीं था। एक उलझन में समस्या यह है कि यह चिकित्सा पाठ है और जांच करने के लिए एक कॉर्पस उपलब्ध नहीं है। तो, असली उदाहरण है ... 'एसएआरएस बनाम निमोनिया' से बाहर निकलने का परीक्षण '... बनाम बनामोनिया' के रूप में समाप्त होता है।
किसी को भी इन्हें खोजने और अलग करने के लिए कोई सुझाव है?
क्या यह OCR'd टेक्स्ट था? – tchrist