मान लीजिए हम सामग्री के साथ एक पाठ फ़ाइल है: "जे संयुक्त राष्ट्र प्रेमी homme suis ..."मैं कैसे बता सकता हूं कि एक सादा-पाठ फ़ाइल कौन सी भाषा लिखी गई है?
दूसरे के साथ:
जर्मन में एक पाठ के साथ तीसरे "मैं एक बहादुर आदमी हूँ": "गुटेन मॉर्गन। वाई गेट्स?"
हम एक समारोह कैसे लिखते हैं जो हमें बताएगा: ऐसी संभावना के साथ पहली फ़ाइल में पाठ अंग्रेजी में है, दूसरे में फ्रेंच आदि है? पुस्तकों के लिए
लिंक/आउट-ऑफ-द-बॉक्स समाधान का स्वागत है। मैं जावा में लिखता हूं, लेकिन यदि आवश्यक हो तो मैं पाइथन सीख सकता हूं।
मेरी टिप्पणियों
- वहाँ एक छोटा सा टिप्पणी मैं जोड़ने की आवश्यकता है। पाठ में पूरी तरह से या गलती के परिणामस्वरूप, अलग-अलग भाषाओं में वाक्यांश हो सकते हैं। क्लासिक कूड़ेचर में हमारे पास बहुत सारे उदाहरण हैं, क्योंकि अभिजात वर्ग के सदस्य बहुभाषी थे। तो संभावना स्थिति की बेहतर व्याख्या करती है, क्योंकि पाठ के अधिकांश भाग एक भाषा में हैं, जबकि अन्य दूसरे में लिखे जा सकते हैं।
- Google एपीआई - इंटरनेट कनेक्शन। मैं रिमोट फ़ंक्शंस/सेवाओं का उपयोग नहीं करना चाहूंगा, क्योंकि मुझे इसे स्वयं करने की ज़रूरत है या डाउनलोड करने योग्य लाइब्रेरी का उपयोग करना है। मैं उस विषय पर एक शोध करना चाहता हूं। गूगल द्वारा
@EugeneP: फ्रेंच अधिक होगा "जे संयुक्त राष्ट्र बेल homme suis ...";), लेकिन एक भाषा-डिटेक्टर उस गलती का पता की संभावना नहीं है (या कम से कम बहुत ही असामान्य उपयोग)। – SyntaxT3rr0r
@WizardOfOdds जे संयुक्त राष्ट्र Bonhomme alors, merci, quand मेम suis;) – EugeneP
इसके अलावा, आशा है कि आप पहले से ही इस जाँच: http://stackoverflow.com/questions/1383503/how-to-determine-the-natural-language-of- एक-दस्तावेज़ –