2013-03-07 23 views
7

के साथ अंग्रेजी में टेक्स्ट क्या है, मुझे पता था कि इस सवाल को कई बार पूछा जा रहा है लेकिन मैं अभी भी इसे "उपलब्ध" समाधान से ठीक नहीं कर सका। उम्मीद है कि मेरे वाक्यों का पता लगाने के बारे में कोई और विचार या अवधारणाएं पाइथन में अंग्रेजी हैं। उपलब्ध समाधान:पता लगाएं कि पाइथन

  • भाषा डिटेक्टर (माणिक में अजगर में नहीं: /)
  • Google अनुवाद एपीआई v2 (लंबे समय तक कोई नि: शुल्क, 20 रुपये एक महीने जब मैं शैक्षिक उद्देश्यों के लिए इस परियोजना कर रहा हूँ का भुगतान करने की है । सौजन्य सीमा:।? 0 वर्ण/दिन) अजगर (स्रोत कोड के लिए
  • भाषा पहचान नीचे में नहीं मिला, लिंक automatic-language-identification)
  • Enchant (यह अजगर 2.7 के लिए नहीं है मैं अजगर, किसी भी गाइड मैं करने के लिए नया हूँ शर्त है कि यह मुझे चाहिए)
  • एनएलटीके से वर्डनेट (मुझे मिला कोई विचार नहीं है कि "wordnet.synsets" क्यों गुम है और केवल "wordnet.Synset" उपलब्ध है। समाधान में नमूना कोड मेरे लिए काम नहीं कर रहा है, साथ ही T_T, शायद संस्करण को फिर से संस्करणित कर रहा है?)
  • अंग्रेजी शब्दों को सूची में स्टोर करें और तुलना करें कि शब्द मौजूद है (हाँ, यह वाकई खराब दृष्टिकोण है जबकि वाक्य ट्विटर से हैं और .. आप जानते थे कि: अंत में की कोशिश कर की एक श्रृंखला के बाद पी)

श्रमजीवी समाधान

, अगले कार्य समाधान (ऊपर दी गई सूची के लिए वैकल्पिक) है

  • wikt आयनरी एपीआई (Urllib2 का उपयोग करके, और सरल पार्स इसे पार्स करने के लिए। फिर पता करें कि कुंजी -1 है यानी शब्द मौजूद नहीं है। अन्यथा यह अंग्रेजी है। बेशक, ट्विटर में उपयोग के लिए अपने शब्द को किसी विशेष चरित्र में @ #,?! कुंजी को कैसे ढूंढें इसके लिए यहां संदर्भित किया जाएगा। Simplejson and random key value)
  • डोगुकन तुफेकी (चुस्त) से जवाब (कमजोरी: अगर कहना है कि 20 अक्षरों से कम की अवधि को पियनेचेंट स्थापित करना है या यह अनन्य वापस आ जाएगा। जबकि PyEnchant Python 2.7 का समर्थन नहीं कर रहा है, इसका मतलब है कि इंस्टॉल नहीं हो सका कम से कम 20 चरित्र वाक्य) के लिए काम कर

संदर्भ

+0

दिलचस्प सवाल। सूची में शब्दों को संग्रहीत करने में सुधार उन्हें सेट या डिक्शनरी में स्टोर करना होगा। सूची दृष्टिकोण ओ (एन) है जहां अन्य दृष्टिकोण ओ (1) हैं। – Octipi

+0

प्रश्न में समाधान न डालें, इसके बजाय इसे उत्तर के रूप में पोस्ट करें। अगर आपके पास जवाब है तो अपने स्वयं के प्रश्न का उत्तर दें –

उत्तर

8

आप guess_language लाइब्रेरी को आजमा सकते हैं जो मुझे Miguel Grinber's The Flask Mega Tutorial के माध्यम से मिला। ऐसा लगता है कि यह पाइथन 2 और 3 का समर्थन करता है, इसलिए यह ठीक होना चाहिए।

+0

धन्यवाद;) हाल ही में मुझे प्रलेखन नहीं मिला और अनदेखा कर दिया गया। बीटीडब्ल्यू, क्या आपको यह ठीक करने के बारे में कोई सुराग है? कोई त्रुटि आयात नहीं करें, लेकिन जब मैं अनुमान_भाषा ("मेरी वाक्य") को कॉल करने का प्रयास करता हूं, तो यह मुझे निम्न देता है: ट्रेसबैक (सबसे हालिया कॉल अंतिम): फ़ाइल "", पंक्ति 1, टाइप एरर: 'मॉड्यूल' ऑब्जेक्ट है कॉल करने योग्य नहीं – 1myb

+3

आपका आयात यह होगा: अनुमान_भाषा आयात अनुमान से भाषा और आपका कॉल अनुमान लगाया जाएगा भाषा ('मेरी सजा')। आप मॉड्यूल को बुला रहे हैं जो गलत है। अगर आप समझने की कोशिश करते हैं तो टाइप त्रुटि वास्तव में सहायक होती है। इस मामले में यह कहता है कि आप 'मॉड्यूल' ऑब्जेक्ट को कॉल कर रहे हैं। –

+0

Tefekci, बहुत बहुत धन्यवाद;) कष्टप्रद दस्तावेज-.- – 1myb

1

आप छिपे हुए मार्कोव मॉडल के उपयोग भाषाओं पता लगाने के लिए बनाने के लिए सक्षम हो सकता है, प्रत्येक भाषा के लिए अपने स्वयं के लक्षण होगा।

+0

क्या मेरे पास कुछ संदर्भ लिंक हो सकता है;) धन्यवाद – 1myb

+0

http: //en.wikipedia।संगठन/विकी/Hidden_Markov_model terse होने के लिए खेद है, लेकिन मूल रूप से बाइट्स के एक विशेष अनुक्रम की संभावना भाषा पर निर्भर करती है। अंग्रेजी में, "हैलो" एक अनुक्रम की तुलना में बाइट्स की एक अधिक संभावित अनुक्रम का प्रतिनिधित्व करता है जो शायद ही कभी भाषा में होता है, जैसे "encontrar"। अंतर अलग-अलग शब्दों के लिए मामूली हो सकता है, हालांकि यदि आपके पास कोई वाक्यांश है, तो आप अधिक निर्णायक परिणाम प्राप्त कर पाएंगे। – Arafangion

+0

सचमुच, मैं सिर्फ डोगुकन के उत्तर के साथ जाऊंगा। – Arafangion

संबंधित मुद्दे