दिए गए वेबसाइट पेज की प्राकृतिक भाषा को स्वचालित रूप से निर्धारित करें, मैं अपने यूआरएल को देखते हुए वेबसाइट पेज द्वारा उपयोग की जाने वाली प्राकृतिक भाषा को स्वचालित रूप से निर्धारित करने का एक तरीका ढूंढ रहा हूं।अपने यूआरएल
अजगर, एक समारोह की तरह:
def LanguageUsed (url):
#stuff
जो एक भाषा विनिर्देशक रिटर्न (अंग्रेजी के लिए जैसे 'en', जापानी के लिए 'जेपी', आदि ...)
परिणाम का सारांश: मेरे पास पाइथन में code from the PyPi for oice.langdet का उपयोग कर एक उचित समाधान है। यह अंग्रेजी बनाम गैर-अंग्रेजी के भेदभाव में एक सभ्य नौकरी करता है, जो इस समय मुझे आवश्यक है। ध्यान दें कि आपको पाइथन urllib का उपयोग कर एचटीएमएल लाने के लिए है। इसके अलावा, oice.langdet जीपीएल लाइसेंस है।
पाइथन में ट्रिग्राम का उपयोग करके एक और सामान्य समाधान के लिए जैसा कि अन्य ने सुझाव दिया है, यह Python Cookbook Recipe from ActiveState देखें।
Google प्राकृतिक भाषा पहचान API बहुत अच्छी तरह से काम करता है (यदि मैंने देखा है तो सबसे अच्छा नहीं है)। हालांकि, यह जावास्क्रिप्ट है और उनके TOS इसके उपयोग को स्वचालित करने से मना कर देता है।
जियोलोकेशन पूरी तरह से बेकार है। दुनिया में बहुत सारे स्थान हैं जहां कई भाषाएं सह-अस्तित्व में हैं। और वेबसाइटों में कई भाषाओं को भी शामिल किया जा सकता है –
मैंने कहा था कि यह टीएलडी से बेहतर है, जो कुछ लोग सुझाव दे रहे हैं, और मैंने कई भाषाओं के मुद्दे को संबोधित किया। – tghw