2012-07-02 21 views
12

हम एक ओपन सोर्स मशीन ट्रांसलेशन इंजन की तलाश में हैं जिसे हमारे स्थानीयकरण वर्कफ़्लो में शामिल किया जा सकता है। ,ओपन सोर्स मशीन अनुवाद इंजन?

  1. Moses (C++)
  2. Joshua (जावा)
  3. Phrasal (जावा)

इनमें मूसा व्यापक समुदाय समर्थन हासिल है और है: हम नीचे दिए गए विकल्पों पर देख रहे हैं कई स्थानीयकरण कंपनियों और शोधकर्ताओं द्वारा कोशिश की गई। हम वास्तव में जावा-आधारित इंजन की तरफ झुका रहे हैं क्योंकि हमारे एप्लिकेशन जावा में हैं। क्या आप में से कोई भी अपने वर्कफ़्लो के हिस्से के रूप में या तो यहोशू या फ्रासल का उपयोग करता है। क्या आप अपने अनुभवों को उनके साथ साझा कर सकते हैं? या, मूसा मार्ग उन सुविधाओं के संदर्भ में बहुत दूर है जो एकीकरण की सुविधा प्रदान करते हैं।

और हम चाहते हैं कि इंजन का समर्थन करता है:

  1. डोमेन-विशिष्ट प्रशिक्षण (यानी यह प्रत्येक डोमेन इनपुट डेटा अंतर्गत आता है के लिए अलग वाक्यांश टेबल बनाए रखना चाहिए)।
  2. वृद्धिशील प्रशिक्षण (यानी जब भी हम कुछ नए प्रशिक्षण डेटा का उपयोग करना चाहते हैं तो मॉडल को स्क्रैच से रोकने के लिए टालना)।
  3. अनुवाद प्रक्रिया को समानांतर बनाना।
+0

[मार्कस] (http://stackoverflow.com/users/840647/marcus) ने पूछा: बस जानना उत्सुक है, क्या आपने या तो यहोशू का उपयोग करना शुरू कर दिया है या फ्रासल? यदि हां, तो क्या आपका अनुभव साझा करना संभव है? –

+0

स्टैक ओवरफ़्लो में आपका स्वागत है। दिलचस्प सवाल मैंने आपके लिए प्रश्न में डाले गए यूआरएल के साथ आने के लिए एक छोटी सी Google खोज की है - आपने एक बेहतर सवाल किया होगा कि आपने उन्हें स्वयं जोड़ा होगा (और शायद फ्रासल के लिए पीडीएफ की तुलना में बेहतर यूआरएल के साथ आना होगा)। –

+1

क्या किसी को पता है कि मशीन अनुवाद सॉफ़्टवेयर के कुछ नाम किसी तरह से egpyt/israel से संबंधित क्यों हैं? जैसे गीज़ा, मोस, यहोशू। – alvas

उत्तर

5

यह सवाल मूसा मेलिंग सूची ([email protected]) पर बेहतर पूछा जाता है, मुझे लगता है। वहां विभिन्न प्रकार के सिस्टम के साथ काम करने वाले बहुत सारे लोग हैं, इसलिए आपको एक उद्देश्य जवाब मिलेगा। इसके अलावा, मेरा इनपुट यहां है:

  • जावा के संबंध में: इससे कोई फर्क नहीं पड़ता कि एमटी सिस्टम किस भाषा में लिखा गया है। कोई अपराध नहीं, लेकिन आप सुरक्षित रूप से मान सकते हैं कि भले ही कोड उस भाषा में लिखा गया हो जिसे आप परिचित थे, एमटी के गहन ज्ञान के बिना समझना बहुत मुश्किल होगा। तो आप जो खोज रहे हैं वे इंटरफेस हैं। मूसा का एक्सएमएल-आरपीसी ठीक काम करता है।
  • एमटी सिस्टम के संबंध में: सर्वोत्तम परिणामों की तलाश करें, प्रोग्रामिंग भाषा को अनदेखा करें। परिणाम यहां हैं: matrix.statmt.org। आपके एमटी सिस्टम का उपयोग करने वाले लोग आपकी कोडिंग वरीयताओं में आउटपुट में रूचि रखते हैं।
  • पूरे उद्यम के संबंध में: एक बार जब आप एमटी आउटपुट की पेशकश शुरू करते हैं, तो सुनिश्चित करें कि आप इसे जल्दी से अनुकूलित कर सकते हैं। एमटी तेजी से एक पाइपलाइन प्रक्रिया की तरफ बढ़ रहा है जिसमें एक एमटी प्रणाली कोर (और केवल एकमात्र) घटक नहीं है। तो रखरखाव पर ध्यान केंद्रित करें। आदर्श मामले में, आप किसी भी एमटी सिस्टम को अपने ढांचे में जोड़ने में सक्षम होंगे।

    • डोमेन-विशिष्ट प्रशिक्षण:

    और यहाँ अपने सुविधा अनुरोधों पर कुछ इनपुट है आपको लगता है कि सुविधा की जरूरत नहीं है। ग्राहक विशिष्ट डेटा प्रशिक्षण का उपयोग करके आपको सर्वोत्तम एमटी परिणाम मिलते हैं।

  • वृद्धिशील प्रशिक्षण: Stream Based Statistical Machine Translation
  • अनुवाद प्रक्रिया को समानांतर बनाना: आपको इसे स्वयं लागू करना होगा। ध्यान दें कि अधिकांश एमटी सॉफ्टवेयर पूरी तरह अकादमिक है और कभी भी 1.0 मील का पत्थर तक नहीं पहुंच पाएगा। यह निश्चित रूप से मदद करता है यदि एक बहु थ्रेडेड सर्वर उपलब्ध है (मूसा), लेकिन फिर भी, आपको बहुत सारे कोडिंग कोड की आवश्यकता होगी।

उम्मीद है कि इससे मदद मिलती है। यदि आपके कोई और प्रश्न हैं तो मुझे पीएम के लिए स्वतंत्र महसूस करें।

5

बहुत आगे बढ़ रहा है, इसलिए मैंने इस विषय पर एक अद्यतन देने का विचार किया, और प्रगति दस्तावेज करने के लिए पिछले जवाब को छोड़ दिया।

डोमेन-विशिष्ट प्रशिक्षण: यदि आपका डेटा विभिन्न स्रोतों से लिया जाता है तो डोमेन अनुकूलन तकनीक उपयोगी हो सकती है और आपको उप-डोमेन की ओर अनुकूलित करने की आवश्यकता होती है। हमारे अनुभव से, कोई भी समाधान नहीं है जो लगातार सर्वोत्तम प्रदर्शन करता है, इसलिए आपको जितना संभव हो सके प्रयास करने और परिणामों की तुलना करने की आवश्यकता है। मूसा मेलिंग सूची पर एक मेल है जो संभव विधियों को सूचीबद्ध करता है: http://thread.gmane.org/gmane.comp.nlp.moses.user/9742/focus=9799varioushttp://www.statmt.org/survey/Topic/DomainAdaptation

इंक्रीमेंटल प्रशिक्षण: निम्नलिखित पेज भी वर्तमान शोध का एक सिंहावलोकन देता IWSLT 2013 को एक दिलचस्प बात थी: http://www.iwslt2013.org/downloads/Assessing_Quick_Update_Methods_of_Statistical_Translation_Models.pdf यह दिखा दिया है कि वर्तमान वृद्धिशील तरीकों (1) आपके सिस्टम ऑफ़लाइन ले, तो आप कोई असली है " लाइव मॉडल "आपके मॉडल (2) के पूर्ण पुनः प्रशिक्षण से बेहतर प्रदर्शन कर रहे हैं। ऐसा लगता है कि समस्या अभी तक हल नहीं हुई है।

अनुवाद प्रक्रिया समानांतर: मोज़े सर्वर moses-cmd बाइनरी पर पीछे है। तो यदि आप नवीनतम सुविधाओं का उपयोग करना चाहते हैं, तो यह moses-cmd से शुरू करना बेहतर है। साथ ही, समुदाय ने कभी भी 1.0 संस्करण जारी करने का वादा नहीं रखा है :-)। वास्तव में, आप यहां नवीनतम रिलीज (2.1) पा सकते हैं: http://www.statmt.org/moses/?n=Moses.Releases

संबंधित मुद्दे