2014-07-04 4 views
6

गो-टूर के माध्यम से चलने में जापानी शब्दों की गणना कैसे करूं, यह अच्छा प्रभाव देता है कि यूनिकोड को आउट ऑफ़ द बॉक्स का समर्थन किया जाता है।मैं गो-लैंग

ऐसे शब्दों की गिनती जो मानक और अलग-अलग जगहों जैसे कि जापानी और चीनी में रिक्त स्थान का उपयोग नहीं करते हैं, अन्य प्रोग्रामिंग भाषाओं (पीएचपी) में दर्दनाक हैं, इसलिए जानना उत्सुक है कि जापानी भाषा में लिखे गए शब्दों की गणना करना संभव है (उदाहरण के लिए : कटकाना) गो-प्रोग्रामिंग भाषा का उपयोग कर।

यदि हां, तो कैसे?

+7

आप प्रतीक, ऊंचाई की गणना कर सकते हैं। लेकिन विभाजक की अनुपस्थिति में शब्दों की गिनती करने के लिए? मुझे नहीं लगता कि यह एक भाषा या उसके रनटाइम का काम है। –

+0

मैं जापानी/चीनी से परिचित नहीं हूं, लेकिन वे किसी भी तरह के विभाजक का उपयोग नहीं करते हैं? – OneOfOne

+2

@OneOfOne अच्छी तरह से उनके पास रिक्त स्थान, कॉमा भी हैं ... लेकिन समस्या यह है कि ** こ れ は 私 の 名 前 で あ り, 私 は そ れ を 誇 り に 思 っ て い ま す। ** दो शब्दों की तरह दिखता है लेकिन इसमें 10 शब्द हैं यह मोटे तौर पर अनुवाद करता है _This मेरा नाम है, और मुझे इसका गर्व है। –

उत्तर

1

उत्तर हाँ है। यह Go-programming language का उपयोग कर जापानी भाषा (उदाहरण: कटकाना) में लिखे गए शब्दों की गिनती करना संभव है। " लेकिन सबसे पहले आपको अपने प्रश्न को बेहतर बनाने की जरूरत है।

कोई व्यक्ति आपके वाक्यांश को पढ़ता है, "रिक्त स्थान जैसे मानक विभाजक", यह मान सकता है कि शब्द गणना एक अच्छी तरह से परिभाषित ऑपरेशन है। यह अंग्रेजी जैसी भाषाओं के लिए भी नहीं है। वाक्यांश में, "परीक्षण 1 2 3 परीक्षण", स्ट्रिंग "1 2 3" एक शब्द, या तीन, या शून्य का प्रतिनिधित्व करता है? क्या जवाब "परीक्षण 123 परीक्षण" के लिए अलग है? वाक्यांश में कितने शब्द हैं, "परीक्षण परीक्षण"?

कोई भी यह मान सकता है कि जापानी भाषा में "शब्दों" की अवधारणा है, जो अंग्रेज़ी के समान है, लेकिन एक अलग वाक्य रचनात्मक सम्मेलन के साथ। यह सही नहीं है - कई भाषाओं के लिए, जैसे जापानी, लिखित चीनी और थाई।

तो, आपको अंग्रेजी जैसे भाषाओं के लिए लैटिन-स्क्रिप्ट टेक्स्ट में "शब्द" क्या परिभाषित करके अपना प्रश्न सुधारना होगा।

क्या आप अंतर वर्णों की उपस्थिति के आधार पर एक साधारण शब्दावली परिभाषा चाहते हैं? फिर Unicode TR 29 Version 4.1.0 - Text Boundaries, Section 4 Word Boundaries का उपयोग करने पर विचार करें। यह नियमित अभिव्यक्तियों और यूनिकोड चरित्र गुणों के संदर्भ में "शब्द सीमाएं" को परिभाषित करता है। स्थानीयकरण उद्योग मानक GMX-V, Word Boundaries section, टी.आर. 29.

एक बार जब आप अपनी परिभाषा है, मुझे विश्वास है आप unicode और text/scanner की तरह जाओ संकुल का उपयोग कर इसे लागू करने में सक्षम हो जाएगा हूँ उपयोग करता है। मैंने यह खुद नहीं किया है। आधिकारिक पैकेज सूची पर त्वरित रूप से, ऐसा लगता है कि मौजूदा पैकेजों में टीआर 2 9 कार्यान्वयन नहीं है। लेकिन आपका प्रश्न पूछता है कि क्या यह "संभव" है, न कि "पहले से ही एक आधिकारिक पैकेज द्वारा कार्यान्वित किया गया"।

अगला, जापानी के लिए: क्या आप "शब्द" की एक सरल व्याख्यात्मक परिभाषा चाहते हैं? यदि ऐसा है, यूनिकोड टीआर 2 9 इसे आपूर्ति करता है। वे कहते हैं,

थाई, लाओ, खमेर, म्यांमार और अन्य स्क्रिप्ट्स के लिए जो आम तौर पर शब्दों के बीच रिक्त स्थान का उपयोग नहीं करते हैं, एक अच्छा कार्यान्वयन डिफ़ॉल्ट शब्द सीमा विनिर्देश पर निर्भर नहीं होना चाहिए। इसे एक अधिक परिष्कृत तंत्र का उपयोग करना चाहिए, जैसा कि लाइन ब्रेकिंग के लिए भी आवश्यक है। जापानी और चीनी जैसे विचारधारात्मक स्क्रिप्ट और भी जटिल हैं। जहां हांगुल टेक्स्ट रिक्त स्थान के बिना लिखा जाता है, वही लागू होता है। हालांकि, एक अधिक परिष्कृत तंत्र की अनुपस्थिति में, इस अनुबंध में निर्दिष्ट नियम एक अच्छी तरह से परिभाषित डिफ़ॉल्ट आपूर्ति करते हैं।

आप "शब्द" जापानी संदर्भ में की भाषायी परिष्कृत परिभाषा चाहते हैं, तो आप मुद्दों @Jhilke दाई, सर्जियो Tulentsev, और अन्य योगदानकर्ताओं द्वारा उठाए गए पर विचार शुरू करने के लिए की जरूरत है। आपको "शब्द" के अपने विनिर्देश को डिजाइन करने की आवश्यकता होगी। फिर आपको इसे लागू करने की आवश्यकता होगी। मुझे विश्वास है कि आपको जुलाई 2014 तक आधिकारिक गो पैकेज में ऐसा कोई कार्यान्वयन नहीं मिलेगा। हालांकि, मुझे भी विश्वास है कि यदि आप एक स्पष्ट विनिर्देश तैयार कर सकते हैं, तो इसे गो में लागू करने के लिए "संभव" है।

अब: इस उत्तर में कितने शब्द हैं? आपने उन्हें कैसे गिन लिया?