2009-01-16 16 views
21

मुझे सबसे व्यापक अंग्रेजी शब्द सूची की आवश्यकता है जो मुझे कई प्रकार के भाषा प्रसंस्करण संचालन के लिए मिल सकता है, लेकिन मुझे इंटरनेट पर कुछ भी नहीं मिला जो पर्याप्त गुणवत्ता में है।प्राकृतिक अंग्रेजी भाषा शब्द

विदेशी भाषा और/या तकनीकी शब्दों सहित अंग्रेजी भाषा में 1,000,000 शब्द हैं।

क्या आप कृपया ऐसे स्रोत (या 500k शब्दों के करीब) का सुझाव दे सकते हैं जिन्हें इंटरनेट से डाउनलोड किया जा सकता है जो शायद थोड़ा वर्गीकृत है? आप अपने भाषा प्रसंस्करण अनुप्रयोगों के लिए किस इनपुट का उपयोग करते हैं?

+1

यदि आपके शब्दकोश में 1 मिलियन शब्द हैं, तो आप शर्त लगा सकते हैं कि सामान्य शब्दों की गलत वर्तनी कुछ अस्पष्ट 1-एक-मिलियन शब्द के लिए गलत हो जाएगी। इससे इस तरह के एक बड़े शब्दकोश की उपयोगिता प्रभावित हो सकती है। –

+0

@ जर्मस्टॉर्म: आपको यह 1 मिलियन नंबर कहां मिला? क्या आपके पास एक विशिष्ट संदर्भ है, या यह अफवाह है? –

+0

मैंने इसे कहीं कहीं सुना है, मैं इसे – Germstorm

उत्तर

25

Kevin's wordlists मुझे शब्दों की सूचियों के लिए सबसे अच्छा पता है।

WordNet, अगर आप चीजों को किया जा रहा है संज्ञाएं, क्रियाएं आदि, समानार्थी बारे में जानना चाहते बेहतर है आदि

+0

मान्य नहीं कर सकता हूं मैंने पहले केविन की सूचियों का उपयोग किया है। मैंने एक विशाल सूची प्राप्त करने के लिए उनमें से एक समूह को विलय कर दिया ताकि मैं वर्णों के दिए गए सेट से सभी संभावित शब्द उत्पन्न कर सकूं। – dotjoe

+0

@ डॉटोजो उनके पास एक अच्छा [वेब इंटरफेस] (http://app.aspell.net/create) है जो अब आपके लिए करेगा (: – drevicko

3

आप किस ने कहा था 1 लाख शब्द? Wikipedia के अनुसार, ऑक्सफोर्ड अंग्रेजी शब्दकोश में केवल 600,000 है। और ओईडी का उपयोग किए जाने वाले सभी तकनीकी और स्लैंग शर्तों को शामिल करने का प्रयास करता है।

+1

दोस्तों के बीच दो की शक्ति क्या है? – zaratustra

+0

अंग्रेजी सिंथेटिक भाषा है।मैंने 1 एम नंबर भी सुना है, आमतौर पर उन शब्दों की संख्या पर निचले बाध्य के रूप में जिन्हें आप फ्लाई पर बना सकते हैं। – rmeador

4

मैंने नियंत्रित/प्राकृतिक अंग्रेजी और भाषा डोमेन ज्ञान प्रसंस्करण पर पर्ड्यू के लिए शोध किया था।

मैं प्रोजेक्ट प्रोजेक्ट पर एक नज़र डालेगा: http://attempto.ifi.uzh.ch/site/description/ जो एक नियंत्रित प्राकृतिक अंग्रेजी बनाने में मदद करने के लिए एक परियोजना है।

आप अपने पूरे शब्द लेक्सिकॉन को डाउनलोड कर सकते हैं: http://attempto.ifi.uzh.ch/site/downloads/files/clex-6.0-080806.zip इसमें ~ 100,000 प्राकृतिक अंग्रेजी शब्द हैं।

आप डोमेन विशिष्ट शब्दों के लिए अपना खुद का लेक्सिकॉन भी प्रदान कर सकते हैं, यही वह है जो हमने अपने शोध में किया था। वे प्राकृतिक अंग्रेजी पाठ को पार्स और प्रारूपित करने के लिए वेब सर्विसेज प्रदान करते हैं।

8

`The "million word" hoax rolls along ', मैं ;-)

देखना कैसे अपने शब्द सूची बनाने के लिए लंबे समय तक:, एक संज्ञा दी इसे करने के लिए निम्न में से किसी जोड़ें: गैर, छद्म, अर्द्ध, -arific, - गीक, ...; ।। http://dbpedia.org

2

सीधे प्रयास करें विकिपीडिया के अर्क के लिए mutatis mutandis लेकिन अगर शब्दों के सभी रूपों में शामिल हैं तो यह काफी बढ़ जाता है।

जिसके अनुसार, क्यों एक अपने आप को नहीं? एक विकिपीडिया डंप और यह पार्स और सभी टोकन आपके सामने आने वाली का एक सेट बनाने के लिए।

ग़लत वर्तनी की अपेक्षा हालांकि- सभी चीजों की तरह सी गड़बड़ स्रोतों में त्रुटियां होंगी।

0

बहुत अधिक आधार शब्द (171k इस- oxford के अनुसार नहीं हैं कौन सा मैं क्या याद महाविद्यालय में मेरी सीएस कार्यक्रम में कहा जा रहा है : क्रियायें आदि

संबंधित मुद्दे