2009-10-20 8 views
8

मैं कुछ यादृच्छिक पाठ उत्पन्न करना चाहता हूं।अंग्रेजी भाषा में लगभग सभी शब्दों की एक सूची कहां प्राप्त करें?

मैं एक बुनियादी जावा प्रोग्राम लिखने की कोशिश की,

int nowords = r.nextInt(2000); 
     int i, j; 

     for (i = 0; i < nowords; i++) { 
      int lengthofword = r.nextInt(10) + 2; 
      for (j = 0; j < lengthofword; j++) { 
       int ch = r.nextInt(26); 
       System.out.print(alphabet[ch]); 
      } 
      System.out.print(" "); 
     } 

और परिणाम है की तरह कुछ:

tafawc flnqhabhv mqceuoqy rttzckzqa bdyxzod zbxweclvia wegmxvuoqez ijwauhmzw joxm zvphbs ogpjyip qxoymxkxv yrfoifig fbhecph izxcyfma xarzse srwic jgi fkbcdcydpz qpdvsz rqhjieqno fmelfmtgqe qozen jlxtg vfxd lkmkrksgw ytuaduknsl जाने Ao बी.एम. lsfjednsa qouinii yrwzerdck yb kszttly zmwflwevyix KDG qpnkzuijva SSAU वाईसी wxews drqsdwbc glxb gokunixldec lznuwdvksx zkzhsirruxc sqplhv fzixywkaft fqdkumfgddn bcqp oiwwbo emhk केवी qhm xkjp kacbmcd ojh wzvukx oztbexkf lylyv kdspqpa zbykj lnprtlxp वायुसेना BNE ryamumcg oyhldwdlq bqyfxrszuf wyrijnr ysnefsz lhhazrdwsev TLL ikibsnpqwg ntzlgc aahfsdeups rushos ihqzyucd mjorscchszm tuppz hxi ssumrevg

यदि पाठ इसके बजाय कम से कम पठनीय था तो यह सहायक होगा।

मैं अंग्रेजी शब्दों का उपयोग करने और वाक्यों में वाक्यों में से चुनने के बारे में सोच रहा हूं। मुझे अंग्रेजी भाषा में शब्दों की एक बड़ी सूची कहां मिल सकती है?

+1

क्या आपने एल्वन माना है? – random

+0

क्या आपको स्पैम फ़िल्टर बाढ़ करने की आवश्यकता है, या बस जगह भरने के लिए कुछ पाठ उत्पन्न करना है? –

उत्तर

6

प्राकृतिक भाषा प्रसंस्करण के लिए सोने का मानक वर्डनेट http://wordnet.princeton.edu/ पर है। इसमें एक सक्रिय उपयोगकर्ता समूह है, जिसमें शब्दों के साथ जुड़े अर्थशास्त्र और वाक्यविन्यास हैं, और अन्य एनएलपी उपकरणों के साथ इंटरफेस हैं। यदि आप शब्दों के साथ गणना करने की सोच रहे हैं तो आपको निश्चित रूप से एक नज़र रखना चाहिए।

हालांकि यादृच्छिक रूप से शब्दों का चयन करने से उपयोगी वाक्य उत्पन्न नहीं होता है और मुझे संदेह है कि आप परिणामों से निराश होंगे। ओपनएनएलपी जैसे टूलकिट पर नज़र डालें, जहां कई टूल हैं जिनमें अंश-भाषण (पीओएस) शामिल है, जिसे आपको निश्चित रूप से आवश्यकता होगी।

यहां तक ​​कि जब आपके पास वाक्यों में वैध वाक्यविन्यास हो, तो आपको चॉम्स्की और अन्य लोगों के काम को पढ़ने की आवश्यकता होगी। उनके "रंगहीन हरे विचारों को उग्रता से सोते हैं" http://en.wikipedia.org/wiki/Colorless_green_ideas_sleep_furiously समस्या को दर्शाता है।

2

Wordlist project पाया कुछ सूचियों है। मुझे लगता है कि एक पूरी सूची खोजना मुश्किल है, प्राकृतिक भाषाएं इस तरह काम नहीं करती हैं।

1

CUVPlus एक अच्छी मशीन पठनीय शब्दकोश है (लिंक सीधे डाउनलोड पेज पर जाता है)। यह "केवल शोध उद्देश्यों के लिए" (गैर-वाणिज्यिक लाइसेंस) है। इसमें संज्ञाएं, क्रियाएं, आदि में वर्गीकरण शामिल है, इसलिए शब्दों की सूची की तुलना में यादृच्छिक वाक्यों को उत्पन्न करने के लिए यह अधिक उपयोगी हो सकता है।

0

आप "Lorem Ipsum" देखना चाहते हैं। जावा में इसे उत्पन्न करने के लिए कुछ प्रकार की लाइब्रेरी होने के बाध्य हैं।

4

मैं एक लोरेम इप्सम जनरेटर का उपयोग करने का सुझाव दूंगा। जावा के लिए this on है। ऑनलाइन संस्करण here उपलब्ध है।

0

स्क्रैबल शब्दसूची एक लायक हो सकती है। दो भिन्नताएं हैं: SOWPODS ( यूएसए और कनाडा को छोड़कर) और TWL (यूएस और कनाडा के लिए)। दोनों शब्द सूचियां विभिन्न साइटों से आसानी से डाउनलोड करने योग्य हैं।

हालांकि, आपको जो चाहिए, उसके लिए आप Lorem Ipsum (उर्फ 'होंठम') का उपयोग करने पर विचार करना चाह सकते हैं। एक लोकप्रिय लिप्सम जनरेटर is here, हालांकि कई अन्य हैं।

5

"शून्य पाठ" पैदा करने के लिए साइट http://www.lipsum.com/ पर Lorem Ipsum के लिए चेक

वहाँ शुद्ध http://loremipsum.sourceforge.net/

संदर्भ पाठ पर जनरेटर की बहुत हैं: Lorem Ipsum मातम AMET बैठते हैं, consectetur adipiscing elit। Sed consectetur viverra fringilla। Turpis bibendum placerat पर lectus पर donec। विवामस गैर निब मॉरीस। Nulla मेटस मेटस, sollicitudin nec egestas आईडी, nisl में fermentum। निस्संदेह में Pellentesque। एनसी सेम में, एसी imperdiet lectus में। Pellentescor tortor turpis, sagittis vel facilisis tristique, tortor में कर्सर। मॉरीस गैर नेक मैग्ना, vel dignissim sem। Suspendisse interdum diam tempus dui mattis molestie। Vulputate ipsum पर, मॉरीस urna में donec। Sed sodales venenatis quam non tincidunt।

1

यदि आप एक linux पीसी कोशिश/usr/share/dict

0

जब मैं 12 वीं कक्षा में ऐसा किया, वापस 1972 में, मैंने बनाया पर हैं अंग्रेजी में सभी संभव दूसरे अक्षरों की एक सूची। दूसरे शब्दों में, 26 तारों का एक वेक्टर। पहली स्ट्रिंग सभी संभावित पत्र थे जो ए का पालन कर सकते थे, दूसरा दूसरा संभावित पत्र था जो बी का पालन कर सकता था, और इसी तरह।

मैंने प्रत्येक संभव दो अक्षर अनुक्रम के साथ एक शब्द के बारे में सोचने की कोशिश करके सूचियां बनाईं, और यदि किसी के बारे में सोचना बहुत मुश्किल था, तो मैंने इसे शामिल नहीं किया। इसलिए मैं अंग्रेजी में सभी सामान्य दो अक्षर अनुक्रमों के साथ समाप्त हुआ।

मुझे याद है कि जेनरेट किया गया टेक्स्ट उल्लेखनीय था, और इसमें अक्सर वास्तविक शब्द या लगभग वास्तविक शब्द थे।

मैं एचसी 2100 ए मिनीकंप्यूटर के लिए मूल स्मृति के 8k के साथ बेसिक में ओसीआर मार्क सेंसर कार्ड पर लिखा गया था।

मैं के बाद से सीखा है कि आप आमतौर पर पत्र तीनो की आवृत्ति का परीक्षण करके एक भाषा की पहचान कर सकते है, इसलिए मुझे लगता है कि यदि आपको एक और स्तर के लिए ऐसा करते हैं, आप को बहुत से अधिक वास्तविक शब्द खत्म हो जाएगा, और एक अंग्रेजी के कुछ रूपों के लिए बहुत अधिक गहरी समानता।

संबंधित मुद्दे