बाद स्यूडोकोड चाल करना चाहिए:
build a map<word, count>
build a tokenizer that gives you a word per iteration
for each word*,
if word in map, increment its count
otherwise add with count = 1
sort words by count
for each of the first 50 words,
output word, frequency = count/total_words
यह अनिवार्य रूप से हे (एन) है, और क्या jpabluz का सुझाव दिया। हालांकि, अगर आप किसी भी प्रकार के "जंगली" पाठ पर इसका उपयोग करने जा रहे हैं, तो आपको बहुत सारे कचरे का पता चल जाएगा: अपरकेस/लोअरकेस, विराम चिह्न, यूआरएल, स्टॉप-शब्द जैसे 'द' या 'और' बहुत अधिक गणना, एक ही शब्द के कई बदलाव ...ऐसा करने का सही तरीका सभी शब्दों को कम करना है, सभी विराम चिह्न (और यूआरएल जैसी चीजें) को हटाएं, और उपरोक्त छद्म कोड में तारांकन के साथ चिह्नित बिंदु पर स्टॉप-वर्ड हटाने और स्टेमिंग जोड़ें।
क्या यह होमवर्क है? – XpiritO
होमवर्क टिप्पणी के लिए संदिग्ध। –
यह एक जावा प्रश्न की तुलना में एक एल्गोरिदमिक प्रश्न की तरह लगता है। –