text-mining

5गर्मी

1उत्तर

का उपयोग कर दस्तावेज़-फीचर मैट्रिक्स में फ़ीचर चयन प्राकृतिक भाषा प्रसंस्करण का उपयोग करके मैं टेक्स्टिंग खनन कर रहा हूं। मैंने दस्तावेज़-फीचर मैट्रिक्स (डीएफएम) उत्पन्न करने के लिए quanteda पैकेज का

14गर्मी

1उत्तर

कैसे (संदर्भ, उत्तर)

मैं Gensim Doc2Vec मॉडल का उपयोग कर रहा हूँ, एक ग्राहक सहायता बातचीत के कुछ भागों क्लस्टर की कोशिश कर के जोड़े में बातचीत डेटा को तोड़ने के लिए। मेरा लक्ष्य समर्थन टीम को एक ऑटो प्रतिक्रिया सुझाव देना

5गर्मी

2उत्तर

आर

का उपयोग कर पीडीएफ तालिका को पहचानें मैं कुछ पीडीएफ रिपोर्ट के अंदर तालिकाओं से डेटा निकालने की कोशिश कर रहा हूं। मैंने पीडीएफटोल्स और इसी तरह के पैकेज का उपयोग करके कुछ उदाहरण देखे हैं, मैं पाठ प्राप

6गर्मी

1उत्तर

किसी दिए गए समयावधि में सभी subreddit पदों को कैसे स्क्रैप करें

मेरे पास 2014-11-01 और 2015-10-31 के बीच बिटकॉइन सब्रेडडिट में सभी पोस्ट को स्क्रैप करने के लिए एक फ़ंक्शन है। हालांकि, मैं केवल 9 0 9 पदों को निकालने में सक्षम हूं जो केवल 25 अक्टूबर को वापस आते हैं।

9गर्मी

4उत्तर

उसी तरह से स्थान से अलग शब्दों का इलाज करें

मैं एक ही समय में कई दस्तावेज़ों में होने वाले शब्दों को खोजने का प्रयास कर रहा हूं। हमें एक उदाहरण लें। doc1: "this is a document about milkyway" doc2: "milky way is huge" आप 2 दस्तावेजों ऊपर में

5गर्मी

2उत्तर

SVD देना नहीं है मुझे महत्व देता है मैं चाहता हूँ

मैं एक कागज "एलएसए के लिए एक परिचय" कहा जाता है में एक उदाहरण को दोहराने के लिए कोशिश कर रहा हूँ: An introduction to LSA उदाहरण वे निम्नलिखित अवधि-दस्तावेज़ में मैट्रिक्स: और फिर वे SVD लागू करते हैं

6गर्मी

2उत्तर

आर में टीएम पैकेज का उपयोग कर स्टेमिंग शब्द ठीक से काम नहीं करते हैं?

मैं कुछ टेक्स्ट खनन (पीसीए, एचसी, के-मीन्स) कर रहा हूं और अब तक मैंने सब कुछ ठीक से कोड करने में कामयाब रहा है। हालांकि, एक छोटी सी गड़बड़ी है जिसे मैं ठीक करना चाहता हूं। जब मैं अपने कॉर्पस को रोकने

5गर्मी

4उत्तर

आर

मैं अन्य इसी तरह के सवाल है कि यहां पोस्ट किया गया है (जैसे this) को देखा है, लेकिन समस्या बनी रहती है में एक कोर्पस डाटा को फ्रेम रूपांतरित करने में असमर्थ। मैं टेक्स्ट का डेटा है, जो मैं स्टेम करने

6गर्मी

3उत्तर

उपयोगकर्ता द्वारा प्रदान किए गए देश के नाम के लिए सही देश का नाम कैसे भविष्यवाणी करें?

मैं अपने डेटा पर कुछ डेटा ट्यूनिंग करने की योजना बना रहा हूं। स्थिति-मेरे पास एक डेटा है जिसमें फ़ील्ड country है। इसमें उपयोगकर्ता इनपुट देश के नाम शामिल हैं (इसमें संयुक्त राज्य अमेरिका/यूएसए/संयुक्

7गर्मी

3उत्तर

कुशल जैककार्ड समानता DocumentTermMatrix

मैं tm::DocumentTermMatrix के दस्तावेज़ों के बीच जैककार्ड समानता की कुशलतापूर्वक गणना करने का एक तरीका चाहता हूं। मैं स्लैम पैकेज के माध्यम से कोसाइन समानता के लिए कुछ ऐसा कर सकता हूं जैसा कि this ans