nltk

    5गर्मी

    1उत्तर

    का उपयोग कर ओसीआर से अनजान शब्दों को टोकन करना I पीडीएफ फाइलों से निकाले गए कुछ पाठ को संसाधित करने के लिए एनएलटीके का उपयोग कर रहा हूं। मैं टेक्स्ट को ज्यादातर बरकरार रख सकता हूं, लेकिन ऐसे कई उदाहरण

    5गर्मी

    2उत्तर

    मैं पाइथन में एनएलटीके से टोकनेज़र का उपयोग कर रहा हूं। पहले से ही मंच पर विराम चिह्नों को हटाने के लिए उत्तर के पूरे समूह हैं। हालांकि, उनमें से कोई भी निम्न समस्याओं में से सभी को एक साथ संबोधित करे

    12गर्मी

    2उत्तर

    मेरे पास यह उदाहरण है और मैं जानना चाहता हूं कि यह परिणाम कैसे प्राप्त करें। मैं पाठ है और मैं यह तो tokenize मैं बाइग्राम और trigram और fourgram कि import nltk from nltk import word_tokenize from n

    8गर्मी

    1उत्तर

    मैं दस्तावेज़ों को वर्गीकृत करने के लिए एनएलटीके का उपयोग कर रहा हूं - जिसमें 10 लेबल होते हैं, जिसमें 10 प्रकार के दस्तावेज़ होते हैं। पाठ निष्कर्षण के लिए, मैं, पाठ (विराम चिह्न हटाने, HTML टैग हटान

    12गर्मी

    3उत्तर

    का उपयोग कर अर्थपूर्ण भूमिका लेबलिंग मेरे पास वाक्यों की एक सूची है और मैं प्रत्येक वाक्य का विश्लेषण करना चाहता हूं और उस वाक्य के भीतर अर्थपूर्ण भूमिकाओं की पहचान करना चाहता हूं। मैं उसको कैसे करू?

    7गर्मी

    2उत्तर

    मैं पहली बार नाम पहचान इकाई की कोशिश कर रहा हूं। मैं उन सुविधाओं की तलाश में हूं जो अंग्रेजी नाम चुनेंगे। मैं coursera nlp course (सप्ताह तीन) और nltk book में उल्लिखित विधियों का उपयोग कर रहा हूं। दू

    5गर्मी

    1उत्तर

    मैंने अभी अपना पहला एनएलटीके प्रोजेक्ट शुरू किया और उचित सेटअप के बारे में उलझन में हूं। मुझे पंकट टोकनाइज़र और अधिकतम पॉज़ टैगर जैसे कई संसाधनों की आवश्यकता है। मैंने स्वयं उन्हें GUI nltk.download()

    11गर्मी

    3उत्तर

    मैंने स्टेमिंग के लिए सभी एनएलटीके तरीकों की कोशिश की लेकिन यह मुझे कुछ शब्दों के साथ अजीब परिणाम देता है। उदाहरण यह शब्द जब यह ऐसा नहीं करना चाहिए के अंत अक्सर कटौती: poodle => poodl लेख articl या बह

    5गर्मी

    3उत्तर

    क्या पाइथन 2.7 में NLTK का उपयोग करके शब्द प्राप्त करने के लिए कोई तरीका नहीं है और अतिरिक्त प्रारूपण नहीं है जिसमें "synset" और कोष्ठक और "n.01" आदि शामिल हैं? उदाहरण के लिए अगर मैं wn.synsets('dog'

    29गर्मी

    2उत्तर

    मैं बीएस 4 का उपयोग कर सभी एचटीएमएल/जावास्क्रिप्ट को हटाने की कोशिश कर रहा हूं, हालांकि, यह जावास्क्रिप्ट से छुटकारा नहीं पाता है। मैं अभी भी पाठ के साथ वहां देखता हूं। मैं इसके पास कैसे आ सकता हूं? म