2012-10-11 16 views
6

मैं स्टैनफोर्ड पार्सर का उपयोग कर जावा क्लास में एक स्ट्रिंग को कैसे टोकन कर सकता हूं?स्टैनफोर्ड nlp tokenizer

मैं केवल दस्तावेज प्रोसेसर और पीटीबीटोकेनाइज़र के उदाहरणों को बाहरी फ़ाइल से पाठ लेने में सक्षम हूं।

DocumentPreprocessor dp = new DocumentPreprocessor("hello.txt"); 
    for (List sentence : dp) { 
    System.out.println(sentence); 
    } 
    // option #2: By token 

    PTBTokenizer ptbt = new PTBTokenizer(new FileReader("hello.txt"), 
      new CoreLabelTokenFactory(), ""); 
    for (CoreLabel label; ptbt.hasNext();) { 
    label = (CoreLabel) ptbt.next(); 
    System.out.println(label); 
    } 

धन्यवाद।

उत्तर

6

PTBTokenizer निर्माता एक java.io.Reader लेता है, तो आप अपने पाठ पार्स करने के लिए एक StringReader उपयोग कर सकते हैं

+0

आप निर्माता के लिए कोड लिख सकते हैं और कैसे मैं इस के साथ रीडर का उपयोग कर सकते हैं। धन्यवाद – Naveen

+4

कभी भी ध्यान न दें, यह मुझे टोकन दे रहा है: सूची rawWords = tokenizerFactory.getTokenizer (नया स्ट्रिंग रीडर (वाक्य))। टोकननाइज़(); System.out.println (rawWords.get (0) .value()); – Naveen

+1

मैंने नेटबीन खोलने के लिए कुछ समय निकाला, एक नई परियोजना तैयार की, आदि ... फिर ब्लैकआउट ... अरे ... – CapelliC

संबंधित मुद्दे