2009-09-29 16 views
13

28 सितंबर, 200 9 को Apache POI project संस्करण 3.5 जारी किया गया जो आधिकारिक तौर पर ओओएक्सएमएल प्रारूपों का समर्थन करता है जो कार्यालय 2007 में शुरू किया गया था, जैसे कि डॉक्सएक्स और एक्सएलएसएक्स।Apache POI 3.5 में नए OOXML समर्थन का उपयोग करके एक DOCX फ़ाइल से सादा पाठ निकालने के लिए कैसे?

, सादे पाठ में एक DOCX फाइल की सामग्री को निकालने के लिए किसी भी शैली या प्रारूपण अनदेखी के लिए एक कोड नमूना प्रदान करें।

मैं इस पूछ रहा हूँ क्योंकि मैं नई OOXML समर्थन को कवर किसी भी Apache POI उदाहरण खोजने में असमर्थ किया गया है।

उत्तर

16

यह मेरे लिए काम किया। सुनिश्चित करें कि आप आवश्यक जार (xmlbeans उन्नयन, आदि)

public String extractText(InputStream in) throws Exception { 
    XWPFDocument doc = new XWPFDocument(in); 
    XWPFWordExtractor ex = new XWPFWordExtractor(doc); 
    String text = ex.getText(); 
    return text; 
} 
6

यह

POITextExtractor poitex = ExtractorFactory.createExtractor (में) अधिक सामान्य है जोड़ने;

वापसी poitex.getText();

+1

मैं सहमत हूं। अधिक सामान्य पाठ निष्कर्षण को कवर करने वाले एक अच्छे उत्तर के लिए धन्यवाद। काश मैं दोनों को स्वीकार कर सकता हूं। – rcampbell

संबंधित मुद्दे