2016-01-18 9 views
13

में एक .PDF फ़ाइल सूचकांक करने के लिए। मैं इंडेक्स बनाने पर बहुत बुनियादी ट्यूटोरियल से गुजर चुका हूं। मैं एक अनुक्रमण की अवधारणा को समझता हूं। मैं ElasticSearch को एक पीडीएफ फ़ाइल के अंदर खोजना चाहता हूं। इंडेक्स बनाने की मेरी समझ के आधार पर, ऐसा लगता है कि मुझे पीडीएफ फ़ाइल पढ़ने और अनुक्रमण के लिए सभी कीवर्ड निकालने की आवश्यकता है। लेकिन, मुझे समझ में नहीं आता कि मुझे किन कदमों का पालन करना है। मैं कीवर्ड निकालने के लिए पीएफडी फ़ाइल कैसे पढ़ूं।मैं कैसे ElasticSearch लिए नया हूँ ElasticSearch

+2

आप शायद [elasticsearch-नक्शाकार-संलग्नक प्लगइन] की जाँच करने की जरूरत है इस्तेमाल किया जा सकता (https://github.com/elastic/elasticsearch-mapper-attachments), यह वही करना चाहिए जो आप उम्मीद करते हैं। – Val

+0

धन्यवाद। क्या आप इसे अपने उत्तर के रूप में पोस्ट कर सकते हैं, ताकि मैं इसे स्वीकार कर सकूं। – KurioZ7

+0

आप आउट-ऑफ-द-बॉक्स समाधान चाहते हैं तो आप की कोशिश कर सकते [अंबर] (https://ambar.cloud) – SochiX

उत्तर

8

आप elasticsearch-mapper-attachments plugin की जाँच करने के लिए, के रूप में यह बहुत आप को प्राप्त है कि तुम क्या जरूरत है मदद करने के लिए की संभावना है की जरूरत है।

6

Elasticsearch नक्शाकार लगाव प्लगइन और उपयोग कोड के लिए इसी तरह स्थापित करें:

public String indexDocument(String filePath, DataDTO dto) { 
     IndexResponse response = null; 
     try { 
      response = this.prepareIndexRequest("collectionName").setId(dto.getId()) 
        .setSource(jsonBuilder().startObject() 
        .field("file", Base64.encodeFromFile(filePath)) 
        .endObject()).setRefresh(true).execute().actionGet(); 
     } catch (ElasticsearchException e) { 
      // 
     } catch (IOException e) { 
      // 
     } 
    return response.getId(); 
} 
28

ऐसा लगता है कि elasticsearch-नक्शाकार लगाव प्लगइन 5.0.0 (जारी अक्टूबर 26 वें, 2016) में मान्य नहीं है। documentation एक स्थानापन्न के रूप Ingest Attachment Processor Plugin उपयोग करने की सलाह।

स्थापित करने के लिए:

sudo bin/elasticsearch-plugin install ingest-attachment 

कैसे आपूर्ति करें अनुलग्नक प्लगइन का उपयोग करने के बारे में जानकारी के लिए How to index a pdf file in Elasticsearch 5.0.0 with ingest-attachment plugin? देखें।

+3

यह आज (2016/11/18) के रूप में सही जवाब है। elasticsearch-mapper-attachments पुराना है और elasticsearch> = 5.0.0 के साथ काम नहीं करता है लेकिन 'ingest-attachment' एक आकर्षण की तरह काम करता है। –

0

अपने प्रोजेक्ट के लिए मैं भी खोज की जा मेरे स्थानीय .PDF फ़ाइलों करना था। मैं निम्नलिखित कर यह उपलब्धि हासिल:

  1. Apache Tika का उपयोग कर .PDF फ़ाइल से निकाला गया डेटा, मैं अपाचे टीका इस्तेमाल किया क्योंकि यह मुझे एक ही पाइप लाइन के साथ अलग अलग एक्सटेंशन से डेटा निकालने के लिए स्वतंत्रता देता है।
  2. अनुक्रमण के लिए अपाचे टीका के उत्पादन में प्रयोग किया जाता है।

आमतौर पर मेरी सूचकांक देखा की तरह:

{ फ़ाइल नाम: "FILENAME", filebody: "अपाचे टीका से निकाला गया डेटा" }


वहाँ कई अलग अलग समाधान वहाँ बाहर हैं जैसा कि यहां बताया गया है Elasticsearch mapper-attachment plugin का उपयोग करना भी एक अच्छा समाधान है। मैंने इस दृष्टिकोण का चयन किया क्योंकि मैं बड़ी फाइलों और विभिन्न एक्सटेंशन के साथ काम करना चाहता था।