में एक .PDF फ़ाइल सूचकांक करने के लिए। मैं इंडेक्स बनाने पर बहुत बुनियादी ट्यूटोरियल से गुजर चुका हूं। मैं एक अनुक्रमण की अवधारणा को समझता हूं। मैं ElasticSearch को एक पीडीएफ फ़ाइल के अंदर खोजना चाहता हूं। इंडेक्स बनाने की मेरी समझ के आधार पर, ऐसा लगता है कि मुझे पीडीएफ फ़ाइल पढ़ने और अनुक्रमण के लिए सभी कीवर्ड निकालने की आवश्यकता है। लेकिन, मुझे समझ में नहीं आता कि मुझे किन कदमों का पालन करना है। मैं कीवर्ड निकालने के लिए पीएफडी फ़ाइल कैसे पढ़ूं।मैं कैसे ElasticSearch लिए नया हूँ ElasticSearch
उत्तर
आप elasticsearch-mapper-attachments plugin की जाँच करने के लिए, के रूप में यह बहुत आप को प्राप्त है कि तुम क्या जरूरत है मदद करने के लिए की संभावना है की जरूरत है।
Elasticsearch नक्शाकार लगाव प्लगइन और उपयोग कोड के लिए इसी तरह स्थापित करें:
public String indexDocument(String filePath, DataDTO dto) {
IndexResponse response = null;
try {
response = this.prepareIndexRequest("collectionName").setId(dto.getId())
.setSource(jsonBuilder().startObject()
.field("file", Base64.encodeFromFile(filePath))
.endObject()).setRefresh(true).execute().actionGet();
} catch (ElasticsearchException e) {
//
} catch (IOException e) {
//
}
return response.getId();
}
ऐसा लगता है कि elasticsearch-नक्शाकार लगाव प्लगइन 5.0.0 (जारी अक्टूबर 26 वें, 2016) में मान्य नहीं है। documentation एक स्थानापन्न के रूप Ingest Attachment Processor Plugin उपयोग करने की सलाह।
स्थापित करने के लिए:
sudo bin/elasticsearch-plugin install ingest-attachment
कैसे आपूर्ति करें अनुलग्नक प्लगइन का उपयोग करने के बारे में जानकारी के लिए How to index a pdf file in Elasticsearch 5.0.0 with ingest-attachment plugin? देखें।
यह आज (2016/11/18) के रूप में सही जवाब है। elasticsearch-mapper-attachments पुराना है और elasticsearch> = 5.0.0 के साथ काम नहीं करता है लेकिन 'ingest-attachment' एक आकर्षण की तरह काम करता है। –
अपने प्रोजेक्ट के लिए मैं भी खोज की जा मेरे स्थानीय .PDF फ़ाइलों करना था। मैं निम्नलिखित कर यह उपलब्धि हासिल:
- Apache Tika का उपयोग कर .PDF फ़ाइल से निकाला गया डेटा, मैं अपाचे टीका इस्तेमाल किया क्योंकि यह मुझे एक ही पाइप लाइन के साथ अलग अलग एक्सटेंशन से डेटा निकालने के लिए स्वतंत्रता देता है।
- अनुक्रमण के लिए अपाचे टीका के उत्पादन में प्रयोग किया जाता है।
आमतौर पर मेरी सूचकांक देखा की तरह:
{ फ़ाइल नाम: "FILENAME", filebody: "अपाचे टीका से निकाला गया डेटा" }
वहाँ कई अलग अलग समाधान वहाँ बाहर हैं जैसा कि यहां बताया गया है Elasticsearch mapper-attachment plugin का उपयोग करना भी एक अच्छा समाधान है। मैंने इस दृष्टिकोण का चयन किया क्योंकि मैं बड़ी फाइलों और विभिन्न एक्सटेंशन के साथ काम करना चाहता था।
उल्लेख elasticsearch-नक्शाकार लगाव प्लगइन के रूप में पदावनत किया गया है और इसके बजाय निगलना लगाव प्लगइन
https://www.elastic.co/guide/en/elasticsearch/plugins/current/ingest-attachment.html
- 1. मैं ElasticSearch
- 2. Elasticsearch
- 3. Elasticsearch
- 4. elasticsearch
- 5. elasticsearch
- 6. ElasticSearch
- 7. ElasticSearch
- 8. elasticsearch
- 9. ElasticSearch
- 10. elasticsearch
- 11. elasticsearch
- 12. Elasticsearch
- 13. ElasticSearch
- 14. elasticsearch
- 15. elasticsearch
- 16. Elasticsearch
- 17. Elasticsearch
- 18. Elasticsearch
- 19. elasticsearch
- 20. ElasticSearch
- 21. elasticsearch
- 22. elasticsearch
- 23. elasticsearch
- 24. ElasticSearch
- 25. ElasticSearch
- 26. Elasticsearch
- 27. ElasticSearch
- 28. elasticsearch
- 29. Elasticsearch
- 30. ElasticSearch
आप शायद [elasticsearch-नक्शाकार-संलग्नक प्लगइन] की जाँच करने की जरूरत है इस्तेमाल किया जा सकता (https://github.com/elastic/elasticsearch-mapper-attachments), यह वही करना चाहिए जो आप उम्मीद करते हैं। – Val
धन्यवाद। क्या आप इसे अपने उत्तर के रूप में पोस्ट कर सकते हैं, ताकि मैं इसे स्वीकार कर सकूं। – KurioZ7
आप आउट-ऑफ-द-बॉक्स समाधान चाहते हैं तो आप की कोशिश कर सकते [अंबर] (https://ambar.cloud) – SochiX