2010-01-19 16 views
5

तो मैं फ़ाइलों है ....क्या एमएस ऑफिस फाइलों और/या PHP के साथ पीडीएफ से मेटा जानकारी निकालना संभव है?

.doc 
.docx 
.xls 
.xlsx 
and .pdf 

कि मेरे सर्वर पर कर रहे हैं।

क्या यह संभव है (और यदि यह है, कैसे) PHP का उपयोग कर उन फ़ाइलों से मेटा डेटा निकालने के लिए? मैं लेखक, कीवर्ड, शीर्षक, आदि जैसे चीजों की तलाश में हूं ...

कार्यालय दस्तावेजों में यह दस्तावेज़ गुणों के साथ संग्रहीत जानकारी है (फ़ाइल ... गुण ... 2003 के लिए सारांश, तैयार करें .. 2007 के लिए प्रकृति)।

पीडीएफ में यह दस्तावेज़ गुणों में मिली जानकारी है।

यह विंडोज सर्वर पर नहीं है।

+0

PHP में सब कुछ संभव है, यह ट्यूरिंग पूर्ण है। ऐसा करने के लिए एक पोर्टेबल और आसान तरीका हालांकि यद्यपि एक और सवाल है। – Earlz

उत्तर

2

मैंने कुछ साल पहले लिनक्स सिस्टम पर XPDF का उपयोग करके मेटा की जानकारी निकालने में कामयाब रहे हैं। आजकल, मैं कहूंगा कि Zend_PDF आपकी सबसे अच्छी शर्त है। इसे स्वयं इस्तेमाल नहीं किया है लेकिन आपको अच्छा लगता है और आपको जो भी चाहिए वह वादा करता है। ऐसा लगता है कि कोई लाइब्रेरी निर्भरता नहीं है।

शब्द डीओसीएस के लिए, यदि आपको कोई बेहतर तरीका नहीं मिलता है, तो ओपनऑफिस सर्वर इंस्टेंस/कमांड लाइन में प्लग करें और फ़ाइलों को ओडीटी में कनवर्ट करें, जो एक्सएमएल और पर्सिएबल है। यदि प्रति मैक्रो डेटा मेटा डेटा निकालना संभव नहीं है - यह होना चाहिए, लेकिन मुझे नहीं पता कि यह कितना काम करता है। This OpenOffice Forum entry स्वचालित रूपांतरण के लिए शुरुआती बिंदुओं का एक टन देता है।

... एक्स प्रारूप कुछ प्रकार के एक्सएमएल हैं, इसलिए उन्हें मेटा डेटा लाने के लिए आसानी से संभव होना चाहिए। वैकल्पिक रूप से, यदि आप मेटा डेटा को ट्रांसपोर्ट करते हैं, तो आप ओपनऑफिस के रूपांतरण फ़िल्टर का भी उपयोग कर सकते हैं।

+0

अब तक, बहुत अच्छा - Zend_PDF ने पीडीएफ के लिए चाल की है। - अगली अप कार्यालय डॉक्स है। – Jason

+1

अच्छा! हमें अपडेट रखना सुनिश्चित करें, मुझे यकीन है कि यह बहुत से लोगों के लिए आसान होगा। शायद यह अतिरिक्त ब्याज का है, या आपको कुछ पॉइंटर्स दे सकता है। http://meta-extractor.sourceforge.net/ –

संबंधित मुद्दे