आर

2013-10-26 4 views
8

से पीडीएफ मेटाडेटा को कैसे पढ़ा जाए, जिज्ञासा का हमारा, पीडीएफ मेटाडेटा पढ़ने के लिए एक तरीका है - जैसे नीचे दिखाए गए जानकारी - आर से?आर

मैं वर्तमान प्रश्न आधार में [r] pdf metadata से खोज करके इसके बारे में कुछ भी नहीं कर सका। कोई संकेतक बहुत स्वागत है!

enter image description here

+4

'readPDF' फॉर्म tm पैकेज पर एक नज़र डालें। –

+0

धन्यवाद - शानदार दिखता है लेकिन उपयोग करने के लिए स्पष्ट नहीं है, जब मैं कोड को निष्कर्ष निकालने का प्रबंधन करता हूं, उदाहरण के लिए, सामग्री निर्माता। –

+1

'file.info() 'आपको उस जानकारी में से कुछ मिलेगा – GSee

उत्तर

4

मैं एक शुद्ध आर तरीका यह है के बारे में सोच नहीं सकते हैं, लेकिन आप शायद अपने पसंदीदा पीडीएफ कमांड लाइन उपकरण (उदाहरण, the PDF toolkit, PDFtk के लिए स्थापित करें और उपयोग करें कि कम से कम कुछ प्राप्त करने के लिए कर सकते हैं डेटा आप के लिए देख रहे हैं।

निम्नलिखित pdftk का उपयोग कर एक बुनियादी उदाहरण है। यह मानता है कि pdftk अपने रास्ते में पहुँचा जा सकता है।

x <- getwd() ## I'll run this example in a tempdir to keep things clean 
setwd(tempdir()) 
list.files(pattern="*.txt$|*.pdf$") 
# character(0) 

pdf(file = "SomeOutputFile.pdf") 
plot(rnorm(100)) 
dev.off() 

system("pdftk SomeOutputFile.pdf data_dump output SomeOutputFile.txt") 
list.files(pattern="*.txt$|*.pdf$") 
# [1] "SomeOutputFile.pdf" "SomeOutputFile.txt" 

readLines("SomeOutputFile.txt") 
# [1] "InfoBegin"     "InfoKey: Creator"    
# [3] "InfoValue: R"     "InfoBegin"     
# [5] "InfoKey: Title"    "InfoValue: R Graphics Output" 
# [7] "InfoBegin"     "InfoKey: Producer"   
# [9] "InfoValue: R 3.0.1"   "InfoBegin"     
# [11] "InfoKey: ModDate"    "InfoValue: D:20131102170720" 
# [13] "InfoBegin"     "InfoKey: CreationDate"  
# [15] "InfoValue: D:20131102170720" "NumberOfPages: 1"    
# [17] "PageMediaBegin"    "PageMediaNumber: 1"   
# [19] "PageMediaRotation: 0"   "PageMediaRect: 0 0 504 504" 
# [21] "PageMediaDimensions: 504 504" 

setwd(x) 

मैं क्या अन्य विकल्प वहाँ w निर्दिष्ट करने के लिए कर रहे हैं पर गौर करता हूँ टोपी मेटाडाटा निकाला जाता है, और देखें कि इस जानकारी को उस फ़ॉर्म में पार्स करने का एक सुविधाजनक तरीका है जो आपके लिए अधिक उपयोगी है।