मैं एक शुद्ध आर तरीका यह है के बारे में सोच नहीं सकते हैं, लेकिन आप शायद अपने पसंदीदा पीडीएफ कमांड लाइन उपकरण (उदाहरण, the PDF toolkit, PDFtk के लिए स्थापित करें और उपयोग करें कि कम से कम कुछ प्राप्त करने के लिए कर सकते हैं डेटा आप के लिए देख रहे हैं।
निम्नलिखित pdftk का उपयोग कर एक बुनियादी उदाहरण है। यह मानता है कि pdftk
अपने रास्ते में पहुँचा जा सकता है।
x <- getwd() ## I'll run this example in a tempdir to keep things clean
setwd(tempdir())
list.files(pattern="*.txt$|*.pdf$")
# character(0)
pdf(file = "SomeOutputFile.pdf")
plot(rnorm(100))
dev.off()
system("pdftk SomeOutputFile.pdf data_dump output SomeOutputFile.txt")
list.files(pattern="*.txt$|*.pdf$")
# [1] "SomeOutputFile.pdf" "SomeOutputFile.txt"
readLines("SomeOutputFile.txt")
# [1] "InfoBegin" "InfoKey: Creator"
# [3] "InfoValue: R" "InfoBegin"
# [5] "InfoKey: Title" "InfoValue: R Graphics Output"
# [7] "InfoBegin" "InfoKey: Producer"
# [9] "InfoValue: R 3.0.1" "InfoBegin"
# [11] "InfoKey: ModDate" "InfoValue: D:20131102170720"
# [13] "InfoBegin" "InfoKey: CreationDate"
# [15] "InfoValue: D:20131102170720" "NumberOfPages: 1"
# [17] "PageMediaBegin" "PageMediaNumber: 1"
# [19] "PageMediaRotation: 0" "PageMediaRect: 0 0 504 504"
# [21] "PageMediaDimensions: 504 504"
setwd(x)
मैं क्या अन्य विकल्प वहाँ w निर्दिष्ट करने के लिए कर रहे हैं पर गौर करता हूँ टोपी मेटाडाटा निकाला जाता है, और देखें कि इस जानकारी को उस फ़ॉर्म में पार्स करने का एक सुविधाजनक तरीका है जो आपके लिए अधिक उपयोगी है।
'readPDF' फॉर्म tm पैकेज पर एक नज़र डालें। –
धन्यवाद - शानदार दिखता है लेकिन उपयोग करने के लिए स्पष्ट नहीं है, जब मैं कोड को निष्कर्ष निकालने का प्रबंधन करता हूं, उदाहरण के लिए, सामग्री निर्माता। –
'file.info() 'आपको उस जानकारी में से कुछ मिलेगा – GSee