2012-01-24 15 views
5

से बड़ा होता है मेरे पास एक साधारण अटोपर्ससे-आधारित pdf parser है। यह iteratee के साथ उपयोग किए जाने तक ठीक काम करता है। जब इनपुट का आकार बफर आकार से अधिक है।attoparsec-iteratee काम नहीं करता है जब इनपुट बफर आकार

import qualified Data.ByteString as BS 
import qualified Data.Iteratee as I 
import qualified Data.Attoparsec as P 
import qualified Data.Attoparsec.Iteratee as P 
import System.Environment (getArgs) 
import Control.Monad 

import Pdf.Parser.Value 

main :: IO() 
main = do 
    [i] <- getArgs 
    liftM (P.parseOnly parseValue) (BS.readFile i) >>= print -- works 
    I.fileDriverRandomVBuf 2048 (P.parserToIteratee parseValue) i >>= print -- works 
    I.fileDriverRandomVBuf 1024 (P.parserToIteratee parseValue) i >>= print -- DOES NOT works!!! 

इनपुट:

<< /Annots [ 404 0 R 547 0 R ] /ArtBox [ 0.000000 0.000000 612.000000 792.000000 ] /BleedBox [ 0.000000 0.000000 612.000000 792.000000 ] /Contents [ 435 0 R 436 0 R 437 0 R 444 0 R 448 0 R 449 0 R 450 0 R 453 0 R ] /CropBox [ 0.000000 0.000000 612.000000 792.000000 ] /Group 544 0 R /MediaBox [ 0.000000 0.000000 612.000000 792.000000 ] /Parent 239 0 R /Resources << /ColorSpace << /CS0 427 0 R /CS1 427 0 R /CS2 428 0 R >> /ExtGState << /GS0 430 0 R /GS1 431 0 R /GS2 469 0 R /GS3 475 0 R /GS4 439 0 R /GS5 480 0 R /GS6 485 0 R /GS7 491 0 R /GS8 497 0 R >> /Font << /C2_0 447 0 R /T1_0 421 0 R /T1_1 422 0 R /T1_2 423 0 R /T1_3 424 0 R /T1_4 425 0 R /T1_5 426 0 R /T1_6 438 0 R >> /ProcSet [ /PDF /Text /ImageC /ImageI ] /Properties << /MC0 << /Metadata 502 0 R >> >> /XObject << /Fm0 451 0 R /Fm1 504 0 R /Fm2 513 0 R /Fm3 515 0 R /Fm4 517 0 R /Fm5 526 0 R /Fm6 528 0 R /Fm7 537 0 R /Fm8 539 0 R /Im0 540 0 R /Im1 541 0 R /Im2 452 0 R /Im3 542 0 R /Im4 543 0 R >> >> /Rotate 0 /StructParents 1 /TrimBox [ 0.000000 0.000000 612.000000 792.000000 ] /Type /Page >> 

तो, पार्सर iteratee बिना काम करता है, बहुत बड़ी मात्रा के साथ काम करता है, लेकिन छोटे टुकड़ों के साथ काम नहीं करता। Iteratee में बग? Attoparsec-iteratee में? मेरे कोड में? क्या कोई कामकाज है? यह मेरे लिए एक बहुत ही जरूरी मुद्दा है।

धन्यवाद।

+0

कोई विचार नहीं है कि बग कहाँ है, लेकिन क्या यह पर्याप्त रूप से पर्याप्त बड़े आकार का उपयोग करना संभव है? या 'Iteratees' के बजाय 'बाइटस्ट्रिंग' का उपयोग करने के लिए? –

+0

पीडीएफ मान मनमाने ढंग से लंबा हो सकता है, इसलिए कोई बड़ा पर्याप्त आकार नहीं है। Re ByteString: क्या आप आलसी आईओ मतलब है? पीडीएफ को यादृच्छिक अभिगम की आवश्यकता होती है, और संदर्भ तालिका आमतौर पर फ़ाइल के अंत में स्थित होती है। इस विशेष मामले में आलसी आईओ ~ = "सख्त" और स्मृति अक्षमता का उपयोग करेगा। – Yuras

+0

क्या Iteratee यादृच्छिक पहुंच की अनुमति है? मैंने इसके बारे में नहीं सुना है (इसका मतलब कुछ भी नहीं है, मैं उपयोगकर्ता नहीं हूं)। यदि आपको यादृच्छिक पहुंच की आवश्यकता है, तो या तो पूरी फ़ाइल को एक बार में पढ़ें या फ़ाइल के कुछ हिस्सों को खोजने और पढ़ने के लिए कुछ मचान करें। यदि संभव हो, तो पहला विकल्प ** बहुत ** सरल है। –

उत्तर

2

संपादित करें 2: मैं पीडीएफ/पार्सर/मूल्य

dictOrStream :: Parser PdfValue 
dictOrStream = do 
    dict <- parseDict 
    P.skipSpace 
    let s1 = do 
      P.string $ fromString "stream" 
      content <- P.manyTill P.anyWord8 $ P.endOfLine >> P.string (fromString "endstream") 
      return $ PdfValStream (PdfStream dict (BS.pack content)) 
    s1 <|> return (PdfValDict dict) 

तो parseValue में इस पार्सर इस्तेमाल किया में एक नया पार्सर बनाया। यह आपके सभी मामलों के लिए काम करता है। मुझे नहीं पता क्यों choice ठीक से बैकट्रैक करने में विफल रहता है, शायद एक अटोपर्ससेक बग?

संपादित करें: मुझे लगता है कि, यदि मैं parseDict के साथ अपने शीर्ष-स्तर parseValue को प्रतिस्थापित करता हूं, तो यह काम करता है। यह parseValue में विकल्पों से parseStream हटा देता है, यह भी काम करता है। मुझे लगता है कि अटॉर्सेसेक ने शीर्ष-स्तरीय शब्दकोश के पूरा होने के बाद "पार्सस्ट्रीम" के लिए प्रतिबद्ध किया है, इसलिए यह अधिक त्रुटि (एक स्थान, "स्ट्रीम" टोकन इत्यादि) की उम्मीद कर रहा है जिससे इस त्रुटि की ओर अग्रसर हो। इस बिंदु पर इन दो पार्सिंग विकल्पों के बीच एक अस्पष्टता है जिसे आपको हल करने की आवश्यकता होगी। मुझे नहीं पता कि पूरा इनपुट उपलब्ध होने पर यह ठीक से क्यों काम करता है; मुझे उम्मीद है कि जब आपके पार्सर को खिलाया जाता है तो एक त्रुटि की सूचना दी जाएगी।

अभी तक, मुझे आपके कोड या संभवतया अटॉपरसेक में एक बग पर संदेह है। मैं मैन्युअल bytestring हिस्सा पढ़ने और अपने attoparsec पार्सर करने के लिए इसे खिला द्वारा निम्न परीक्षण भागा:

*Main System.IO> h <- openFile "test.pdf" ReadMode 
*Main System.IO Data.ByteString> let hget = hGetSome h 1024 
*Main System.IO Data.ByteString> b <- hget 
*Main System.IO Data.ByteString> let r = P.parse parseValue b 
*Main System.IO Data.ByteString> r 
Partial _ 
*Main System.IO Data.ByteString> b <- hget 
*Main System.IO Data.ByteString> let r' = P.feed r b 
*Main System.IO Data.ByteString> r' 
Partial _ 
*Main System.IO Data.ByteString> b <- hget 
*Main System.IO Data.ByteString> Data.ByteString.length b 
0 
*Main System.IO Data.ByteString> let r'2 = P.feed r' b 
*Main System.IO Data.ByteString> r'2 
Fail "<< /Annots [ 404 0 R 547 0 R ] /ArtBox [ 0.000000 0.000000 612.000000 792.000000 ] /BleedBox [ 0.000000 0.000000 612.000000 792.000000 ] /Contents [ 435 0 R 436 0 R 437 0 R 444 0 R 448 0 R 449 0 R 450 0 R 453 0 R ] /CropBox [ 0.000000 0.000000 612.000000 792.000000 ] /Group 544 0 R /MediaBox [ 0.000000 0.000000 612.000000 792.000000 ] /Parent 239 0 R /Resources << /ColorSpace << /CS0 427 0 R /CS1 427 0 R /CS2 428 0 R >> /ExtGState << /GS0 430 0 R /GS1 431 0 R /GS2 469 0 R /GS3 475 0 R /GS4 439 0 R /GS5 480 0 R /GS6 485 0 R /GS7 491 0 R /GS8 497 0 R >> /Font << /C2_0 447 0 R /T1_0 421 0 R /T1_1 422 0 R /T1_2 423 0 R /T1_3 424 0 R /T1_4 425 0 R /T1_5 426 0 R /T1_6 438 0 R >> /ProcSet [ /PDF /Text /ImageC /ImageI ] /Properties << /MC0 << /Metadata 502 0 R >> >> /XObject << /Fm0 451 0 R /Fm1 504 0 R /Fm2 513 0 R /Fm3 515 0 R /Fm4 517 0 R /Fm5 526 0 R /Fm6 528 0 R /Fm7 537 0 R /Fm8 539 0 R /Im0 540 0 R /Im1 541 0 R /Im2 452 0 R /Im3 542 0 R /Im4 543 0 R >> >> /Rotate 0 /StructParents 1 /TrimBox [ 0.000000 0.000000" [] "Failed reading: empty" 

किसी कारण के लिए, अपने पार्सर मात्रा में डेटा प्राप्त करने की तरह प्रतीत नहीं होता है, और (तृतीय प्राप्त होने पर विफल रहता है खाली) किसी भी इनपुट उपभोग किए बिना खंड। मैंने अभी तक यह पता नहीं लगाया है कि आपका पार्सर गलत कहां जा रहा है, लेकिन यह निश्चित रूप से यह नहीं है या एटोपारसेक-इटेटेट।

+0

आप सही हैं, ऐसा लगता है जैसे iteratee और attoparsec-iteratee के पास इसके साथ कुछ लेना देना नहीं है। टाई, जॉन – Yuras

+0

क्या आप कृपया बता सकते हैं कि यह अस्पष्ट क्यों है? मुझे उम्मीद है कि अगर "स्ट्रीम" नहीं मिलता है तो 'पार्सर डिक्ट' विफल हो जाएगा, और 'विकल्प' अगले विकल्प - 'parseDict'' को आजमाएगा। – Yuras

+0

क्षमा करें, मेरा मतलब है कि "स्ट्रीम" – Yuras

संबंधित मुद्दे