पर संशोधित बड़ी टेक्स्ट फ़ाइलों को पार्स करना, मुझे रीयल-टाइम में एक बड़ी सीएसवी फ़ाइल को पार्स करने की आवश्यकता है, जबकि यह संशोधित) एक अलग प्रक्रिया द्वारा संशोधित किया गया है। बड़े पैमाने पर मेरा मतलब है कि इस बिंदु पर ~ 20 जीबी, और धीरे-धीरे बढ़ रहा है। एप्लिकेशन को केवल डेटा स्ट्रीम में कुछ विसंगतियों का पता लगाने और रिपोर्ट करने की आवश्यकता है, जिसके लिए इसे केवल छोटी राज्य जानकारी (O(1)
स्पेस) स्टोर करने की आवश्यकता है।फ्लाई
मैं प्रत्येक दो सेकंड में फ़ाइल के गुण (आकार) को मतदान करने, पिछली स्थिति की तलाश करने के लिए केवल पढ़ने वाली धारा खोलने के बारे में सोच रहा था, और फिर मैंने जहां पहले बंद किया था वहां पार्स जारी रखा। लेकिन चूंकि यह एक पाठ (सीएसवी) फ़ाइल है, इसलिए मुझे यह सुनिश्चित करने के लिए कि मैं हमेशा एक पूरी लाइन का विश्लेषण करता हूं, मुझे किसी भी तरह जारी रखने पर नए-पंक्ति वर्णों का ट्रैक रखने की आवश्यकता है।
यदि मुझे गलत नहीं लगता है, तो इसे लागू करने में ऐसी कोई समस्या नहीं होनी चाहिए, लेकिन मैं जानना चाहता था कि कोई सामान्य तरीका/पुस्तकालय है जो इनमें से कुछ समस्याओं को हल करता है?
नोट: मुझे CSV पार्सर की आवश्यकता नहीं है। मुझे लाइब्रेरी के बारे में जानकारी चाहिए जो फ्लाई पर संशोधित की जा रही फ़ाइल से पढ़ने वाली लाइनों को सरल बनाता है।
क्या सीएसवी प्रसंस्करण को रोकना संभव है? यदि हां, तो मैं आपको आरडीबीएमएस में स्थानांतरित करने का सुझाव दूंगा। – Oybek
@ ओयबेक: क्या आप इसे थोड़ा सा स्पष्ट कर सकते हैं? फ़ाइल में जो प्रक्रिया संलग्न हो रही है वह लगातार चल रही है, और मुझे लगातार लाइन से डेटा लाइन का विश्लेषण करने की आवश्यकता है (कई सेकंड देरी के साथ)। – Groo
मुझे लगता है कि आपके पास फ़ाइल को उत्सर्जित करने की प्रक्रिया का कोई नियंत्रण नहीं है? –