आज सबसे तेज़ पूर्ण पाठ खोज?

स्पॉइलर:
यह, बस बनाम स्फिंक्स एक और Lucene जो कुछ बनाम,
मैंने देखा कि अन्य सभी धागे लगभग दो साल के थे तो फिर से शुरू करने का फैसला किया ..आज सबसे तेज़ पूर्ण पाठ खोज?

यहाँ आवश्यकता है:

डेटा का आकार: अधिकतम 10 जीबी।
पंक्तियों: लगभग अरबों
अनुक्रमण तेजी
खोज 0 एमएस [ठीक है, मजाक ... हंसी ... लेकिन यह जितनी कम संभव रखने]

आज की दुनिया में, के तहत होना चाहिए होना चाहिए जो/क्या /मैं इसकी शुरुआत कैसे करूं ?

संपादित करें: मैंने ल्यूसीन पर कुछ समय लगाया, और 1.8 जीबी डेटा अनुक्रमणित करने के लिए, इसमें 5 मिनट लग गए।
खोज बहुत तेज़ है, जब तक कि मैं ए * करता हूं। एक * 400 ~ 500 एमएस लेता है।
मेरी सबसे बड़ी चिंता इंडेक्सिंग है, जो loooonnnnggg समय ले रही है, और बहुत सारे संसाधन !!

स्रोत

2011-02-23 Shrinath

आपको केवल नए डेटा, अद्यतन डेटा, हटाए गए डेटा पर इंडेक्स करना होगा, हमेशा पूरा संग्रह नहीं – ajreal

मुझे लुसीन के अलावा कोई अनुभव नहीं है - यह बहुत अधिक डिफ़ॉल्ट अनुक्रमण समाधान है इसलिए ऐसा नहीं लगता कि आप बहुत गलत हो सकते हैं।

10 जीबी बहुत अधिक डेटा नहीं है। आप इसे बहुत तेजी से फिर से अनुक्रमणित करने में सक्षम होंगे - या इसे अतिरिक्त गति के लिए एसएसडी पर रखें। और निश्चित रूप से सुपर-फास्ट लुकअप के लिए रैम (जो ल्यूसीन का समर्थन करता है) में अपनी पूरी अनुक्रमणिका रखें।

स्रोत

2011-02-23 14:00:08

मैं सब कुछ बादलों पर रखने जा रहा हूं, इसलिए मुझे कोई भी एसएसडी को गति की तरह नहीं देता है :( और बीटीडब्ल्यू, संपूर्ण डेटा रैम पर, मैं इसे उस ऐप के लिए नहीं ले सकता जिस पर मैं काम कर रहा हूं ... यह प्रति कंप्यूटर 1000 जीबी अद्वितीय डेटा की तरह होगा, इसलिए सबकुछ स्मृति में नहीं लाया जा सकता है ... – Shrinath

ठीक है - ठीक है एसएसडी सूचकांक बनाने के लिए केवल diff wrt बना देगा। उलझन में - आपने कहा कि अधिकतम डेटा आकार 10 जीबी, 1000 नहीं? –

लॉल: डी सच, 1000 जीबी नहीं :) इसकी केवल 10 जीबी ... अब संपादन की जांच करें :) – Shrinath

improving Lucene indexing speed पर युक्तियों के लिए कृपया लुसीन विकी की जांच करें। यह काफी संक्षिप्त है। आम तौर पर, लुसीन काफी तेज होता है (इसका उपयोग रीयल-टाइम सर्च के लिए किया जाता है।) अगर आप कुछ "स्पष्ट" पर अनुपस्थित हैं तो यह पता लगाना आसान होगा।

स्रोत

2011-02-23 17:03:10

मैंने अब तक सब कुछ "स्पष्ट" किया है :) बस जानना चाहता था कि "यह" जाने का रास्ता है :) और बीटीडब्ल्यू, इंडेक्सिंग समय ठीक है? इसका 5 मिनट 1.8 जीबी है? – Shrinath

आकार कुछ हद तक गलत मीट्रिक है। सादे पाठ का इंडेक्सिंग 1.8 जी इंडेक्सिंग 1.8 जी एचटीएमएल (जो आप पार्स और इंडेक्स निकाले गए टेक्स्ट को इंडेक्स से अलग करेंगे) से अलग होंगे।) आपको यह देखने की ज़रूरत है कि अगर आपकी जरूरतों के लिए "पर्याप्त तेज़" है। यदि मौजूदा इंडेक्सिंग गति आपकी अपेक्षाओं से कम हो जाती है, तो आप वास्तविक समय के वातावरण में लुसीन का उपयोग करने का तरीका जान सकते हैं। वह गैर-तुच्छ है। –

@ श्रीनाथ - आपकी इंडेक्सिंग गति सीमित है कि आप डिस्क को कितनी तेजी से पढ़ सकते हैं, और इंडेक्स प्रविष्टि से पहले उस डेटा को कितना संसाधित करने की आवश्यकता है। –

मेरे सबसे बड़ी चिंता अनुक्रमण, जो है loooonnnnggg समय देने के लिए, और संसाधनों का बहुत कुछ है !!

Lusql पर एक नज़र FWIW 100 GBdata mysql से पर एक सभ्य मशीन थोड़ा सूचकांक करने के लिए एक घंटे से अधिक ले लिया अब अगर यू जोड़ने ले लो, हम इसे एक बार इस्तेमाल किया,, फाइल सिस्टम पर (NTFS)

एसएसडी या जो भी अल्ट्रा फास्ट डिस्क टेक्नोलॉजी, आप इसे काफी नीचे ला सकते हैं

स्रोत

2011-02-28 05:32:04 Narayan

आज सबसे तेज़ पूर्ण पाठ खोज?

उत्तर

संबंधित मुद्दे