2011-02-23 18 views
6

स्पॉइलर:
यह, बस बनाम स्फिंक्स एक और Lucene जो कुछ बनाम,
मैंने देखा कि अन्य सभी धागे लगभग दो साल के थे तो फिर से शुरू करने का फैसला किया ..आज सबसे तेज़ पूर्ण पाठ खोज?

यहाँ आवश्यकता है:

डेटा का आकार: अधिकतम 10 जीबी।
पंक्तियों: लगभग अरबों
अनुक्रमण तेजी
खोज 0 एमएस [ठीक है, मजाक ... हंसी ... लेकिन यह जितनी कम संभव रखने]

आज की दुनिया में, के तहत होना चाहिए होना चाहिए जो/क्या /मैं इसकी शुरुआत कैसे करूं ?

संपादित करें: मैंने ल्यूसीन पर कुछ समय लगाया, और 1.8 जीबी डेटा अनुक्रमणित करने के लिए, इसमें 5 मिनट लग गए।
खोज बहुत तेज़ है, जब तक कि मैं ए * करता हूं। एक * 400 ~ 500 एमएस लेता है।
मेरी सबसे बड़ी चिंता इंडेक्सिंग है, जो loooonnnnggg समय ले रही है, और बहुत सारे संसाधन !!

+1

आपको केवल नए डेटा, अद्यतन डेटा, हटाए गए डेटा पर इंडेक्स करना होगा, हमेशा पूरा संग्रह नहीं – ajreal

उत्तर

2

मुझे लुसीन के अलावा कोई अनुभव नहीं है - यह बहुत अधिक डिफ़ॉल्ट अनुक्रमण समाधान है इसलिए ऐसा नहीं लगता कि आप बहुत गलत हो सकते हैं।

10 जीबी बहुत अधिक डेटा नहीं है। आप इसे बहुत तेजी से फिर से अनुक्रमणित करने में सक्षम होंगे - या इसे अतिरिक्त गति के लिए एसएसडी पर रखें। और निश्चित रूप से सुपर-फास्ट लुकअप के लिए रैम (जो ल्यूसीन का समर्थन करता है) में अपनी पूरी अनुक्रमणिका रखें।

+0

मैं सब कुछ बादलों पर रखने जा रहा हूं, इसलिए मुझे कोई भी एसएसडी को गति की तरह नहीं देता है :( और बीटीडब्ल्यू, संपूर्ण डेटा रैम पर, मैं इसे उस ऐप के लिए नहीं ले सकता जिस पर मैं काम कर रहा हूं ... यह प्रति कंप्यूटर 1000 जीबी अद्वितीय डेटा की तरह होगा, इसलिए सबकुछ स्मृति में नहीं लाया जा सकता है ... – Shrinath

+0

ठीक है - ठीक है एसएसडी सूचकांक बनाने के लिए केवल diff wrt बना देगा। उलझन में - आपने कहा कि अधिकतम डेटा आकार 10 जीबी, 1000 नहीं? –

+0

लॉल: डी सच, 1000 जीबी नहीं :) इसकी केवल 10 जीबी ... अब संपादन की जांच करें :) – Shrinath

0

improving Lucene indexing speed पर युक्तियों के लिए कृपया लुसीन विकी की जांच करें। यह काफी संक्षिप्त है। आम तौर पर, लुसीन काफी तेज होता है (इसका उपयोग रीयल-टाइम सर्च के लिए किया जाता है।) अगर आप कुछ "स्पष्ट" पर अनुपस्थित हैं तो यह पता लगाना आसान होगा।

+0

मैंने अब तक सब कुछ "स्पष्ट" किया है :) बस जानना चाहता था कि "यह" जाने का रास्ता है :) और बीटीडब्ल्यू, इंडेक्सिंग समय ठीक है? इसका 5 मिनट 1.8 जीबी है? – Shrinath

+0

आकार कुछ हद तक गलत मीट्रिक है। सादे पाठ का इंडेक्सिंग 1.8 जी इंडेक्सिंग 1.8 जी एचटीएमएल (जो आप पार्स और इंडेक्स निकाले गए टेक्स्ट को इंडेक्स से अलग करेंगे) से अलग होंगे।) आपको यह देखने की ज़रूरत है कि अगर आपकी जरूरतों के लिए "पर्याप्त तेज़" है। यदि मौजूदा इंडेक्सिंग गति आपकी अपेक्षाओं से कम हो जाती है, तो आप वास्तविक समय के वातावरण में लुसीन का उपयोग करने का तरीका जान सकते हैं। वह गैर-तुच्छ है। –

+0

@ श्रीनाथ - आपकी इंडेक्सिंग गति सीमित है कि आप डिस्क को कितनी तेजी से पढ़ सकते हैं, और इंडेक्स प्रविष्टि से पहले उस डेटा को कितना संसाधित करने की आवश्यकता है। –

0

मेरे सबसे बड़ी चिंता अनुक्रमण, जो है loooonnnnggg समय देने के लिए, और संसाधनों का बहुत कुछ है !!

Lusql पर एक नज़र FWIW 100 GBdata mysql से पर एक सभ्य मशीन थोड़ा सूचकांक करने के लिए एक घंटे से अधिक ले लिया अब अगर यू जोड़ने ले लो, हम इसे एक बार इस्तेमाल किया,, फाइल सिस्टम पर (NTFS)

एसएसडी या जो भी अल्ट्रा फास्ट डिस्क टेक्नोलॉजी, आप इसे काफी नीचे ला सकते हैं

संबंधित मुद्दे