2015-03-17 9 views
5

हुओश शुद्ध पायथन (official website) में लागू एक तेज़, फीचरफुल फुल-टेक्स्ट इंडेक्सिंग और सर्च लाइब्रेरी है।हुओश कितनी तेज़ है?

लेकिन मुझे अन्य खोज इंजन, विशेष रूप से लुसीन आधारित (पाइलेसीन, लुपिन ...) के लिए कोई गति/प्रदर्शन तुलना नहीं मिल रही है?

मुझे पाइलेसीन का उपयोग करने के लिए उपयोग किया जाता है जिसे तेजी से जाना जाता है लेकिन काफी गैर-पायथनिक और संभालने में आसान नहीं है (प्रत्यक्ष जावा-ल्यूसीन रैपर)। पाइलेसीन का एक पाइथोनिक रैपर है; Lupyne। हालांकि यह सुविधाजनक नहीं है जब लुसीन की मुख्य विशेषताएं की आवश्यकता होती है।

हुओश और अन्य के बीच कोई भी प्रदर्शन संकेत सराहना करेगा।

उत्तर

5

{1} हूँश बनाम Xappy/Xapian

वहाँ पायथन खोज हूँश और Xappy/Xapian here द्वारा समर्थित के परीक्षण के लिए मानक हैं।

हूँश लेखक Xappy/Xapian (ref) के खिलाफ हूँश परीक्षण करने के लिए उन लोगों के मानक का प्रयोग किया:

कैसे बेंचमार्क काम करता है

एन दस्तावेजों उत्पन्न कर रहे हैं, खोज शब्द कोई भी शब्द और 10 वर्ण लंबा है , साथ ही यादृच्छिक सामान के 100 वर्णों के साथ 10 अतिरिक्त फ़ील्ड (केवल दस्तावेज़ के आकार को पंप करने के लिए)।

अनुक्रमण के लिए, सभी फ़ील्ड अनुक्रमित और संग्रहीत हैं।

खोज के लिए, सभी शब्द यादृच्छिक क्रम में खोजे जाते हैं और सभी संग्रहीत फ़ील्ड पुनर्प्राप्त किए जाते हैं।

जोश के लिए, हमने इंडेक्स बनाने के लिए मल्टीप्रोसेसिंग लेखक का उपयोग किया - यह बताता है कि यह xappy की तुलना में अनुक्रमण के लिए क्यों तेज है (क्योंकि यह सभी 4 कोर का उपयोग करता है, केवल 1 नहीं)।

खोज के लिए, xappy/xapian तेज है (कोई समानांतर प्रसंस्करण नहीं किया गया था)। लेकिन आप देखते हैं कि xappy और whoosh के बीच की गति अंतर शायद उतनी बड़ी नहीं है जितनी आप उम्मीद करते हैं। के बारे में 12MB

सूचकांक आकार

# Phenom II X4 840, 8GB RAM, HDD 
# Python 2.7.2+ (default, Oct 4 2011, 20:06:09) 
# [GCC 4.6.1] on linux2 

Params: 
DOC_COUNT: 3000 WORD_LEN: 10 
EXTRA_FIELD_COUNT: 10 EXTRA_FIELD_LEN: 100 

Benchmarking: xappy 0.5/xapian 1.2.5 
Indexing takes 2.8s (1068.9/s) 
Searching takes 0.5s (6635.8/s) 

Benchmarking: whoosh 2.3.2 
Indexing takes 0.8s (3575.6/s) 
Searching takes 0.8s (3714.8/s) 
संबंधित मुद्दे