मेरे पास बड़ी संख्या में वाक्यांश (~ कई मिलियन) हैं, प्रत्येक छह या सात शब्दों से कम और पांच से कम बड़े बहुमत हैं, और मैं देखना चाहता हूं कि वे "वाक्यांश" एक दूसरे से मेल खाते हैं। यह एक खोज इंजन विपणन शब्द है - अनिवार्य रूप से, एक वाक्यांश बी से मेल खाता है यदि ए बी में निहित है। अभी, वे एक डीबी (पोस्टग्रेज़) में संग्रहीत हैं, और मैं regexes में शामिल हो रहा हूं ( this question देखें)। यह सभी बुनियादी अनुकूलन चाल (अनुक्रमण, इत्यादि) और प्रदान किए गए सुझावों का प्रयास करने के बाद भी असंभव रूप से चल रहा है।
क्या ऐसा करने का कोई आसान तरीका है? मैं गैर-डीबी समाधान के विपरीत नहीं हूं। क्या सोचने का कोई कारण है कि regexes overkill हैं और एक अलग समाधान से अधिक रास्ता ले रहे हैं?यह देखने के लिए वाक्यांशों का परीक्षण करें कि वे एक-दूसरे से मेल खाते हैं
उत्तर
उप-स्ट्रिंग मिलान करने के लिए एक आदर्श एल्गोरिदम AhoCorsick है।
हालांकि आपको इसका उपयोग करने के लिए डेटाबेस से डेटा को पढ़ना होगा, लेकिन अधिक बेवकूफ तरीकों की तुलना में यह बहुत तेज़ है।
सबस्ट्रिंग मिलान पर संबंधित प्रश्न के लिए here देखें:
और here जावा में एक AhoCorsick कार्यान्वयन के लिए:
थोड़ा और संदर्भ प्राप्त करना बहुत अच्छा होगा कि आपको यह देखने की आवश्यकता क्यों है कि कौन से वाक्यांश दूसरों के उप-समूह हैं: उदाहरण के लिए, यह अजीब लगता है कि डीबी इस तरह से बनाया जाएगा: आप अब काम करने के लिए क्योंकि डीबी उचित प्रारूप में नहीं है, इसलिए यह समझ में आता है कि आपको डीबी को ठीक करना चाहिए या जिस तरीके से इसे बनाया गया है, इसके बजाय।
यह डेटा के साथ आप क्या कर रहे हैं, इस पर बड़े पैमाने पर निर्भर करता है और क्यों, लेकिन मुझे अतीत में चीजों को एक शब्द और शब्दों के जोड़े में तोड़ने के लिए उपयोगी लगता है, फिर उन एकल/जोड़े को संसाधन या वाक्यांश लिंक करें।
उदाहरण एक खोज मैंने किया है को लागू करने के लिए:
स्रोत पाठ:
Testing phrases to see
प्रविष्टियां:
- परीक्षण
- परीक्षण वाक्यांशों
- वाक्यांशों
- वाक्यांशों को
- को देखने के लिए
- देखें कि क्या एक और वाक्यांश समान (दी, भीतर समाहित न हो) आप उसी तरह से अन्य वाक्यांश टूट और वाक्यांशों की संख्या की गिनती होता था
देखने के लिए उनके बीच आम है।
यदि आप उपयोग करना चाहते थे तो इसका मिलान करने का अच्छा साइड इफेक्ट है (उदाहरण के लिए) "परीक्षण करने के चरण देखें": क्योंकि अलग-अलग शब्द मेल खाते हैं .. लेकिन क्योंकि ऑर्डर अलग है इसलिए जोड़े नहीं होंगे, इसलिए यह एक ही समय में वाक्यांशों (लगातार शब्दों) को ध्यान में रखता है, मिलानों की संख्या उतनी अधिक नहीं होगी, मिलान में 'स्कोर' के रूप में उपयोग के लिए अच्छा होगा।
जैसा कि मैंने कहा है कि चीज ने मेरे लिए काम किया है, लेकिन कुछ और पृष्ठभूमि/संदर्भ सुनना बहुत अच्छा होगा, इसलिए हम देख सकते हैं कि हम एक बेहतर समाधान पा सकते हैं या नहीं।
जब आपके पास मासएसक्यूएल के पिछले उत्तर से 'साफ़ कॉलम' है, तो आप "वाक्यांश मिलान" के तरीके के आधार पर वास्तव में काम कर सकते हैं (मुझे नहीं पता), इस कॉलम को युक्त स्ट्रिंग की लंबाई के आधार पर सॉर्ट करें।
फिर सुनिश्चित करें कि आप अपनी तालिका (एक कर्सर के साथ) के माध्यम से एक फ्लैट क्वेरी के बजाय तुलनात्मक रूप से तुलनात्मक रूप से तुलनात्मक रूप से तुलनात्मक तरीके से चलते हैं और उम्मीदवारों को WHERE कथन के माध्यम से तुलना करने के लिए हटाते हैं और पहले से ही उम्मीदवारों को हटाकर परीक्षण किया गया (पूरी तरह से)। ऐसा करने के लिए आपको एक अस्थायी तालिका की आवश्यकता हो सकती है।
पहले 'WHERE' कथन के साथ मेरा क्या मतलब है? खैर, यदि तुलना मान लंबाई पर क्रमबद्ध कॉलम में है, तो आपको यह जांचना पड़ेगा कि एक लंबी स्ट्रिंग के अंदर एक लंबी स्ट्रिंग मेल नहीं है या नहीं।
और उम्मीदवारों को हटाने के साथ: सबसे छोटी तारों से शुरू होने के बाद, एक बार जब आप एक निश्चित लंबाई के सभी तारों का परीक्षण कर लेंगे, तो आप उन्हें तुलना तालिका से हटा सकते हैं, क्योंकि कोई भी अगला परीक्षण आपको कभी नहीं मिलेगा मैच।
बेशक, इसके लिए केवल एक SQL कथन की तुलना में थोड़ा और प्रोग्रामिंग की आवश्यकता है। और "वाक्यांश मिलान" जिस तरह से काम करता है उस पर निर्भर है।
डीटीएस या एसएसआईएस भी आपका मित्र हो सकता है।
- 1. एपीआई दस्तावेज और "मूल्य सीमाएं": क्या वे मेल खाते हैं?
- 2. यह देखने के लिए परीक्षण करें कि कोई छवि C#
- 3. यह देखने के लिए परीक्षण करें कि क्या स्ट्रिंग केवल
- 4. यह सुनिश्चित करने के लिए कि वे
- 5. एकीकरण परीक्षण के लिए अस्थायी ई-मेल खाते
- 6. माणिक regex: से मेल खाते हैं और
- 7. बर्डोंग ऑडियो विश्लेषण - यह पता लगाना कि दो क्लिप कितनी अच्छी तरह से मेल खाते हैं
- 8. रेगेक्स - सभी घटनाओं से मेल खाते हैं?
- 9. यह देखने के लिए नियमित अभिव्यक्ति का परीक्षण किया जा सकता है कि यह कम हो जाता है। *
- 10. नियमित अभिव्यक्ति - सभी शब्दों से मेल खाते हैं लेकिन केवल
- 11. इस पैटर्न से मेल खाते कोड
- 12. Pymongo AssertionError: आईडी से मेल नहीं खाते
- 13. कैसे जांचें कि किसी सूची के सभी तत्व किसी शर्त से मेल खाते हैं या नहीं?
- 14. django फ़िल्टर icontains केवल पूरे शब्द से मेल खाते हैं
- 15. जांचें कि एकाधिक रिकॉर्ड मानों के सेट से मेल खाते हैं
- 16. किसी भी यूनिकोड अक्षर से मेल खाते हैं?
- 17. आप रेगेक्स में कैरेट (^) प्रतीक से कैसे मेल खाते हैं?
- 18. वैरिएबल: टेम्पलेट से मेल खाते नमूने
- 19. नियमित कई पंक्तियों में एक पैटर्न से मेल खाते हैं बदलने के लिए अभिव्यक्ति
- 20. ऐसी गतिविधियां कैसे सूचीबद्ध करें जो किसी इरादे से मेल खाते हैं?
- 21. लिनक्स पर क्रोम - ब्राउज़र को यह देखने के लिए पूछें कि कौन से टैब खुले हैं?
- 22. यह देखने के लिए कि कौन से प्लगइन्स वीम धीमा कर रहे हैं?
- 23. यह देखने के लिए कि कौन से रेल नियंत्रक/मॉडल पृष्ठ की सेवा कर रहे हैं?
- 24. देखने के लिए कि फ़ाइल
- 25. यह जांचकर कि एक ईमेल पता Google खाते
- 26. यह देखने के लिए जांचें कि बैकबोन जेएस
- 27. NYTProf के लिए लाइन-दर-लाइन आंकड़े कुल योग से मेल नहीं खाते हैं?
- 28. स्काला एक्सएमएल पैटर्न से मेल खाते और गुण सभी का
- 29. यह देखने के लिए कि मेरी webservice कौन लेता है
- 30. जावास्क्रिप्ट स्ट्रिंग से मेल खाते हैं और सब कुछ पट्टी यह
आप आप से और अधिक विस्तार में "ए बी में निहित है" क्या मतलब है व्याख्या कर सकते हैं? क्या आपका मतलब सटीक स्ट्रिंग, या व्यक्तिगत शब्द है? –
मैंने अभी आपके लिंक किए गए पोस्ट को देखा है। ए में आपको कितने रिकॉर्ड मिले हैं और बी में कितने हैं? –
क्या आपको वह उत्तर मिला जो आप ढूंढ रहे थे? यदि हां, तो क्या आप इसे स्वीकार कर सकते हैं? यदि नहीं, तो क्या आप स्पष्ट कर सकते हैं कि आप अभी भी क्या खोज रहे हैं? आम तौर पर, आपके द्वारा प्रदान की जाने वाली अधिक जानकारी, अधिक संभावना है कि कोई आपकी मदद कर सके। – MaasSql