2011-12-20 17 views
6


मैं सामग्री पृष्ठों में वेब साइटों (उनमें से हजारों) के संपर्क पृष्ठों में संपर्क जानकारी प्राप्त करने का प्रयास कर रहा हूं। मैं अपने सिर खरोंच से पहले आप जैसे लोगों से पूछना चाहता था। अगर मुझे उपलब्ध हो तो मुझे पता, ईमेल आईडी, फोन नंबर और संपर्क व्यक्ति की जानकारी चाहिए।खोज स्ट्रिंग एल्गोरिदम

मुझे लगता है कि आप पहले से ही समस्या को समझते हैं। हां यह स्वरूपण है ... चूंकि वेबसाइटों का कोई मानक प्रारूप नहीं है, इसलिए मुझे सटीक जानकारी को इंगित करना वाकई मुश्किल है। कुछ वेबसाइटों को फ्लैश संपर्क पृष्ठों के साथ डिजाइन किया गया है और कुछ अन्य वेबसाइटों ने कस्टम फोंट के साथ छवि प्रकार के रूप में संपर्क जानकारी तैयार की है।

और संकेत/विचार/सुझाव ज्यादातर स्वागत है ...

धन्यवाद ....

+3

क्या आप इस जानकारी के साथ क्या करने जा रहे हैं साझा करना चाहते हैं? अगर वे नहीं सोचते कि वे स्पैमर की मदद कर रहे हैं तो लोग आपकी मदद करने की अधिक संभावना रखते हैं। –

+0

मैं एक स्पैमर नहीं हूं :-) मैं वास्तव में आपकी चिंता का प्रशंसा करता हूं ... मैं एक व्यवसाय विकी जैसी वेबसाइट विकसित करने की योजना बना रहा हूं जिसमें बहुत सारे फ़िल्टरिंग विकल्प हैं जो व्यवसाय और ग्राहकों दोनों की मदद करते हैं – Krishna

+0

आप कुछ आईआर करना चाहते हैं, लुसीन को देखो, यह वास्तव में शक्तिशाली है – JohnJohnGa

उत्तर

10

इस रूप में आप, उम्मीद कर सकते हैं कोई एक छोटी सी कार्य भी तरह से है।

  1. जैसे Lucene/Solr या Sphinx अनुक्रमणिका में पृष्ठों एक औंधा अनुक्रमण प्रणाली का उपयोग करें: यहाँ इस आ का एक तरीका है। आपको अपना खुद का क्रॉलर/स्पाइडर लिखना पड़ सकता है। अपाचे नच और अन्य क्रॉलर बॉक्स से बाहर निकलने की पेशकश करते हैं। यदि सामग्री काफी स्थिर है, तो उन्हें स्थानीय रूप से अपने सिस्टम में डाउनलोड करें।

  2. सामग्री को अनुक्रमित करने के बाद, आप इसे ईमेल पते, टेलीफोन नंबर इत्यादि के लिए पूछ सकते हैं: // ईमेल के लिए // टेलीफ़ोन # कोष्ठक सामग्री के लिए: @ और (सामग्री: .COM या सामग्री: .NET) या सामग्री: "(" या सामग्री: ")" महत्वपूर्ण: पूर्वगामी कोड को सचमुच नहीं लिया जाना चाहिए। आप ल्यूसीन रेगेक्स क्वेरी & स्पैन क्वेरी का उपयोग करके भी प्रशंसक हो सकते हैं जो आपको बहुत परिष्कृत प्रश्न बनाने देगा।

  3. अंत में परिणाम पृष्ठों पर, (क) एक परिणाम हाइलाइटर चलाने टुकड़ा (रों) क्वेरी शब्द के आसपास पाने के लिए और, (ख) के टुकड़े पर, ब्याज के क्षेत्र से बाहर निकालने के लिए एक regex चलाने ।

  4. यदि आपके पास उत्तरी अमेरिकी पता डेटा सेट है, तो आप के खिलाफ पते को सत्यापित करने के लिए एकाधिक-पास चला सकते हैं i) बिंग मैप्स जैसे मैपिंग प्रदाता या पते को सत्यापित करने के लिए Google मानचित्र। जहां तक ​​मुझे पता है, यूएसपीएस कोड और कनाडाई पोस्टल कोड मान्य करने के लिए, यूएसपीएस और अन्य शुल्क के लिए वैध पता लुक-अप प्रदान करते हैं। या, ii) रिवर्स DNS ईमेल पते के लिए लुक-अप और इतने पर ....

कोई एक सबसे अच्छा समाधान यहाँ है, तो आप शुरू कर दिया .... जैसे मैंने कहा कि मिलना चाहिए यही कारण है कि आप करेंगे पुन: प्रयास करने के लिए कई दृष्टिकोणों को आजमाने की आवश्यकता है और अपनी इच्छित सटीकता स्तर प्राप्त करें।

उम्मीद है कि इससे मदद मिलती है।

+0

www.searchblox.com पर भी जाएं, यह बॉक्स के बाहर क्रॉलिंग वेबसाइट आदि प्रदान करता है और लुसीन के ऊपर बनाया गया है। – Mikos

+0

मुझे आशा है कि यह दृष्टिकोण साइट से विशेष घटनाओं और समय को खींचने के लिए भी समान है .. उदाहरण के लिए ... घटना: बेवकूफ रात का खाना; समय: 5 जुलाई 2012 @ 7 बजे। – Krishna

+0

हां, जो कुछ भी regexed किया जा सकता है बाहर खींचा जा सकता है। – Mikos

3

Conditional Random Fields इन तरह के कार्यों के लिए सटीक रूप से उपयोग किया गया है, और काफी सफल रहे हैं। आप CRF++ या Stanford Named Entity Recognizer का उपयोग कर सकते हैं। बिना किसी स्पष्ट कोड को लिखने के दोनों को कमांड लाइन से बुलाया जा सकता है।

संक्षेप में, आपको इन एल्गोरिदम को पहले वेबपृष्ठों से नाम, ई-मेल आईडी आदि के कुछ उदाहरण देकर प्रशिक्षित करने में सक्षम होना चाहिए ताकि वे इन चीजों को पहचानना सीख सकें। एक बार इन एल्गोरिदम स्मार्ट हो गए हैं (उदाहरणों के कारण आपने उन्हें दिया है), आप उन्हें अपने डेटा पर चला सकते हैं और देख सकते हैं कि आपको क्या मिलता है।

विकिपीडिया पेज को देखकर डरो मत। पैकेज कई उदाहरणों के साथ आते हैं, और आपको कुछ घंटों में चलना और चलना चाहिए।

1

@ मिकोस सही है, आपको निश्चित रूप से कई दृष्टिकोणों की आवश्यकता होगी। विचार करने के लिए एक और संभावित उपकरण Web-Harvest है। यह वेब डेटा कटाई के लिए एक उपकरण है और यह आपको वेबसाइटों को इकट्ठा करने और आपके इच्छित रुचि वाले डेटा निकालने की अनुमति देता है। यह सब एक्सएमएल कॉन्फ़िगरेशन फ़ाइलों के माध्यम से किया जाता है। सॉफ्टवेयर में एक जीयूआई और एक कमांड लाइन इंटरफ़ेस भी है।

यह आपको एक्सएसएलटी, एक्सक्वियर और नियमित अभिव्यक्तियों जैसे टेक्स्ट/एक्सएमएल मैनिपुलेशन के लिए तकनीकों का उपयोग करने देता है, आप अपने स्वयं के प्लगइन भी बना सकते हैं। हालांकि यह मुख्य रूप से एचटीएमएल/एक्सएमएल आधारित वेबसाइटों पर केंद्रित है।

संबंधित मुद्दे