2009-07-29 12 views
8

में भौगोलिक स्थानों की पहचान करना यह निर्धारित करने के लिए कि किस प्रकार एक विशिष्ट स्ट्रिंग भौगोलिक स्थिति से संबंधित है या नहीं? उदाहरण के लिए:टेक्स्ट

'troy, ny' 
'austin, texas' 
'hotels in las vegas, nv' 

मुझे लगता है कि मैं क्या तरह की उम्मीद कर रहा हूँ एक सांख्यिकीय दृष्टिकोण है कि विश्वास का एक डिग्री है कि पहले दो स्थान है देता है। आखिरी व्यक्ति को शायद एक ह्युरिस्टिक की आवश्यकता होगी जो "% s,% s" पकड़ लेता है और फिर उसी तकनीक का उपयोग करता है। मैं विशेष रूप से उन दृष्टिकोणों की तलाश में हूं जो प्रस्ताव 'इन' पर बहुत अधिक भरोसा नहीं करते हैं, क्योंकि यह स्थान की पूरी तरह से स्पष्ट या लगातार उपलब्ध संकेतक नहीं है।

क्या कोई मुझे दृष्टिकोण, कागजात, या मौजूदा उपयोगिताओं पर इंगित कर सकता है? धन्यवाद!

उत्तर

7

समस्या का वर्णन आप अक्सर कहा जाता है भौगोलिक क्वेरी पार्सिंग या अधिक आम तौर पर भौगोलिक सूचना पुनर्प्राप्ति।

सीएलईएफ 2007 (http://www.uni-hildesheim.de/geoclef/2007/Query-Parsing.htm) में ऐसा करने का हालिया कार्य था। विजेता टीम ने एक नियम आधारित व्याकरण का उपयोग किया, जो कि आप शायद जो चाहते हैं उसके समान है। GeoParser के बारे में www2009 वार्ता में एक और पेपर: http://www2009.eprints.org/239/

भी CIKM 2007 में भौगोलिक सूचना पुनर्प्राप्ति कुछ कागजात हैं: http://www.geo.unizh.ch/~rsp/gir07/accepted.html

मैं किसी भी ओपन सोर्स सॉफ्टवेयर है कि यह करता है के बारे में पता नहीं है, लेकिन यह लेमर की तरह एक खोज इंजन में शामिल किए जा सकते।

3

एक लिंक मदद करने के लिए: geonames.org search:

रिटर्न नाम XML या JSON दस्तावेज़ के रूप में SEARCHTERM लिए पाया

उदाहरण है: http://ws.geonames.org/search?q=troy,%20ny&maxRows=10

+3

नक्शे यही कारण है कि पाया जा सकता है स्थानों पर व्यक्तिगत तार, लेकिन मनमाना पाठ के भीतर स्थानों को खोजने के लिए उपयोगी नहीं है। – jpatokal

4

वहाँ एक बहुत ही दिलचस्प दृष्टिकोण Everyblock.com द्वारा उठाए गए कि कैसे स्थानों अंग्रेजी में व्यक्त कर रहे हैं पर ध्यान केंद्रित कर रहा है - वे मूल रूप से कुछ परिष्कृत और व्यापक नियमित अभिव्यक्ति के लिए अब खुला स्रोत का उपयोग करें। उनके आवेदन को समाचार लेख, समीक्षा, और विभिन्न सार्वजनिक डेटा फ़ीड्स के माध्यम से स्कैन करने के लिए डिज़ाइन किया गया है और उन्हें विशिष्ट स्थानों से संबंधित है, और यह अच्छी तरह से काम करता है। अभिव्यक्तियां जैसे "20 वीं के पूर्वोत्तर कोने पर इमारत में आग और सैन फ्रांसिस्को में वैलेंसिया सेंट" बहुत सटीक भूगर्भित हैं। आप स्रोत here का अध्ययन कर सकते हैं। ebpub डाउनलोड में स्थित यह विशेष भाग ebpub/ebpub/geocoder/base.py है, और इसके आस-पास की हर चीज़, उदाहरण के लिए SmartGeocoder क्लास से शुरू करना और पीछे की ओर काम करना।

0

मैं geocode.xyz

में एक नि: शुल्क geoparser निर्माण कर रहा हूँ (वर्तमान में लगभग 50 यूरोपीय देशों का समर्थन करता है, जल्द ही वैश्विक कवरेज प्रदान करने के लिए)

geoparsing का एक नमूना आवेदन पर OpenWikiMap