2012-12-29 12 views
8

क्या CiteSeerX प्रोग्रामेटिक रूप से एक्सेस करने का कोई तरीका है (उदाहरण के लिए लेखक और/या शीर्षक द्वारा खोजें?) आश्चर्य की बात है कि मुझे कुछ भी प्रासंगिक नहीं मिल रहा है; निश्चित रूप से अन्य भी स्क्रैपिंग का उपयोग किए बिना विद्वान लेख मेटाडाटा प्राप्त करने की कोशिश कर रहे हैं?citeseerx खोज api

संपादित करें: ध्यान दें कि CiteSeerX supports ओएआई पीएमएच, लेकिन ऐसा लगता है कि एक दूसरे के साथ अद्यतित डिजिटल लाइब्रेरीज़ ("सामग्री प्रसार") के साथ एक एपीआई तैयार है और विशेष रूप से खोज का समर्थन नहीं करता है। इसके अलावा उस पृष्ठ पर citeseer जानकारी बहुत अस्पष्ट है और यहां तक ​​कि "वर्तमान में, ओएआई के साथ कठिनाइयों" हैं।

another सीटसेयरएक्स एपीआई (हालांकि विशेष रूप से खोज नहीं) के बारे में SO सवाल है; 2 उत्तरों समस्या का समाधान नहीं करते हैं (मेंडेली के बारे में एक वार्ता, सॉफ्टवेयर का एक और टुकड़ा, और दूसरा कहता है कि ओएआई-पीएमएच कार्यान्वयन न्यूनतम स्पेक के विस्तार की पेशकश करने के लिए स्वतंत्र हैं)।

वैकल्पिक रूप से, क्या कोई प्रोग्रामर/शीर्षक से प्रोग्रामेटिक रूप से उद्धरण प्राप्त करने का एक अच्छा तरीका सुझा सकता है?

+1

जेबआरफ के पास साइटसाइट समर्थन है। यह देखने के लिए कि वे इसे कैसे करते हैं, उनके जीआईटी को देखें: http://jabref.sourceforge.net/download.php संभवतया जब्रीफ आपकी वास्तविक समस्या का उत्तर है, यानी संदर्भ प्रबंधन? –

+0

मैं अपने वेबपृष्ठ को स्क्रैप करने और विश्वसनीय रूप से ऐसा करने में सक्षम होने के लिए अपना स्वयं का XQuery इंजन लिखने का सुझाव दूंगा। – BeniBela

+0

जबरफ के लिए धन्यवाद, @ मरेक-क्रूज़। हाँ, मुझे लगता है कि वे भी स्क्रैप (CiteSeerXFetcher.java)। मुझे आश्चर्य है कि CiteSeerX में एक एपीआई नहीं है (और वे स्पष्ट रूप से अपनी साइट, एक तरफ या दूसरी स्थिति की स्थिति स्पष्ट रूप से नहीं बताते हैं)। – dan3

उत्तर

5

टिप्पणीकर्ताओं में से एक ने सुझाव दिया है, मैं पहले jabref की कोशिश की:

jabref -n -f "citeseer: शीर्षक: (से सबक) लेखक: (Brewer)"

हालांकि jabref को एहसास नहीं होता है कि क्वेरी स्ट्रिंग को कोलन शामिल करने की आवश्यकता है और इसलिए एक त्रुटि फेंकता है।

खोज परिणामों के लिए, मैं पायथन के BeautifulSoup साथ CiteSeerX परिणाम scraping समाप्त हो गया:

url = "http://citeseerx.ist.psu.edu/search?q=" 
q = "title%3A%28{1}%29+author%3%28{0}%29&submit=Search&sort=cite&t=doc" 
url += q.format (author_last, title.replace (" ", "+")) 
soup = BeautifulSoup (urllib2.urlopen (url).read()) 
result = soup.html.body ("div", id = "result_list") [0].div 
title = result.h3.a.string.strip() 
authors = result ("span", "authors") [0].string 
authors = authors [len ("by "):].strip() 
date = result ("span", "pubyear") [0].string.strip (", ") 

यह परिणाम से एक दस्तावेज़ आईडी (गुमराह नाम "दोई = ..." हिस्सा पाने के लिए संभव है सारांश लिंक यूआरएल में) और उसके बाद डबलिन कोर एक्सएमएल (उदाहरण के लिए http://citeseerx.ist.psu.edu/oai2?verb=GetRecord&metadataPrefix=oai_dc&identifier=oai:CiteSeerX.psu:10.1.1.42.2177) प्राप्त करने के लिए CiteSeerX OAI इंजन को पास करें; हालांकि एक्सएमएल समाप्त होता है जिसमें एकाधिक डीसी: दिनांक तत्व होते हैं, जो इसे स्क्रैप आउटपुट से कम उपयोगी बनाता है।

बहुत खराब CiteSeerX लोगों को सभी खुले अभिलेखागार/खुले उपयोग के वक्तव्य के बावजूद स्क्रैपिंग का सहारा लेता है।

संबंधित मुद्दे