citeseerx खोज api

क्या CiteSeerX प्रोग्रामेटिक रूप से एक्सेस करने का कोई तरीका है (उदाहरण के लिए लेखक और/या शीर्षक द्वारा खोजें?) आश्चर्य की बात है कि मुझे कुछ भी प्रासंगिक नहीं मिल रहा है; निश्चित रूप से अन्य भी स्क्रैपिंग का उपयोग किए बिना विद्वान लेख मेटाडाटा प्राप्त करने की कोशिश कर रहे हैं?citeseerx खोज api

संपादित करें: ध्यान दें कि CiteSeerX supports ओएआई पीएमएच, लेकिन ऐसा लगता है कि एक दूसरे के साथ अद्यतित डिजिटल लाइब्रेरीज़ ("सामग्री प्रसार") के साथ एक एपीआई तैयार है और विशेष रूप से खोज का समर्थन नहीं करता है। इसके अलावा उस पृष्ठ पर citeseer जानकारी बहुत अस्पष्ट है और यहां तक कि "वर्तमान में, ओएआई के साथ कठिनाइयों" हैं।

another सीटसेयरएक्स एपीआई (हालांकि विशेष रूप से खोज नहीं) के बारे में SO सवाल है; 2 उत्तरों समस्या का समाधान नहीं करते हैं (मेंडेली के बारे में एक वार्ता, सॉफ्टवेयर का एक और टुकड़ा, और दूसरा कहता है कि ओएआई-पीएमएच कार्यान्वयन न्यूनतम स्पेक के विस्तार की पेशकश करने के लिए स्वतंत्र हैं)।

वैकल्पिक रूप से, क्या कोई प्रोग्रामर/शीर्षक से प्रोग्रामेटिक रूप से उद्धरण प्राप्त करने का एक अच्छा तरीका सुझा सकता है?

स्रोत

2012-12-29 dan3

जेबआरफ के पास साइटसाइट समर्थन है। यह देखने के लिए कि वे इसे कैसे करते हैं, उनके जीआईटी को देखें: http://jabref.sourceforge.net/download.php संभवतया जब्रीफ आपकी वास्तविक समस्या का उत्तर है, यानी संदर्भ प्रबंधन? –

मैं अपने वेबपृष्ठ को स्क्रैप करने और विश्वसनीय रूप से ऐसा करने में सक्षम होने के लिए अपना स्वयं का XQuery इंजन लिखने का सुझाव दूंगा। – BeniBela

जबरफ के लिए धन्यवाद, @ मरेक-क्रूज़। हाँ, मुझे लगता है कि वे भी स्क्रैप (CiteSeerXFetcher.java)। मुझे आश्चर्य है कि CiteSeerX में एक एपीआई नहीं है (और वे स्पष्ट रूप से अपनी साइट, एक तरफ या दूसरी स्थिति की स्थिति स्पष्ट रूप से नहीं बताते हैं)। – dan3

टिप्पणीकर्ताओं में से एक ने सुझाव दिया है, मैं पहले jabref की कोशिश की:

jabref -n -f "citeseer: शीर्षक: (से सबक) लेखक: (Brewer)"

हालांकि jabref को एहसास नहीं होता है कि क्वेरी स्ट्रिंग को कोलन शामिल करने की आवश्यकता है और इसलिए एक त्रुटि फेंकता है।

खोज परिणामों के लिए, मैं पायथन के BeautifulSoup साथ CiteSeerX परिणाम scraping समाप्त हो गया:

url = "http://citeseerx.ist.psu.edu/search?q=" 
q = "title%3A%28{1}%29+author%3%28{0}%29&submit=Search&sort=cite&t=doc" 
url += q.format (author_last, title.replace (" ", "+")) 
soup = BeautifulSoup (urllib2.urlopen (url).read()) 
result = soup.html.body ("div", id = "result_list") [0].div 
title = result.h3.a.string.strip() 
authors = result ("span", "authors") [0].string 
authors = authors [len ("by "):].strip() 
date = result ("span", "pubyear") [0].string.strip (", ")

यह परिणाम से एक दस्तावेज़ आईडी (गुमराह नाम "दोई = ..." हिस्सा पाने के लिए संभव है सारांश लिंक यूआरएल में) और उसके बाद डबलिन कोर एक्सएमएल (उदाहरण के लिए http://citeseerx.ist.psu.edu/oai2?verb=GetRecord&metadataPrefix=oai_dc&identifier=oai:CiteSeerX.psu:10.1.1.42.2177) प्राप्त करने के लिए CiteSeerX OAI इंजन को पास करें; हालांकि एक्सएमएल समाप्त होता है जिसमें एकाधिक डीसी: दिनांक तत्व होते हैं, जो इसे स्क्रैप आउटपुट से कम उपयोगी बनाता है।

बहुत खराब CiteSeerX लोगों को सभी खुले अभिलेखागार/खुले उपयोग के वक्तव्य के बावजूद स्क्रैपिंग का सहारा लेता है।

स्रोत

2012-12-31 14:03:31 dan3

citeseerx खोज api

उत्तर

संबंधित मुद्दे