wget

2012-09-04 11 views
8

का उपयोग करके Google विद्वान खोज परिणामों से सभी पीडीएफ फ़ाइलों को डाउनलोड करना मैं एक साधारण वेब मकड़ी लिखना चाहता हूं या Google विद्वान से पीडीएफ परिणामों को डाउनलोड करने के लिए बस wget का उपयोग करना चाहता हूं। वास्तव में अनुसंधान के लिए कागजात पाने के लिए यह एक बहुत ही कठिन तरीका होगा।wget

मैं stackoverflow पर अगले पन्नों को पढ़ लिया है:

Crawl website using wget and limit total number of crawled links

How do web spiders differ from Wget's spider?

Downloading all PDF files from a website

How to download all files (but not HTML) from a website using wget?

अंतिम पृष्ठ शायद सभी के अधिकांश प्रेरणादायक है। मैंने this पर सुझाए गए अनुसार wget का उपयोग करने का प्रयास किया था।

मेरा Google विद्वान खोज परिणाम पृष्ठ thus है लेकिन कुछ भी डाउनलोड नहीं किया गया था।

यह देखते हुए कि वेबप्राइडर की समझ का मेरा स्तर न्यूनतम है, इसे संभव बनाने के लिए मुझे क्या करना चाहिए? मुझे एहसास है कि एक मकड़ी लिखना शायद बहुत शामिल है और एक ऐसी परियोजना है जिसे मैं नहीं लेना चाहता हूं। यदि wget का उपयोग करना संभव है, तो यह बिल्कुल शानदार होगा।

उत्तर

11
wget -e robots=off -H --user-agent="Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.3) Gecko/2008092416 Firefox/3.0.3" -r -l 1 -nd -A pdf http://scholar.google.com/scholar?q=filetype%3Apdf+liquid+films&btnG=&hl=en&as_sdt=0%2C23 
कुछ बातें

गौर करने योग्य

filetyle की
  1. उपयोग: पीडीएफ खोज क्वेरी में प्रत्यावर्तन
  2. -एक पीडीएफ के
  3. एक स्तर केवल स्वीकार करने pdfs
  4. के लिए एच मेजबान स्पैन करने के लिए
  5. -e रोबोट = ऑफ और --user-agent का उपयोग सर्वोत्तम परिणाम सुनिश्चित करेगा। Google विद्वान रिक्त उपयोगकर्ता एजेंट को अस्वीकार करता है, और पीडीएफ रिपोजिटरी रोबोटों को अस्वीकार करने की संभावना है।

पाठ्यक्रम की सीमा यह है कि यह केवल परिणामों के पहले पृष्ठ को ही प्रभावित करेगा। आप रिकर्सन की गहराई का विस्तार कर सकते हैं, लेकिन यह जंगली दौड़ जाएगा और हमेशा के लिए ले जाएगा। मैं Beautiful Soup और wget subprocesses जैसे संयोजन के संयोजन का अनुशंसा करता हूं, ताकि आप खोज परिणामों को रणनीतिक रूप से पार्स कर सकें।

+0

नहीं, दुर्भाग्य से मेरी टर्मिनल विंडो क्रैश हो जाती है और जब मैं यह आदेश चलाता हूं तो बंद हो जाता है। मैं मोज़िला 5.0 नहीं चला रहा हूं ... यह फ़ायरफ़ॉक्स 15 है .. तो क्या मुझे तदनुसार कुछ बदलाव करना चाहिए? मैंने 'फ़ायरफ़ॉक्स 3.0.3' को' फ़ायरफ़ॉक्स 15 'में बदल दिया लेकिन इसका कोई फायदा नहीं हुआ। – drN

+0

यह लाइन निरंतरता हो सकती है (\)। उन्हें हटाने के लिए संपादित - पुनः प्रयास करें। उपयोगकर्ता एजेंट जो कुछ भी आपको पसंद हो सकता है ... – dongle

+0

एक आकर्षण की तरह काम करता है! ':)' – drN

संबंधित मुद्दे