wget

का उपयोग करके Google विद्वान खोज परिणामों से सभी पीडीएफ फ़ाइलों को डाउनलोड करना मैं एक साधारण वेब मकड़ी लिखना चाहता हूं या Google विद्वान से पीडीएफ परिणामों को डाउनलोड करने के लिए बस wget का उपयोग करना चाहता हूं। वास्तव में अनुसंधान के लिए कागजात पाने के लिए यह एक बहुत ही कठिन तरीका होगा।wget

मैं stackoverflow पर अगले पन्नों को पढ़ लिया है:

Crawl website using wget and limit total number of crawled links

How do web spiders differ from Wget's spider?

Downloading all PDF files from a website

How to download all files (but not HTML) from a website using wget?

अंतिम पृष्ठ शायद सभी के अधिकांश प्रेरणादायक है। मैंने this पर सुझाए गए अनुसार wget का उपयोग करने का प्रयास किया था।

मेरा Google विद्वान खोज परिणाम पृष्ठ thus है लेकिन कुछ भी डाउनलोड नहीं किया गया था।

यह देखते हुए कि वेबप्राइडर की समझ का मेरा स्तर न्यूनतम है, इसे संभव बनाने के लिए मुझे क्या करना चाहिए? मुझे एहसास है कि एक मकड़ी लिखना शायद बहुत शामिल है और एक ऐसी परियोजना है जिसे मैं नहीं लेना चाहता हूं। यदि wget का उपयोग करना संभव है, तो यह बिल्कुल शानदार होगा।

स्रोत

2012-09-04 drN

wget -e robots=off -H --user-agent="Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.3) Gecko/2008092416 Firefox/3.0.3" -r -l 1 -nd -A pdf http://scholar.google.com/scholar?q=filetype%3Apdf+liquid+films&btnG=&hl=en&as_sdt=0%2C23

कुछ बातें

गौर करने योग्य

filetyle की

उपयोग: पीडीएफ खोज क्वेरी में प्रत्यावर्तन
-एक पीडीएफ के
एक स्तर केवल स्वीकार करने pdfs
के लिए एच मेजबान स्पैन करने के लिए
-e रोबोट = ऑफ और --user-agent का उपयोग सर्वोत्तम परिणाम सुनिश्चित करेगा। Google विद्वान रिक्त उपयोगकर्ता एजेंट को अस्वीकार करता है, और पीडीएफ रिपोजिटरी रोबोटों को अस्वीकार करने की संभावना है।

पाठ्यक्रम की सीमा यह है कि यह केवल परिणामों के पहले पृष्ठ को ही प्रभावित करेगा। आप रिकर्सन की गहराई का विस्तार कर सकते हैं, लेकिन यह जंगली दौड़ जाएगा और हमेशा के लिए ले जाएगा। मैं Beautiful Soup और wget subprocesses जैसे संयोजन के संयोजन का अनुशंसा करता हूं, ताकि आप खोज परिणामों को रणनीतिक रूप से पार्स कर सकें।

स्रोत

2012-09-05 12:24:02 dongle

नहीं, दुर्भाग्य से मेरी टर्मिनल विंडो क्रैश हो जाती है और जब मैं यह आदेश चलाता हूं तो बंद हो जाता है। मैं मोज़िला 5.0 नहीं चला रहा हूं ... यह फ़ायरफ़ॉक्स 15 है .. तो क्या मुझे तदनुसार कुछ बदलाव करना चाहिए? मैंने 'फ़ायरफ़ॉक्स 3.0.3' को' फ़ायरफ़ॉक्स 15 'में बदल दिया लेकिन इसका कोई फायदा नहीं हुआ। – drN

यह लाइन निरंतरता हो सकती है (\)। उन्हें हटाने के लिए संपादित - पुनः प्रयास करें। उपयोगकर्ता एजेंट जो कुछ भी आपको पसंद हो सकता है ... – dongle

एक आकर्षण की तरह काम करता है! ':)' – drN

उत्तर

संबंधित मुद्दे