2010-04-14 3 views
6

के साथ HTML की पूरी सामग्री को डाउनलोड करने के लिए 'wget' को कैसे सक्षम करें मेरे पास site है जो मैं यूनिक्स wget का उपयोग करके डाउनलोड करना चाहता हूं। यदि आप स्रोत कोड और फ़ाइल की सामग्री को देखते हैं तो इसमें सारांश नामक अनुभाग होता है। हालांकि इस तरह की एक wget आदेश जारी करने के बाद:जावास्क्रिप्ट

wget -O downdloadedtext.txt http://www.ncbi.nlm.nih.gov/IEB/Research/Acembly/av.cgi?db=mouse&c=gene&a=fiche&l=2610008E11Rik 

downdloadedtext.txt की सामग्री अधूरा और स्रोत कोड है कि साइट के साथ अलग है। उदाहरण के लिए इसमें सारांश खंड नहीं है। क्या पूर्ण सामग्री को सही तरीके से प्राप्त करने का कोई सही तरीका है?

कारण मैं यह पूछता हूं क्योंकि मैं उस HTML में विभिन्न मानों से डाउनलोड को स्वचालित करना चाहता हूं।

+0

मुझे समझ में नहीं आता है। स्रोत कोड में क्या अंतर हैं? और जावास्क्रिप्ट को इसके साथ क्या करना है? –

+0

@ पेक्का: जिस शरीर में जावास्क्रिप्ट है वह डाउनलोड नहीं होता है। कृपया कोशिश करें और देखें। – neversaint

+0

मेरे पास अभी wget आसान नहीं है (विंडोज़ मशीन पर)। क्या वास्तविक * शरीर * अलग है या जेएस फाइलें डाउनलोड नहीं हो रही हैं? –

उत्तर

11

आप कोट के अंदर लिंक रखना होगा:

wget -O downdloadedtext.txt 'http://www.ncbi.nlm.nih.gov/IEB/Research/Acembly/av.cgi?db=mouse&c=gene&a=fiche&l=2610008E11Rik' 

इसका कारण यह है & एक विशेष अर्थ नहीं है और कई आदेशों में आदेश विभाजित कर देगा।

3

& चरित्र के गोले में विशेष अर्थ है। यूआरआई उद्धरण दें ताकि आप वास्तव में यूआरआई से अनुरोध कर सकें कि आप अनुरोध करना चाहते हैं।

+0

@ डीडी: उद्धरण कैसे करें? मैंने कोशिश की "\ & l = 2610008E11Rik" लेकिन अभी भी असफल रहा। – neversaint

+0

'&' के बजाय '& 'आज़माएं। –

+0

@ पेक्का: धन्यवाद लेकिन अभी भी कोई प्रभाव नहीं है। – neversaint

2

आप -p (--page-prerequisites) ध्वज का उपयोग wget को लिंक संसाधनों को पुनर्प्राप्त करने के लिए कह सकते हैं। man wget से:

यह विकल्प Wget को उन सभी फ़ाइलों को डाउनलोड करने का कारण बनता है जो उचित HTML पृष्ठ को सही तरीके से प्रदर्शित करने के लिए आवश्यक हैं। इसमें इनलाइन चीजों, ध्वनियों और संदर्भित स्टाइलशीट जैसी चीजें शामिल हैं।

तुम भी --follow-tags विकल्प है, जो देता है पर लग सकता है आप को सीमित प्रक्रिया है कि:

Wget एचटीएमएल टैग/विशेषता जोड़े का एक आंतरिक तालिका यह मानता है कि जब एक पुनरावर्ती दौरान जुड़ा हुआ दस्तावेजों की तलाश में है पुनः प्राप्ति। यदि कोई उपयोगकर्ता केवल उन टैगों का उप-समूह चाहता है, तो उसे इस विकल्प के साथ अल्पविराम से अलग सूची में ऐसे टैग निर्दिष्ट किए जाने चाहिए।

+0

@TJC में विशेष अर्थ है: ऐसा नहीं होगा। मैं लिंक किए गए स्रोत की सामग्री प्राप्त नहीं करना चाहता हूं। मैं बस उस साइट की पूरी सामग्री प्राप्त करना चाहता हूं। – neversaint

+0

@neversaint मुझे लगता है कि आपका मतलब "पृष्ठ" है, न कि "साइट" –

संबंधित मुद्दे