मैं वेब पेजों को स्क्रैप करने के लिए PyQt5 का उपयोग कर रहा हूं, जो http: // URL के लिए बहुत अच्छा काम करता है, लेकिन https: // URL के लिए बिल्कुल नहीं।जावास्क्रिप्ट वेब पेजों के पाइथन स्क्रैपिंग केवल https पृष्ठों के लिए विफल रहता है
मेरी स्क्रिप्ट के संबंधित भाग के नीचे है:
class WebPage(QWebPage):
def __init__(self):
super(WebPage, self).__init__()
self.timerScreen = QTimer()
self.timerScreen.setInterval(2000)
self.timerScreen.setSingleShot(True)
self.timerScreen.timeout.connect(self.handleLoadFinished)
self.loadFinished.connect(self.timerScreen.start)
def start(self, urls):
self._urls = iter(urls)
self.fetchNext()
def fetchNext(self):
try:
url = next(self._urls)
except StopIteration:
return False
else:
self.mainFrame().load(QUrl(url))
return True
def processCurrentPage(self):
url = self.mainFrame().url().toString()
html = self.mainFrame().toHtml()
#Do stuff with html
print('loaded: [%d bytes] %s' % (self.bytesReceived(), url))
def handleLoadFinished(self):
self.processCurrentPage()
if not self.fetchNext():
qApp.quit()
सुरक्षित पृष्ठों, स्क्रिप्ट एक रिक्त पृष्ठ वापस आती है। एकमात्र एचटीएमएल वापस आ रहा है <html><head></head><body></body></html>
है।
मुझे कुछ नुकसान हुआ है। क्या ऐसी सेटिंग है जो सुरक्षित यूआरएल को संभालने से संबंधित है?
क्या आपका मतलब है "सुरक्षित पृष्ठों के लिए, स्क्रिप्ट एक खाली पृष्ठ देता है"? – Adam
आह, हाँ मैं करता हूं। धन्यवाद, मुझे यह देखना चाहिए था। – samg86
@ samg86। मैं इसे पुन: उत्पन्न नहीं कर सकता। कृपया कुछ नमूना सुरक्षित यूआरएल प्रदान करें जो समस्या का कारण बनते हैं। – ekhumoro