क्या पाइथन में यूआरएल की तुलना करने के लिए कोई उपकरण हैं?कैननिकल यूआरएल पायथन में तुलना करता है?
उदाहरण के लिए, यदि मेरे पास http://google.com
और google.com/
है, तो मुझे यह जानना है कि वे एक ही साइट होने की संभावना है।
यदि मैं मैन्युअल रूप से नियम बनाना चाहता था, तो मैं इसे अपरकेस कर सकता हूं, फिर http://
भाग को बंद कर दें, और अंतिम अल्फा-न्यूमेरिक चरित्र के बाद कुछ भी छोड़ दें .. लेकिन मुझे यकीन है कि मैं इसकी विफलताओं को देख सकता हूं, क्योंकि मुझे यकीन है आप भी कर सकते हैं
क्या कोई पुस्तकालय है जो यह करता है? आपको इसे कैसे करना होगा?
संभव डुप्लिकेट: http://stackoverflow.com/questions/682367/ –
यह आप पोस्ट एक्स प्रतिष्ठा के बिना दो _links_ नहीं दूँगा, लेकिन आप के रूप में कई शामिल कर सकते हैं यूआरएल जैसा आप चाहते हैं अगर आप उन्हें बैकक्वॉट्स में डाल दें ताकि पार्सर उन्हें लिंक में परिवर्तित न करे। मैंने आपके प्रश्न को संपादित करने के लिए संपादित किया जो मुझे लगता है कि आप क्या सोचते हैं, लेकिन अगर मुझे यह गलत लगता है तो कृपया इसे सही करने के लिए इसे फिर से संपादित करें। –
ओह, और एक और बात: "फ़ज़ी" तुलना से आपका क्या मतलब है? यह कहना आसान है कि 'http: // google.com' और 'google.com /' एक ही चीज़ हैं क्योंकि उनके पास समान कैननिकल रूप है, लेकिन यह अस्पष्ट तुलना नहीं है। एक वास्तविक अस्पष्ट तुलना उन यूआरएल की पहचान करेगी जो समान हैं, लेकिन समान नहीं हैं, भले ही आप उन्हें एक मानक रूप में परिवर्तित कर सकें। –