मैं संदेह कर रहा हूं कि मेरे जीपीयू बॉक्स पर टेंसफोर्लो सही तरीके से कॉन्फ़िगर किया गया है, क्योंकि यह एक साधारण रैखिक प्रतिगमन मॉडल (बैचसाइज = 32, 1500 इनपुट फीचर्स, 150 आउटपुट चर) को प्रशिक्षित करने के लिए लगभग 100x धीमी प्रति पुनरावृत्ति है। मेरे लैपटॉप की तुलना में मेरी फैंसी जीपीयू मशीन पर।टेन्सफोर्लो परीक्षण के लिए स्पीड बेंचमार्क
मैं एक आधुनिक सीपीयू आदि के साथ टाइटन एक्स का उपयोग कर रहा हूं, एनवीडिया-एसएमआई का कहना है कि मैं केवल 10% जीपीयू उपयोग पर हूं, लेकिन मुझे उम्मीद है कि यह छोटे बैचसाइज की वजह से है। मैं गणना ग्राफ में डेटा को स्थानांतरित करने के लिए feed_dict का उपयोग नहीं कर रहा हूं। सब कुछ एक tf.decode_csv और tf.train.shuffle_batch के माध्यम से आ रहा है।
क्या किसी के पास कोई भी सिफारिश है कि आसानी से जांचें कि मेरा इंस्टॉल सही है या नहीं? क्या कोई साधारण गति मानक हैं? मेरे लैपटॉप और जीपीयू मशीन के बीच गति अंतर इतना नाटकीय है कि मुझे उम्मीद है कि चीजें ठीक से कॉन्फ़िगर नहीं की गई हैं।
कुछ उदाहरण GPU के लिए अनुकूलित नहीं कर रहे हैं और 100x धीमी प्राप्त कर सकते हैं जब GPU क्योंकि प्रतियों की सक्षम किया गया है, यहाँ एक https है: //github.com/tensorflow/tensorflow/issues/838 –