2011-11-11 13 views
11

आधुनिक CPUs में बहुत सारे प्रदर्शन काउंटर हैं - http://www.intel.com/content/www/us/en/architecture-and-technology/64-ia-32-architectures-software-developer-system-programming-manual-325384.html उन्हें कैसे पढ़ा जाए? मुझे कैश मिस और शाखा गलतफहमी में रूचि है।i5 पर प्रदर्शन काउंटर कैसे पढ़ा जाए, i7 CPUs

उत्तर

14

ऐसा लगता है कि PAPI में बहुत साफ एपीआई है और उबंटू 11.04 पर ठीक काम करता है। एक बार जब यह स्थापित किया गया है, तो निम्न एप्लिकेशन मैं चाहता था क्या करेंगे:

#include <stdio.h> 
#include <stdlib.h> 
#include <papi.h> 

#define NUM_EVENTS 4 

void matmul(const double *A, const double *B, 
     double *C, int m, int n, int p) 
{ 
    int i, j, k; 
    for (i = 0; i < m; ++i) 
     for (j = 0; j < p; ++j) { 
      double sum = 0; 
      for (k = 0; k < n; ++k) 
       sum += A[i*n + k] * B[k*p + j]; 
      C[i*p + j] = sum; 
     } 
} 

int main(int /* argc */, char ** /* argv[] */) 
{ 
    const int size = 300; 
    double a[size][size]; 
    double b[size][size]; 
    double c[size][size]; 

    int event[NUM_EVENTS] = {PAPI_TOT_INS, PAPI_TOT_CYC, PAPI_BR_MSP, PAPI_L1_DCM }; 
    long long values[NUM_EVENTS]; 

    /* Start counting events */ 
    if (PAPI_start_counters(event, NUM_EVENTS) != PAPI_OK) { 
     fprintf(stderr, "PAPI_start_counters - FAILED\n"); 
     exit(1); 
    } 

    matmul((double *)a, (double *)b, (double *)c, size, size, size); 

    /* Read the counters */ 
    if (PAPI_read_counters(values, NUM_EVENTS) != PAPI_OK) { 
     fprintf(stderr, "PAPI_read_counters - FAILED\n"); 
     exit(1); 
    } 

    printf("Total instructions: %lld\n", values[0]); 
    printf("Total cycles: %lld\n", values[1]); 
    printf("Instr per cycle: %2.3f\n", (double)values[0]/(double) values[1]); 
    printf("Branches mispredicted: %lld\n", values[2]); 
    printf("L1 Cache misses: %lld\n", values[3]); 

    /* Stop counting events */ 
    if (PAPI_stop_counters(values, NUM_EVENTS) != PAPI_OK) { 
     fprintf(stderr, "PAPI_stoped_counters - FAILED\n"); 
     exit(1); 
    } 

    return 0; 
} 

इंटेल Q6600 पर इस परीक्षण किया गया, यह 4 प्रदर्शन घटनाओं के लिए समर्थन करता है। आपका प्रोसेसर कम या ज्यादा समर्थन कर सकता है।

+3

पीएपीआई अच्छी चीजें है। यह क्रॉस-प्लेटफॉर्म है, इसलिए यह x86-Windows से आईबीएम ब्लूजेन्स तक, अधिकांश प्लेटफॉर्म पर काम करता है। –

2

प्रदर्शन काउंटर RDPMC insn के साथ पढ़े जाते हैं।

संपादित करें: में थोड़ा और अधिक जानकारी जोड़ने के लिए, प्रदर्शन काउंटरों पढ़ने बहुत आसान नहीं है और यह पृष्ठों पर पृष्ठों ले अगर हम इसे यहाँ वर्णन करने के लिए, के अलावा यह विशिष्ट रजिस्टर, जो विशेषाधिकार प्राप्त निर्देश की आवश्यकता मॉडल लिखते हैं शामिल हैं जाएगा । मैं इसके बजाय तैयार प्रोफाइलर्स - ऑप्रोफाइल या इंटेल वीट्यून का उपयोग करने की सलाह दूंगा, जो प्रदर्शन काउंटर पर बनाए जाते हैं।

+3

आरडीपीएमसी का उल्लेख करने के बाद यह मुश्किल नहीं दिखता है। एक बार आरडीपीएमसी के लिए निजीकृत मोड को कोड की केवल 15 लाइनों को अक्षम कर दिया गया है, और लिनक्स 2.6.32 इसे डिफ़ॉल्ट रूप से अक्षम कर देता है। इसके अलावा बहुत अच्छी लाइब्रेरी है - http://icl.cs.utk.edu/papi/software/index.html –

5

perf के बारे में क्या? perf list hw cache 33 विभिन्न कार्यक्रम दिखाता है और मैन पेज दिखाता है कि कच्चे प्रदर्शन काउंटर डिस्क्रिप्टर का उपयोग कैसे करें।

2

मुझे लगता है कि एक उपलब्ध पुस्तकालय है कि इस्तेमाल किया जा सकता, कहा जाता perfmon2, http://perfmon2.sourceforge.net/ है, और दस्तावेजों http://www.hpl.hp.com/research/linux/perfmon/perfmon.php4 और http://www.hpl.hp.com/techreports/2004/HPL-2004-200R1.html पर उपलब्ध हैं, मैं हाल ही में इस lib बाहर खुदाई कर रहा हूँ, मैं जितनी जल्दी मैं इसे समझ से बाहर के रूप में उदाहरण कोड पोस्ट करेंगे ~

संबंधित मुद्दे