2011-06-15 11 views
7

मैंने अभी एक पुस्तक "सी इंटरफेस और कार्यान्वयन" खरीदी है। एक अध्याय में, यह इस प्रकार एक "एटम" संरचना, नमूना कोड लागू किया गया है:हैश टेबल कार्यान्वयन

#define NELEMS(x) ((sizeof (x))/(sizeof ((x)[0]))) 
static struct atom { 
    struct atom *link; 
    int len; 
    char *str; 
} *buckets[2048]; 
static unsigned long scatter[] = { 
2078917053, 143302914, 1027100827,302, 755253631, 2002600785, 
1405390230, 45248011, 1099951567, 433832350, 2018585307, 438263339, 
813528929, 1703199216, 618906479, 573714703, 766270699, 275680090, 
1510320440, 1583583926, 1723401032, 1965443329, 1098183682, 1636505764, 
980071615, 1011597961, 643279273, 1315461275, 157584038, 1069844923, 
471560540, 89017443, 1213147837, 1498661368, 2042227746, 1968401469, 
1353778505, 1300134328, 2013649480, 306246424, 1733966678, 1884751139, 
744509763, 400011959, 1440466707, 1363416242, 973726663, 59253759, 
1639096332, 336563455, 1642837685, 1215013716, 154523136, 593537720, 
704035832, 1134594751, 1605135681, 1347315106, 302572379, 1762719719, 
269676381, 774132919, 1851737163, 1482824219, 125310639, 1746481261, 
1303742040, 1479089144, 899131941, 1169907872, 1785335569, 485614972, 
907175364, 382361684, 885626931, 200158423, 1745777927, 1859353594, 
259412182, 1237390611, 48433401, 1902249868, 304920680, 202956538, 
348303940, 1008956512, 1337551289, 1953439621, 208787970, 164, 
1568675693, 478464352, 266772940, 1272929208, 1961288571, 392083579, 
871926821, 1117546963, 1871172724, 1771058762, 139971187, 1509024645, 
109190086, 1047146551, 1891386329, 994817018, 1247304975, 1489680608, 
706686964, 1506717157, 579587572, 755120366, 1261483377, 884508252, 
958076904, 1609787317, 1893464764, 148144545, 1415743291, 2102252735, 
1788268214, 836935336, 433233439, 2055041154, 2109864544, 247038362, 
299641085, 834307717, 1364585325, 23330161, 457882831, 1504556512, 
1532354806, 567072918, 404219416, 1276257488, 1561889936, 1651524391, 
618454448, 121093252, 1010757900, 1198042020, 876213618, 124757630, 
2082550272, 1834290522, 1734544947, 1828531389, 1982435068, 1002804590, 
1783300476, 1623219634, 1839739926, 69050267, 1530777140, 1802120822, 
316088629, 1830418225, 488944891, 1680673954, 1853748387, 946827723, 
1037746818, 1238619545, 1513900641, 1441966234, 367393385, 928306929, 
946006977, 985847834, 1049400181, 1956764878, 36406206, 1925613800, 
2081522508, 2118956479, 1612420674, 1668583807, 1800004220, 1447372094, 
523904750, 1435821048, 923108080, 216161028, 1504871315, 306401572, 
2018281851, 1820959944, 2136819798, 359743094, 1354150250, 1843084537, 
1306570817, 244413420, 934220434, 672987810, 1686379655, 1301613820, 
1601294739, 484902984, 139978006, 503211273, 294184214, 176384212, 
281341425, 228223074, 147857043, 1893762099, 1896806882, 1947861263, 
1193650546, 273227984, 1236198663, 2116758626, 489389012, 593586330, 
275676551, 360187215, 267062626, 265012701, 719930310, 1621212876, 
2108097238, 2026501127, 1865626297, 894834024, 552005290, 1404522304, 
48964196, 5816381, 1889425288, 188942202, 509027654, 36125855, 
365326415, 790369079, 264348929, 513183458, 536647531, 13672163, 
313561074, 1730298077, 286900147, 1549759737, 1699573055, 776289160, 
2143346068, 1975249606, 1136476375, 262925046, 92778659, 1856406685, 
1884137923, 53392249, 1735424165, 1602280572 
}; 
const char *Atom_new(const char *str, int len) { 
    unsigned long h; 
    int i; 
    struct atom *p; 
    assert(str); 
    assert(len >= 0); 
    for (h = 0, i = 0; i < len; i++) 
     h = (h<<1) + scatter[(unsigned char)str[i]]; 
    h &= NELEMS(buckets)-1; 
    for (p = buckets[h]; p; p = p->link) 
     if (len == p->len) { 
      for (i = 0; i < len && p->str[i] == str[i];) 
       i++; 
      if (i == len) 
       return p->str; 
     } 
    p = ALLOC(sizeof (*p) + len + 1); 
    p->len = len; 
    p->str = (char *)(p + 1); 
    if (len > 0) 
     memcpy(p->str, str, len); 
    p->str[len] = '\0'; 
    p->link = buckets[h]; 
    buckets[h] = p;//insert atom in front of list 
    return p->str; 
} 
अध्याय के अंत में

, अभ्यास में 3.1, पुस्तक के लेखक ने कहा "अधिकांश ग्रंथों के लिए एक प्रमुख संख्या उपयोग करने की अनुशंसा बाल्टी का आकार। प्राइम और एक अच्छा हैश फ़ंक्शन का उपयोग आमतौर पर बाल्टी से लटकने वाली सूचियों की लंबाई का बेहतर वितरण देता है। एटम दो की शक्ति का उपयोग करता है, जिसे कभी-कभी को खराब विकल्प के रूप में स्पष्ट रूप से उद्धृत किया जाता है। उत्पन्न करने या पढ़ने के लिए एक प्रोग्राम लिखें, कहें, 10,000 ठेठ तार और माप एटम_न्यू की गति और distrib सूचियों की लंबाई के । फिर बाल्टी बदलें ताकि 2,039 प्रविष्टियां (2,048 से कम का सबसे बड़ा प्राइम) हो और माप दोहराएं। एक प्रमुख मदद का उपयोग कर रहा है? आपके निष्कर्ष आपके विशिष्ट मशीन पर निर्भर करता है? "

इसलिए मैं उस हैश तालिका आकार 2039 के लिए बदल दिया था, लेकिन यह एक अभाज्य संख्या वास्तव में सूचियों में से लंबाई की एक बुरा वितरण, मैं 64, 61, 61 वास्तव में एक बुरा वितरण भी कर दिया की कोशिश की है बना रहा है ।

मैं सिर्फ जानना चाहता है कि एक प्रमुख तालिका आकार एक बुरा वितरण करना चाहते हैं कर रहा हूँ, इस हैश Atom_new के साथ एक बुरा हैश फंक्शन?

मैं इस समारोह का उपयोग कर रहा इस्तेमाल किया समारोह बाहर की लंबाई मुद्रित करने के लिए वजह से है परमाणु सूची

#define B_SIZE 2048 
void Atom_print(void) 
{ 
    int i,t; 
    struct atom *atom; 
    for(i= 0;i<B_SIZE;i++) { 
     t = 0; 
     for(atom=buckets[i];atom;atom=atom->link) { 
      ++t; 
     } 
     printf("%d ",t); 
    } 
} 

उत्तर

7

ठीक है, साथ समय पहले मैं एक हैश तालिका (चालक विकास में) लागू करने के लिए किया था, और मैं एक ही के बारे में। मुझे हेक का उपयोग क्यों करना चाहिए? 2 की ओटीओएच शक्ति भी बेहतर है - 2 की शक्ति के मामले में मॉड्यूलस की गणना करने के बजाय आप थोड़ा सा उपयोग कर सकते हैं और।

इसलिए मैंने ऐसी हैश तालिका लागू की है। कुंजी एक सूचक था (कुछ तृतीय पक्ष समारोह द्वारा लौटाया गया)। फिर, आखिर में मैंने देखा कि मेरी हैश तालिका में सभी प्रविष्टियों में से केवल 1/4 भरा हुआ है। क्योंकि उस हैश फ़ंक्शन का उपयोग मैंने पहचान फ़ंक्शन था, और बस के मामले में यह पता चला कि सभी लौटा पॉइंटर्स 4 के गुणक हैं।

हैश तालिका आकार के लिए प्राइम नंबरों का उपयोग करने का विचार निम्न है: असली -वर्ल्ड हैश फ़ंक्शन समान रूप से वितरित मूल्यों का उत्पादन नहीं करते हैं। आम तौर पर कुछ निर्भरता होती है (या कम से कम हो सकती है)। तो, प्रसारित करने के लिए इस वितरण को प्राइम संख्याओं का उपयोग करने की अनुशंसा की जाती है।

बीटीडब्ल्यू, सैद्धांतिक रूप से ऐसा हो सकता है कि कभी-कभी हैश फ़ंक्शन उन संख्याओं का उत्पादन करेगा जो आपके चुने हुए प्राइम नंबर के गुणक हैं। लेकिन इसकी संभावना कम है अगर यह एक प्रमुख संख्या नहीं थी।

+0

तो, इसका मतलब यह है कि, प्रत्येक विशेष हैश तालिका कार्यान्वयन के लिए, हमें यह कहने से पहले इसका परीक्षण करना होगा कि प्राइम नंबर गैर-प्राइम नंबर से अच्छा है? क्योंकि इस मामले में, गैर-प्रधान संख्या बेहतर है। – anru

7

मुझे लगता है कि यह बाल्टी चुनने के लिए कोड है। कोड में आप चिपकाया यह कहते हैं:

h &= NELEMS(buckets)-1; 

कि आकार जो दो की शक्तियों रहे हैं के लिए ठीक काम करता है, के बाद से अपने अंतिम प्रभाव h के निचले बिट्स चुन रहा है। अन्य आकारों के लिए, NELEMS(buckets)-1 में 0 बिट्स होंगे और बिट-वार & ऑपरेटर बाल्टी सूची में "छेद" को प्रभावी ढंग से छोड़कर उन बिट्स को त्याग देगा।

बाल्टी चयन के लिए सामान्य सूत्र है:

h = h % NELEMS(buckets); 
+1

नमस्ते, मैंने "एच = एच% नीलेम्स (बाल्टी)" की कोशिश की है, अब, प्राइम नंबर का वितरण अच्छा है, लेकिन गैर-प्राइम नंबर का वितरण भी अच्छा है। – anru

+0

@ वाल्डो ने कहा, यह आपके हैश फ़ंक्शन के आउटपुट के वितरण (और अप्रत्यक्ष रूप से आपके इनपुट डेटा पर) पर निर्भर करता है। –

6

यह वही है Eternally Confuzzled से Julienne वाकर हैश तालिका आकार के बारे में क्या कहना है है:

यह टेबल हैश करने के लिए आता है, सबसे सिफारिश की तालिका आकार किसी भी प्रधानमंत्री संख्या है। यह सिफारिश है क्योंकि सामान्य रूप से हैशिंग गलत समझा जाता है, और खराब हैश फ़ंक्शन को विभाजन का एक अतिरिक्त मिश्रण चरण समान वितरण जैसा दिखता है। का एक और कारण है कि एक प्राइम टेबल आकार की सिफारिश की जाती है क्योंकि टकराव रिज़ॉल्यूशन विधियों में से कई को काम करने की आवश्यकता होती है। नहीं, बल्कि कई लोग विकल्प और में पर विचार (के दो अजीब कदम आकारों के साथ आम तौर पर काम बस के रूप में अच्छी तरह से करने के लिए सबसे टक्कर संकल्प रणनीतियों होगा एक शक्ति) वास्तविकता में, यह एक सामान्यीकरण है और वास्तव में गलत है हैश टेबल की दुनिया, प्राइम नियम।

0

यहां काम पर एक और कारक है और यह है कि लगातार हैशिंग मान सभी को अजीब/प्रधान और व्यापक रूप से फैलाना चाहिए। यदि आपके पास धोने की कुंजी में इकाइयों की संख्या (उदाहरण के लिए वर्ण) हैं तो सभी विषम स्थिरांक आपको प्रारंभिक हैश मान भी देंगे। इकाइयों की एक विषम संख्या के लिए आपको एक विषम संख्या मिल जाएगी। मैंने इसके साथ कुछ प्रयोग किया है और केवल 50/50% विभाजन शाम को वितरण में बहुत लायक था। बेशक अगर सभी चाबियाँ उतनी ही लंबी हैं, इससे कोई फर्क नहीं पड़ता।

हैशिंग को यह सुनिश्चित करने की भी आवश्यकता है कि आपको "एएबी" या "बीएए" के लिए "एएबी" के लिए प्रारंभिक हैश मान नहीं मिलेगा।

संबंधित मुद्दे