hash函数查找和ASL计算
Hash表的“查找成功的ASL”和“查找不成功的ASL”
ASL指的是 平均查找時間
關鍵字序列:(7、8、30、11、18、9、14)
散列函數:?
H(Key) = (key x 3) MOD 7
裝載因子:?
0.7
處理沖突:線性探測再散列法
查找成功的ASL計算方法:
以下求解過程是按照“計算機統考的計算方法”,不同的老師、教材在“處理沖突”上可能會有不同的方法,所以最主要的是掌握原理即可,對于考研的朋友最好掌握統考真題的解題方法。?
題目?
例子:(2010年全國碩士研究生入學統一考試計算機科學與技術學科聯考計算機學科專業基礎綜合試題第一題)
將關鍵字序列(7、8、30、11、18、9、14)散列存儲到散列表中。散列表的存儲空間是一個下標從0開始的一維數組。散列函數為: H(key) = (keyx3) MOD 7,處理沖突采用線性探測再散列法,要求裝填(載)因子為0.7。?
(1) 請畫出所構造的散列表;?
(2) 分別計算等概率情況下查找成功和查找不成功的平均查找長度。?
1.散列表:?
α = 表中填入的記錄數/哈希表長度 ==> 哈希表長度 = 7/0.7 = 10?
H(7) = (7x3) MOD 7 = 0 H(8) = (8x3) MOD 7 = 3 H(30) = (30x3) MOD 7 = 6?
H(11) = (11x3) MOD 7 = 5 H(18) = (18x3) MOD 7 = 5 H(9) = (9x3) MOD 7 = 6?
H(14) = (14x3) MOD 7 = 0?
按關鍵字序列順序依次向哈希表中填入,發生沖突后按照“線性探測”探測到第一個空位置填入。?
因為現在的數據是7個,填充因子是0.7。所以數組大小=7/0.7=10,即寫出來的散列表大小為10,下標從0~9。?
第一個元素7,帶入散列函數,計算得0。?
第二個元素8,帶入散列函數,計算得3。?
第三個元素30,帶入散列函數,計算得6。?
第四個元素11,帶入散列函數,計算得5。?
第五個元素18,帶入散列函數,計算得5;此時和11沖突,使用線性探測法,得7。?
第六個元素9,帶入散列函數,計算得6;此時和30沖突,使用線性探測法,得8。?
第七個元素14,帶入散列函數,計算得0;此時和7沖突,使用線性探測法,得1。?
所以散列表:
?
地址?? ?0?? ?1?? ?2?? ?3?? ?4?? ?5?? ?6?? ?7?? ?8?? ?9
key?? ?7?? ?14?? ???? ?8?? ???? ?11?? ?30?? ?18?? ?9?? ??
2.查找長度:?
2.1 查找成功的平均查找長度?
(待查找的數字肯定在散列表中才會查找成功)?
查找數字A的長度 = 需要和散列表中的數比較的次數;?
步驟:?
比如 查找數字:8?
則 H(8) = (8x3) MOD 7 = 3?
哈希表中地址3處的數字為8,進行了第一次比較:8 = 8,則查找成功,查找長度為1;?
比如查找數字:14?
則 H(14) = (14x3) MOD 7 = 0?
哈希表中地址0處的數字為7,進行第一次比較:7≠14?
哈希表中地址1處的數字為14,進行第二次比較:14=14 ,則查找成功,查找長度為2。?
由此可得到如下數據:【2016年12月26日修改,多謝@一樓的朋友指正】?
0 1 2 3 4 5 6 7 8 9?
7 14 8 11 30 18 9?
1 2 1 1 1 3 3?
所以總的查找成功的平均查找長度= (1+1+1+1+3+3+2)/7 = 12/7?
2.2查找不成功的平均查找長度?
(待查找的數字肯定不在散列表中)?
【解題的關鍵之處】根據哈希函數地址為MOD7,因此任何一個數經散列函數計算以后的初始地址只可能在0~6的位置?
查找0~6位置查找失敗的查找次數為:?
地址0,到第一個關鍵字為空的地址2需要比較3次,因此查找不成功的次數為3.?
地址1,到第一個關鍵字為空的地址2需要比較2次,因此查找不成功的次數為2.?
地址2,到第一個關鍵字為空的地址2需要比較1次,因此查找不成功的次數為1.?
地址3,到第一個關鍵字為空的地址4需要比較2次,因此查找不成功的次數為2.?
地址4,到第一個關鍵字為空的地址4需要比較1次,因此查找不成功的次數為1.?
地址5,到第一個關鍵字為空的地址2(比較到地址6,再循環回去)需要比較5次,因此查找不成功的次數為5.?
地址6,到第一個關鍵字為空的地址2(比較到地址6,再循環回去)需要比較4次,因此查找不成功的次數為4.?
于是得到如下數據:?
0 1 2 3 4 5 6 7 8 9?
7 14 8 11 30 18 9?
3 2 1 2 1 5 4?
則查找不成功的平均查找長度 = (3+2+1+2+1+5+4)/7 = 18/7
二.hash算法原理詳解
一.概念
?
哈希表就是一種以 鍵-值(key-indexed) 存儲數據的結構,我們只要輸入待查找的值即key,即可查找到其對應的值。
哈希的思路很簡單,如果所有的鍵都是整數,那么就可以使用一個簡單的無序數組來實現:將鍵作為索引,值即為其對應的值,這樣就可以快速訪問任意鍵的值。這是對于簡單的鍵的情況,我們將其擴展到可以處理更加復雜的類型的鍵。
使用哈希查找有兩個步驟:
1.?使用哈希函數將被查找的鍵轉換為數組的索引。在理想的情況下,不同的鍵會被轉換為不同的索引值,但是在有些情況下我們需要處理多個鍵被哈希到同一個索引值的情況。所以哈希查找的第二個步驟就是處理沖突
2.?處理哈希碰撞沖突。有很多處理哈希碰撞沖突的方法,本文后面會介紹拉鏈法和線性探測法。
哈希表是一個在時間和空間上做出權衡的經典例子。如果沒有內存限制,那么可以直接將鍵作為數組的索引。那么所有的查找時間復雜度為O(1);如果沒有時間限制,那么我們可以使用無序數組并進行順序查找,這樣只需要很少的內存。哈希表使用了適度的時間和空間來在這兩個極端之間找到了平衡。只需要調整哈希函數算法即可在時間和空間上做出取舍。
?
?
在Hash表中,記錄在表中的位置和其關鍵字之間存在著一種確定的關系。這樣我們就能預先知道所查關鍵字在表中的位置,從而直接通過下標找到記錄。使ASL趨近與0.
?
??????????????1)???哈希(Hash)函數是一個映象,即:?將關鍵字的集合映射到某個地址集合上,它的設置很靈活,只要這個地 ??????址集合的大小不超出允許范圍即可;
?????????????2)??由于哈希函數是一個壓縮映象,因此,在一般情況下,很容易產生“沖突”現象,即:?key1!=key2,而??f ?(key1) = f(key2)。
??????????????3).??只能盡量減少沖突而不能完全避免沖突,這是因為通常關鍵字集合比較大,其元素包括所有可能的關鍵字,?而地址集合的元素僅為哈希表中的地址值
?
???????在構造這種特殊的“查找表”?時,除了需要選擇一個“好”(盡可能少產生沖突)的哈希函數之外;還需要找到一 種“處理沖突”?的方法。
?
二.Hash構造函數的方法
?
???1.直接定址法:
?????????????????????????
?直接定址法是以數據元素關鍵字k本身或它的線性函數作為它的哈希地址,即:H(k)=k ?或 H(k)=a×k+b ; (其中a,b為常數)
??例1,有一個人口統計表,記錄了從1歲到100歲的人口數目,其中年齡作為關鍵字,哈希函數取關鍵字本身,如圖(1):
地址
A1
A2
……
A99
A100
年齡
1
2
……
99
100
人數
980
800
……
495
107
可以看到,當需要查找某一年齡的人數時,直接查找相應的項即可。如查找99歲的老人數,則直接讀出第99項即可。
?
地址
A0
A1
……
A99
A100
年齡
1980
1981
……
1999
2000
人數
980
800
……
495
107
?
如果我們要統計的是80后出生的人口數,如上表所示,那么我們隊出生年份這個關鍵字可以用年份減去1980來作為地址,此時f(key)=key-1980
這種哈希函數簡單,并且對于不同的關鍵字不會產生沖突,但可以看出這是一種較為特殊的哈希函數,實際生活中,關鍵字的元素很少是連續的。用該方法產生的哈希表會造成空間大量的浪費,因此這種方法適應性并不強。[2]↑
??此法僅適合于:地址集合的大小?= =?關鍵字集合的大小,其中a和b為常數。
?
?
2.數字分析法:
?????????????假設關鍵字集合中的每個關鍵字都是由?s?位數字組成?(u1, u2, …, us),分析關鍵字集中的全體,并從中提取分布均勻的若干位或它們的組合作為地址。
數字分析法是取數據元素關鍵字中某些取值較均勻的數字位作為哈希地址的方法。即當關鍵字的位數很多時,可以通過對關鍵字的各位進行分析,丟掉分布不均勻的位,作為哈希值。它只適合于所有關鍵字值已知的情況。通過分析分布情況把關鍵字取值區間轉化為一個較小的關鍵字取值區間。
???例2,要構造一個數據元素個數n=80,哈希長度m=100的哈希表。不失一般性,我們這里只給出其中8個關鍵字進行分析,8個關鍵字如下所示:
K1=61317602 ?????K2=61326875 ?????K3=62739628 ?????K4=61343634
K5=62706815 ?????K6=62774638 ?????K7=61381262 ?????K8=61394220
分析上述8個關鍵字可知,關鍵字從左到右的第1、2、3、6位取值比較集中,不宜作為哈希地址,剩余的第4、5、7、8位取值較均勻,可選取其中的兩位作為哈希地址。設選取最后兩位作為哈希地址,則這8個關鍵字的哈希地址分別為:2,75,28,34,15,38,62,20。???????????
?
?此法適于:能預先估計出全體關鍵字的每一位上各種數字出現的頻度。
?????????????
3.折疊法:
????????????將關鍵字分割成若干部分,然后取它們的疊加和為哈希地址。兩種疊加處理的方法:移位疊加:將分?割后的幾部分低位對齊相加;邊界疊加:從一端沿分割界來回折疊,然后對齊相加。
所謂折疊法是將關鍵字分割成位數相同的幾部分(最后一部分的位數可以不同),然后取這幾部分的疊加和(舍去進位),這方法稱為折疊法。這種方法適用于關鍵字位數較多,而且關鍵字中每一位上數字分布大致均勻的情況。
??折疊法中數位折疊又分為移位疊加和邊界疊加兩種方法,移位疊加是將分割后是每一部分的最低位對齊,然后相加;邊界疊加是從一端向另一端沿分割界來回折疊,然后對齊相加。
例4,當哈希表長為1000時,關鍵字key=110108331119891,允許的地址空間為三位十進制數,則這兩種疊加情況如圖:
???????移位疊加 ????????????????????????????????邊界疊加
???????8 9 1 ????????????????????????????????????8 9 1
???????1 1 9 ????????????????????????????????????9 1 1
???????3 3 1 ????????????????????????????????????3 3 1
???????1 0 8 ????????????????????????????????????8 0 1
????+ ?1 1 0 ??????????????????????????????????+ 1 1 0 ?????????????
???(1) 5 5 9 ?????????????????????????????????(3)0 4 4
?????????????????圖(2)由折疊法求哈希地址
?????用移位疊加得到的哈希地址是559,而用邊界疊加所得到的哈希地址是44。如果關鍵字不是數值而是字符串,則可先轉化為數。轉化的辦法可以用ASCⅡ字符或字符的次序值。
????????????此法適于:關鍵字的數字位數特別多。
?
4.平方取中法
??這是一種常用的哈希函數構造方法。這個方法是先取關鍵字的平方,然后根據可使用空間的大小,選取平方數是中間幾位為哈希地址。
哈希函數 H(key)=“key2的中間幾位”因為這種方法的原理是通過取平方擴大差別,平方值的中間幾位和這個數的每一位都相關,則對不同的關鍵字得到的哈希函數值不易產生沖突,由此產生的哈希地址也較為均勻。
例5,若設哈希表長為1000則可取關鍵字平方值的中間三位,如圖所示:
關鍵字
關鍵字的平方
哈希函數值
1234
1522756
227
2143
4592449
924
4132
17073424
734
3214
10329796
297?
??
下面給出平方取中法的哈希函數
?????//平方取中法哈希函數,結設關鍵字值32位的整數
?????//哈希函數將返回key * key的中間10位
???????Int ?Hash (int key)
?????????{
?????//計算key的平方
??????Key * = key ;
?????//去掉低11位
?????Key>>=11;
?????// 返回低10位(即key * key的中間10位)
???????Return key %1024;
??????????}
???此法適于:關鍵字中的每一位都有某些數字重復出現頻度很高的現象
?
?
5.減去法
?
?
減去法是數據的鍵值減去一個特定的數值以求得數據存儲的位置。
例7,公司有一百個員工,而員工的編號介于1001到1100,減去法就是員工編號減去1000后即為數據的位置。編號1001員工的數據在數據中的第一筆。編號1002員工的數據在數據中的第二筆…依次類推。從而獲得有關員工的所有信息,因為編號1000以前并沒有數據,所有員工編號都從1001開始編號。
?
?
6.基數轉換法
??將十進制數X看作其他進制,比如十三進制,再按照十三進制數轉換成十進制數,提取其中若干為作為X的哈希值。一般取大于原來基數的數作為轉換的基數,并且兩個基數應該是互素的。
?
例Hash(80127429)=(80127429)13=8*137+0*136+1*135+2*134+7*133+4*132+2*131+9=(502432641)10如果取中間三位作為哈希值,得Hash(80127429)=432
?為了獲得良好的哈希函數,可以將幾種方法聯合起來使用,比如先變基,再折疊或平方取中等等,只要散列均勻,就可以隨意拼湊。
?
?
?
??7.除留余數法:
????????????
假設哈希表長為m,p為小于等于m的最大素數,則哈希函數為
h(k)=k??%??p?,其中%為模p取余運算。
例如,已知待散列元素為(18,75,60,43,54,90,46),表長m=10,p=7,則有
????h(18)=18 % 7=4????h(75)=75 % 7=5????h(60)=60 % 7=4???
????h(43)=43 % 7=1????h(54)=54 % 7=5????h(90)=90 % 7=6???
????h(46)=46 % 7=4
此時沖突較多。為減少沖突,可取較大的m值和p值,如m=p=13,結果如下:
????h(18)=18 % 13=5????h(75)=75 % 13=10????h(60)=60 % 13=8 ???
????h(43)=43 % 13=4????h(54)=54 % 13=2????h(90)=90 % 13=12???
????h(46)=46 % 13=7
此時沒有沖突,如圖8.25所示。
?
0??????1??????2?????3?????4?????5??????6?????7?????8?????9?????10?????11????12
?
?
?
54
?
43
18
?
46
60
?
75
?
90
??????????????????????
?
除留余數法求哈希地址
?
?
理論研究表明,除留余數法的模p取不大于表長且最接近表長m素數時效果最好,且p最好取1.1n~1.7n之間的一個素數(n為存在的數據元素個數)
?
?
8.隨機數法:
???????????設定哈希函數為:H(key) = Random(key)其中,Random?為偽隨機函數
???????????此法適于:對長度不等的關鍵字構造哈希函數。
?
?????????實際造表時,采用何種構造哈希函數的方法取決于建表的關鍵字集合的情況(包括關鍵字的范圍和形態),以及哈希表 ???長度(哈希地址范圍),總的原則是使產生沖突的可能性降到盡可能地小。
?
9.隨機乘數法
??亦稱為“乘余取整法”。隨機乘數法使用一個隨機實數f,0≤f<1,乘積f*k的分數部分在0~1之間,用這個分數部分的值與n(哈希表的長度)相乘,乘積的整數部分就是對應的哈希值,顯然這個哈希值落在0~n-1之間。其表達公式為:Hash(k)=「n*(f*k%1)」其中“f*k%1”表示f*k 的小數部分,即f*k%1=f*k-「f*k」
??例10,對下列關鍵字值集合采用隨機乘數法計算哈希值,隨機數f=0.103149002 哈希表長度n=100得圖:
?
k
f*k
n*((f*k)的小數部分)
Hash(k)
319426
32948.47311
47.78411
47
718309
74092.85648
86.50448
86
629443
64926.41727
42.14427
42
919697
84865.82769
83.59669
83
??此方法的優點是對n的選擇不很關鍵。通常若地址空間為p位就是選n=2p.Knuth對常數f的取法做了仔細的研究,他認為f取任何值都可以,但某些值效果更好。如f=(-1)/2=0.6180329...比較理想。
?
10.字符串數值哈希法
在很都情況下關鍵字是字符串,因此這樣對字符串設計Hash函數是一個需要討論的問題。下列函數是取字符串前10個字符來設計的哈希函數
Int Hash _ char (char *X)
{
??int I?,sum
??i=0;
??while (i 10 && X[i])
??Sum +=X[i++];
??sum%=N; ?????//N是記錄的條數
??}
這種函數把字符串的前10個字符的ASCⅡ值之和對N取摸作為Hash地址,只要N較小,Hash地址將較均勻分布[0,N]區間內,因此這個函數還是可用的。對于N很大的情形,可使用下列函數
int ELFhash (char *key )
{
?Unsigned long h=0,g;
whie (*key)
{
h=(h<<4)+ *key;
key++;
g=h & 0 xF0000000L;
if (g) h^=g>>24;
h & =~g;
}
h=h % N
return (h);
}
??這個函數稱為ELFHash(Exextable and Linking Format ,ELF,可執行鏈接格式)函數。它把一個字符串的絕對長度作為輸入,并通過一種方式把字符的十進制值結合起來,對長字符串和短字符串都有效,這種方式產生的位置不可能不均勻分布。
?
11.旋轉法
??旋轉法是將數據的鍵值中進行旋轉。旋轉法通常并不直接使用在哈希函數上,而是搭配其他哈希函數使用。
??例11,某學校同一個系的新生(小于100人)的學號前5位數是相同的,只有最后2位數不同,我們將最后一位數,旋轉放置到第一位,其余的往右移。
新生學號
旋轉過程
旋轉后的新鍵值
5062101
5062101
1506210
5062102
5062102
2506210
5062103
5062103
3506210
5062104
5062104
4506210
5062105
5062105
5506210
????????????????????如圖
?運用這種方法可以只輸入一個數值從而快速地查到有關學生的信息。
?
?
在實際應用中,應根據具體情況,靈活采用不同的方法,并用實際數據測試它的性能,以便做出正確判定。通常應考慮以下五個因素?:
l?計算哈希函數所需時間?(簡單)。
l?關鍵字的長度。
l?哈希表大小。
l?關鍵字分布情況。
l?記錄查找頻率
?
?
?
三.Hash處理沖突方法
?
???通過構造性能良好的哈希函數,可以減少沖突,但一般不可能完全避免沖突,因此解決沖突是哈希法的另一個關鍵問題。創建哈希表和查找哈希表都會遇到沖突,兩種情況下解決沖突的方法應該一致。下面以創建哈希表為例,說明解決沖突的方法。常用的解決沖突方法有以下四種:
?
?通過構造性能良好的哈希函數,可以減少沖突,但一般不可能完全避免沖突,因此解決沖突是哈希法的另一個關鍵問題。創建哈希表和查找哈希表都會遇到沖突,兩種情況下解決沖突的方法應該一致。下面以創建哈希表為例,說明解決沖突的方法。常用的解決沖突方法有以下四種:
1.?????????開放定址法
這種方法也稱再散列法,其基本思想是:當關鍵字key的哈希地址p=H(key)出現沖突時,以p為基礎,產生另一個哈希地址p1,如果p1仍然沖突,再以p為基礎,產生另一個哈希地址p2,…,直到找出一個不沖突的哈希地址pi?,將相應元素存入其中。這種方法有一個通用的再散列函數形式:
??????????Hi=(H(key)+di)% m???i=1,2,…,n
????其中H(key)為哈希函數,m?為表長,di稱為增量序列。增量序列的取值方式不同,相應的再散列方式也不同。主要有以下三種:
l?????????線性探測再散列
????dii=1,2,3,…,m-1
這種方法的特點是:沖突發生時,順序查看表中下一單元,直到找出一個空單元或查遍全表。
l?????????二次探測再散列
????di=12,-12,22,-22,…,k2,-k2????( k<=m/2 )
????這種方法的特點是:沖突發生時,在表的左右進行跳躍式探測,比較靈活。
l?????????偽隨機探測再散列
????di=偽隨機數序列。
具體實現時,應建立一個偽隨機數發生器,(如i=(i+p) % m),并給定一個隨機數做起點。
例如,已知哈希表長度m=11,哈希函數為:H(key)= key??%??11,則H(47)=3,H(26)=4,H(60)=5,假設下一個關鍵字為69,則H(69)=3,與47沖突。如果用線性探測再散列處理沖突,下一個哈希地址為H1=(3 + 1)% 11 = 4,仍然沖突,再找下一個哈希地址為H2=(3 + 2)% 11 = 5,還是沖突,繼續找下一個哈希地址為H3=(3 + 3)% 11 = 6,此時不再沖突,將69填入5號單元,參圖8.26 (a)。如果用二次探測再散列處理沖突,下一個哈希地址為H1=(3 + 12)% 11 = 4,仍然沖突,再找下一個哈希地址為H2=(3 - 12)% 11 = 2,此時不再沖突,將69填入2號單元,參圖8.26 (b)。如果用偽隨機探測再散列處理沖突,且偽隨機數序列為:2,5,9,……..,則下一個哈希地址為H1=(3 + 2)% 11 = 5,仍然沖突,再找下一個哈希地址為H2=(3 + 5)% 11 = 8,此時不再沖突,將69填入8號單元,參圖8.26 (c)。
?
?
0????????1???????2??????3??????4??????5???????6??????7??????8???????9??????10????
?
?
?
?
47
26
60
69
?
?
?
?
?????????(a)?用線性探測再散列處理沖突
?
?
0????????1???????2??????3??????4??????5???????6??????7??????8???????9??????10????
?
?
?
69
47
26
60
?
?
?
?
?
?????????(b)?用二次探測再散列處理沖突
?
?
0????????1???????2??????3??????4??????5???????6??????7??????8???????9??????10????
?
?
?
?
47
26
60
?
?
69
?
?
?????????(c)?用偽隨機探測再散列處理沖突
?
??????????????????????圖8.26開放地址法處理沖突
從上述例子可以看出,線性探測再散列容易產生“二次聚集”,即在處理同義詞的沖突時又導致非同義詞的沖突。例如,當表中i, i+1 ,i+2三個單元已滿時,下一個哈希地址為i,?或i+1 ,或i+2,或i+3的元素,都將填入i+3這同一個單元,而這四個元素并非同義詞。線性探測再散列的優點是:只要哈希表不滿,就一定能找到一個不沖突的哈希地址,而二次探測再散列和偽隨機探測再散列則不一定。
?
2.?再哈希法
????這種方法是同時構造多個不同的哈希函數:
????Hi=RH1(key)??i=1,2,…,k
當哈希地址Hi=RH1(key)發生沖突時,再計算Hi=RH2(key)……,直到沖突不再產生。這種方法不易產生聚集,但增加了計算時間。
3.?鏈地址法
????這種方法的基本思想是將所有哈希地址為i的元素構成一個稱為同義詞鏈的單鏈表,并將單鏈表的頭指針存在哈希表的第i個單元中,因而查找、插入和刪除主要在同義詞鏈中進行。鏈地址法適用于經常進行插入和刪除的情況。
例如,已知一組關鍵字(32,40,36,53,16,46,71,27,42,24,49,64),哈希表長度為13,哈希函數為:H(key)= key % 13,則用鏈地址法處理沖突的結果如圖
?
?
??? ?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
圖鏈地址法處理沖突時的哈希表
本例的平均查找長度?ASL=(1*7+2*4+3*1)=1.5
4.建立公共溢出區
這種方法的基本思想是:將哈希表分為基本表和溢出表兩部分,凡是和基本表發生沖突的元素,一律填入溢出表
?
?
參考資料
大話數據結
算法導論
---------------------
作者:creator123123?
原文:https://blog.csdn.net/creator123123/article/details/81572288?
?
總結
以上是生活随笔為你收集整理的hash函数查找和ASL计算的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 关于数据库主键和外键
- 下一篇: 武神装备附魔力量还是物攻