java 纯真ip数据库_纯真IP数据库格式读取方法(JAVA/PHP/Python)
一、基本結構
QQWry.dat文件在結構上分為3塊:文件頭,記錄區,索引區。一般我們要查找IP時,先在索引區查找記錄偏移,然后再到記錄區讀出信息。由于 記錄區的記錄是不定長的,所以直接在記錄區中搜索是不可能的。由于記錄數比較多,如果我們遍歷索引區也會是有點慢的,一般來說,我們可以用二分查找法搜索 索引區,其速度比遍歷索引區快若干數量級。圖1是QQWry.dat的文件結構圖。
圖1. QQWry.dat文件結構
要注意的是,QQWry.dat里面全部采用了little-endian字節序。
1、文件頭
QQWry.dat的文件頭只有8個字節,其結構非常簡單,首四個字節是第一條索引的絕對偏移,后四個字節是最后一條索引的絕對偏移。
2、記錄區
每條IP記錄都由國家和地區名組成,國家地區在這里并不是太確切,因為可能會查出來“清華大學計算機系”之類的,這里清華大學就成了國家名了,所以 這個國家地區名和IP數據庫制作的時候有關系。所以記錄的格式有點像QName,有一個全局部分和局部部分組成,我們這里還是沿用國家名和地區名的說法。
于是我們想象著一條記錄的格式應該是: [IP地址][國家名][地區名],當然,這個沒有什么問題,但是這只是最簡單的情況。很顯然,國家名和地區名可能會有很多的重復,如果每條記錄都保存一 個完整的名稱拷貝是非常不理想的,所以我們就需要重定向以節省空間。所以為了得到一個國家名或者地區名,我們就有了兩個可能:第一就是直接的字符串表示的 國家名,第二就是一個4字節的結構,第一個字節表明了重定向的模式,后面3個字節是國家名或者地區名的實際偏移位置。對于國家名來說,情況還可能更復雜 些,因為這樣的重定向最多可能有兩次。
那么什么是重定向模式?根據上面所說,一條記錄的格式是[IP地址][國家記錄][地區記錄],如果國家記錄是重定向的話,那么地區記錄是有可能沒有的,于是就有了兩種情況,我管他叫做模式1和模式2。我們對這些格式的情況舉圖說明:
圖2. IP記錄的最簡單形式
圖2表示了最簡單的IP記錄格式,我想沒有什么可以解釋的
圖3. 重定向模式1
圖3演示了重定向模式1的情況。我們看到在模式1的情況下,地區記錄也跟著國家記錄走了,在IP地址之后只剩下了國家記錄的4字節,后面3個字節構成了一個指針,指向了實際的國家名,然后又跟著地址名。模式1的標識字節是0×01。
圖4. 重定向模式2
圖4演示了重定向模式2的情況。我們看到了在模式2的情況下(其標識字節是0×02),地區記錄沒有跟著國家記錄走,因此在國家記錄之后4個字節之 后還是有地區記錄。我想你已經明白了模式1和模式2的區別,即:模式1的國家記錄后面不會再有地區記錄,模式2的國家記錄后會有地區記錄。下面我們來看一 下更復雜的情況。
圖5. 混和情況1
圖5演示了當國家記錄為模式1的時候可能出現的更復雜情況,在這種情況下,重定向指向的位置仍然是個重定向,不過第二次重定向為模式2。大家不用擔 心,沒有模式3了,這個重定向也最多只有兩次,并且如果發生了第二次重定向,則其一定為模式2,而且這種情況只會發生在國家記錄上,對于地區記錄,模式1 和模式2是一樣的,地區記錄也不會發生2次重定向。不過,這個圖還可以更復雜,如圖7:
圖6. 混和情況2
圖6是模式1下最復雜的混和情況,不過我想應該也很好理解,只不過地區記錄也來重定向而已,有一點我要提醒你,如果重定向的地址是0,則表示未知的地區名。
所以我們總結如下:一條IP記錄由[IP地址][國家記錄][地區記錄]組成,對于國家記錄,可以有三種表示方式:字符串形式,重定向模式1和重定 向模式2。對于地區記錄,可以有兩種表示方式:字符串形式和重定向,另外有一條規則:重定向模式1的國家記錄后不能跟地區記錄。按照這個總結,在這些方式 中合理組合,就構成了IP記錄的所有可能情況。
二、設計的理由
在我們繼續去了解索引區的結構之前,我們先來了解一下為何記錄區的結構要如此設計。我想你可能想到了答案:字符串重用。沒錯,在這種結構下,對于一 個國家名和地區名,我只需要保存其一次就可以了。我們舉例說明,為了表示方便,我們用小寫字母代表IP記錄,C表示國家名,A表示地區名:
有兩條記錄a(C1, A1), b(C2, A2),如果C1 = C2, A1 = A2,那么我們就可以使用圖3顯示的結構來實現重用
有三條記錄a(C1, A1), b(C2, A2), c(C3, A3),如果C1 = C2, A2 = A3,現在我們想存儲記錄b,那么我們可以用圖6的結構來實現重用
有兩條記錄a(C1, A1), b(C2, A2),如果C1 = C2,現在我們想存儲記錄b,那么我們可以采用模式2表示C2,用字符串表示A2
你可以舉出更多的情況,你也會發現在這種結構下,不同的字符串只需要存儲一次。
三、索引區
在”了解文件頭”部分,我們說明了文件頭實際上是兩個指針,分別指向了第一條索引和最后一條索引的絕對偏移。如圖8所示:
圖8. 文件頭指向索引區圖示
實在是很簡單,不是嗎?從文件頭你就可以定位到索引區,然后你就可以開始搜索IP了!每條索引長度為7個字節,前4個字節是起始IP地址,后三個字 節就指向了IP記錄。這里有些概念需要說明一下,什么是起始IP,那么有沒有結束IP? 假設有這么一條記錄:166.111.0.0 – 166.111.255.255,那么166.111.0.0就是起始IP,166.111.255.255就是結束IP,結束IP就是IP記錄中的那頭 4個字節,這下你應該就清楚了吧。于是乎,每條索引配合一條記錄,構成了一個IP范圍,如果你要查找166.111.138.138所在的位置,你就會發 現166.111.138.138落在了166.111.0.0 – 166.111.255.255 這個范圍內,那么你就可以順著這條索引去讀取國家和地區名了。那么我們給出一個最詳細的圖解吧:
圖9. 文件詳細結構
現在一切都清楚了是不是?也許還有一點你不清楚,QQWry.dat的版本信息存在哪里呢? 答案是:最后一條IP記錄實際上就是版本信息,最后一條記錄顯示出來就是這樣:255.255.255.0 255.255.255.255 純真網絡 2004年6月25日IP數據。OK,到現在你應該全部清楚了。
四、使用示例
下一步:我給出一個讀取IP記錄的程序片斷,此片斷摘錄自LumaQQ源文件edu.tsinghua.lumaqq.IPSeeker.java,如果你有興趣,可以下載源代碼詳細看看。
/**
* 給定一個ip國家地區記錄的偏移,返回一個IPLocation結構
* @param offset 國家記錄的起始偏移
* @return IPLocation對象
*/
private IPLocation getIPLocation(long offset) {
try {
// 跳過4字節ip
ipFile.seek(offset + 4);
// 讀取第一個字節判斷是否標志字節
byte b = ipFile.readByte();
if(b == REDIRECT_MODE_1) {
// 讀取國家偏移
long countryOffset = readLong3();
// 跳轉至偏移處
ipFile.seek(countryOffset);
// 再檢查一次標志字節,因為這個時候這個地方仍然可能是個重定向
b = ipFile.readByte();
if(b == REDIRECT_MODE_2) {
loc.country = readString(readLong3());
ipFile.seek(countryOffset + 4);
} else
loc.country = readString(countryOffset);
// 讀取地區標志
loc.area = readArea(ipFile.getFilePointer());
} else if(b == REDIRECT_MODE_2) {
loc.country = readString(readLong3());
loc.area = readArea(offset + 8);
} else {
loc.country = readString(ipFile.getFilePointer() - 1);
loc.area = readArea(ipFile.getFilePointer());
}
return loc;
} catch (IOException e) {
return null;
}
}
/**
* 從offset偏移開始解析后面的字節,讀出一個地區名
* @param offset 地區記錄的起始偏移
* @return 地區名字符串
* @throws IOException 地區名字符串
*/
private String readArea(long offset) throws IOException {
ipFile.seek(offset);
byte b = ipFile.readByte();
if(b == REDIRECT_MODE_1 || b == REDIRECT_MODE_2) {
long areaOffset = readLong3(offset + 1);
if(areaOffset == 0)
return LumaQQ.getString("unknown.area");
else
return readString(areaOffset);
} else
return readString(offset);
}
/**
* 從offset位置讀取3個字節為一個long,因為java為big-endian格式,所以沒辦法
* 用了這么一個函數來做轉換
* @param offset 整數的起始偏移
* @return 讀取的long值,返回-1表示讀取文件失敗
*/
private long readLong3(long offset) {
long ret = 0;
try {
ipFile.seek(offset);
ipFile.readFully(b3);
ret |= (b3[0] & 0xFF);
ret |= ((b3[1] << 8) & 0xFF00);
ret |= ((b3[2] << 16) & 0xFF0000);
return ret;
} catch (IOException e) {
return -1;
}
}
/**
* 從當前位置讀取3個字節轉換成long
* @return 讀取的long值,返回-1表示讀取文件失敗
*/
private long readLong3() {
long ret = 0;
try {
ipFile.readFully(b3);
ret |= (b3[0] & 0xFF);
ret |= ((b3[1] << 8) & 0xFF00);
ret |= ((b3[2] << 16) & 0xFF0000);
return ret;
} catch (IOException e) {
return -1;
}
}
/**
* 從offset偏移處讀取一個以0結束的字符串
* @param offset 字符串起始偏移
* @return 讀取的字符串,出錯返回空字符串
*/
private String readString(long offset) {
try {
ipFile.seek(offset);
int i;
for(i = 0, buf[i] = ipFile.readByte(); buf[i] != 0; buf[++i] = ipFile.readByte());
if(i != 0)
return Utils.getString(buf, 0, i, "GBK");
} catch (IOException e) {
log.error(e.getMessage());
}
return "";
}
代碼并不復雜,getIPLocation是主要方法,它檢查國家記錄格式,并針對字符串形式,模式1,模式2采用不同的代碼,readArea則相對簡單,因為只有字符串和重定向兩種情況需要處理。
以下為PHP版:
/**
* IP 地理位置查詢類
*
* @author 馬秉堯
* @version 1.5
* @copyright 2005 CoolCode.CN
*/
class IpLocation {
/**
* QQWry.Dat文件指針
*
* @var resource
*/
var $fp;
/**
* 第一條IP記錄的偏移地址
*
* @var int
*/
var $firstip;
/**
* 最后一條IP記錄的偏移地址
*
* @var int
*/
var $lastip;
/**
* IP記錄的總條數(不包含版本信息記錄)
*
* @var int
*/
var $totalip;
/**
* 返回讀取的長整型數
*
* @access private
* @return int
*/
function getlong() {
//將讀取的little-endian編碼的4個字節轉化為長整型數
$result = unpack('Vlong', fread($this->fp, 4));
return $result['long'];
}
/**
* 返回讀取的3個字節的長整型數
*
* @access private
* @return int
*/
function getlong3() {
//將讀取的little-endian編碼的3個字節轉化為長整型數
$result = unpack('Vlong', fread($this->fp, 3).chr(0));
return $result['long'];
}
/**
* 返回壓縮后可進行比較的IP地址
*
* @access private
* @param string $ip
* @return string
*/
function packip($ip) {
// 將IP地址轉化為長整型數,如果在PHP5中,IP地址錯誤,則返回False,
// 這時intval將Flase轉化為整數-1,之后壓縮成big-endian編碼的字符串
return pack('N', intval(ip2long($ip)));
}
/**
* 返回讀取的字符串
*
* @access private
* @param string $data
* @return string
*/
function getstring($data = "") {
$char = fread($this->fp, 1);
while (ord($char) > 0) {??????? // 字符串按照C格式保存,以\0結束
$data .= $char;???????????? // 將讀取的字符連接到給定字符串之后
$char = fread($this->fp, 1);
}
return $data;
}
/**
* 返回地區信息
*
* @access private
* @return string
*/
function getarea() {
$byte = fread($this->fp, 1);??? // 標志字節
switch (ord($byte)) {
case 0:???????????????????? // 沒有區域信息
$area = "";
break;
case 1:
case 2:???????????????????? // 標志字節為1或2,表示區域信息被重定向
fseek($this->fp, $this->getlong3());
$area = $this->getstring();
break;
default:??????????????????? // 否則,表示區域信息沒有被重定向
$area = $this->getstring($byte);
break;
}
return $area;
}
/**
* 根據所給 IP 地址或域名返回所在地區信息
*
* @access public
* @param string $ip
* @return array
*/
function getlocation($ip) {
if (!$this->fp) return null;??????????? // 如果數據文件沒有被正確打開,則直接返回空
$location['ip'] = gethostbyname($ip);?? // 將輸入的域名轉化為IP地址
$ip = $this->packip($location['ip']);?? // 將輸入的IP地址轉化為可比較的IP地址
// 不合法的IP地址會被轉化為255.255.255.255
// 對分搜索
$l = 0;???????????????????????? // 搜索的下邊界
$u = $this->totalip;??????????? // 搜索的上邊界
$findip = $this->lastip;??????? // 如果沒有找到就返回最后一條IP記錄(QQWry.Dat的版本信息)
while ($l <= $u) {????????????? // 當上邊界小于下邊界時,查找失敗
$i = floor(($l + $u) / 2);? // 計算近似中間記錄
fseek($this->fp, $this->firstip + $i * 7);
$beginip = strrev(fread($this->fp, 4));???? // 獲取中間記錄的開始IP地址
// strrev函數在這里的作用是將little-endian的壓縮IP地址轉化為big-endian的格式
// 以便用于比較,后面相同。
if ($ip < $beginip) {?????? // 用戶的IP小于中間記錄的開始IP地址時
$u = $i - 1;??????????? // 將搜索的上邊界修改為中間記錄減一
}
else {
fseek($this->fp, $this->getlong3());
$endip = strrev(fread($this->fp, 4));?? // 獲取中間記錄的結束IP地址
if ($ip > $endip) {???? // 用戶的IP大于中間記錄的結束IP地址時
$l = $i + 1;??????? // 將搜索的下邊界修改為中間記錄加一
}
else {????????????????? // 用戶的IP在中間記錄的IP范圍內時
$findip = $this->firstip + $i * 7;
break;????????????? // 則表示找到結果,退出循環
}
}
}
//獲取查找到的IP地理位置信息
fseek($this->fp, $findip);
$location['beginip'] = long2ip($this->getlong());?? // 用戶IP所在范圍的開始地址
$offset = $this->getlong3();
fseek($this->fp, $offset);
$location['endip'] = long2ip($this->getlong());???? // 用戶IP所在范圍的結束地址
$byte = fread($this->fp, 1);??? // 標志字節
switch (ord($byte)) {
case 1:???????????????????? // 標志字節為1,表示國家和區域信息都被同時重定向
$countryOffset = $this->getlong3();???????? // 重定向地址
fseek($this->fp, $countryOffset);
$byte = fread($this->fp, 1);??? // 標志字節
switch (ord($byte)) {
case 2:???????????? // 標志字節為2,表示國家信息又被重定向
fseek($this->fp, $this->getlong3());
$location['country'] = $this->getstring();
fseek($this->fp, $countryOffset + 4);
$location['area'] = $this->getarea();
break;
default:??????????? // 否則,表示國家信息沒有被重定向
$location['country'] = $this->getstring($byte);
$location['area'] = $this->getarea();
break;
}
break;
case 2:???????????????????? // 標志字節為2,表示國家信息被重定向
fseek($this->fp, $this->getlong3());
$location['country'] = $this->getstring();
fseek($this->fp, $offset + 8);
$location['area'] = $this->getarea();
break;
default:??????????????????? // 否則,表示國家信息沒有被重定向
$location['country'] = $this->getstring($byte);
$location['area'] = $this->getarea();
break;
}
if ($location['country'] == " CZ88.NET") {? // CZ88.NET表示沒有有效信息
$location['country'] = "未知";
}
if ($location['area'] == " CZ88.NET") {
$location['area'] = "";
}
return $location;
}
/**
* 構造函數,打開 QQWry.Dat 文件并初始化類中的信息
*
* @param string $filename
* @return IpLocation
*/
function IpLocation($filename = "QQWry.Dat") {
$this->fp = 0;
if (($this->fp = @fopen($filename, 'rb')) !== false) {
$this->firstip = $this->getlong();
$this->lastip = $this->getlong();
$this->totalip = ($this->lastip - $this->firstip) / 7;
//注冊析構函數,使其在程序執行結束時執行
register_shutdown_function(array(&$this, '_IpLocation'));
}
}
/**
* 析構函數,用于在頁面執行結束后自動關閉打開的文件。
*
*/
function _IpLocation() {
if ($this->fp) {
fclose($this->fp);
}
$this->fp = 0;
}
}
?>
以下為Python版的讀取程序:
#!/usr/bin/env python
# coding: utf-8
'''用Python腳本查詢純真IP庫
QQWry.Dat的格式如下:
+----------+
|? 文件頭? |? (8字節)
+----------+
|? 記錄區? | (不定長)
+----------+
|? 索引區? | (大小由文件頭決定)
+----------+
文件頭:4字節開始索引偏移值+4字節結尾索引偏移值
記錄區: 每條IP記錄格式 ==> IP地址[國家信息][地區信息]
對于國家記錄,可以有三種表示方式:
字符串形式(IP記錄第5字節不等于0x01和0x02的情況),
重定向模式1(第5字節為0x01),則接下來3字節為國家信息存儲地的偏移值
重定向模式(第5字節為0x02),
對于地區記錄,可以有兩種表示方式: 字符串形式和重定向
最后一條規則:重定向模式1的國家記錄后不能跟地區記錄
索引區: 每條索引記錄格式 ==> 4字節起始IP地址 + 3字節指向IP記錄的偏移值
索引區的IP和它指向的記錄區一條記錄中的IP構成一個IP范圍。查詢信息是這個
范圍內IP的信息
'''
import sys
import socket
from struct import pack, unpack
class IPInfo(object):
'''QQWry.Dat數據庫查詢功能集合
'''
def __init__(self, dbname):
''' 初始化類,讀取數據庫內容為一個字符串,
通過開始8字節確定數據庫的索引信息'''
self.dbname = dbname
f = file(dbname, 'r')
self.img = f.read()
f.close()
# QQWry.Dat文件的開始8字節是索引信息,前4字節是開始索引的偏移值,
# 后4字節是結束索引的偏移值。
(self.firstIndex, self.lastIndex) = unpack('II', self.img[:8])
# 每條索引長7字節,這里得到索引總個數
self.indexCount = (self.lastIndex - self.firstIndex) / 7 + 1
def getString(self, offset = 0):
''' 讀取字符串信息,包括"國家"信息和"地區"信息
QQWry.Dat的記錄區每條信息都是一個以'\0'結尾的字符串'''
o2 = self.img.find('\0', offset)
#return self.img[offset:o2]
# 有可能只有國家信息沒有地區信息,
gb2312_str = self.img[offset:o2]
try:
utf8_str = unicode(gb2312_str,'gb2312').encode('utf-8')
except:
return '未知'
return utf8_str
def getLong3(self, offset = 0):
'''QQWry.Dat中的偏移記錄都是3字節,本函數取得3字節的偏移量的常規表示
QQWry.Dat使用“字符串“存儲這些值'''
s = self.img[offset: offset + 3]
s += '\0'
# unpack用一個'I'作為format,后面的字符串必須是4字節
return unpack('I', s)[0]
def getAreaAddr(self, offset = 0):
''' 通過給出偏移值,取得區域信息字符串,'''
byte = ord(self.img[offset])
if byte == 1 or byte == 2:
# 第一個字節為1或者2時,取得2-4字節作為一個偏移量調用自己
p = self.getLong3(offset + 1)
return self.getAreaAddr(p)
else:
return self.getString(offset)
def getAddr(self, offset, ip = 0):
img = self.img
o = offset
byte = ord(img[o])
if byte == 1:
# 重定向模式1
# [IP][0x01][國家和地區信息的絕對偏移地址]
# 使用接下來的3字節作為偏移量調用字節取得信息
return self.getAddr(self.getLong3(o + 1))
if byte == 2:
# 重定向模式2
# [IP][0x02][國家信息的絕對偏移][地區信息字符串]
# 使用國家信息偏移量調用自己取得字符串信息
cArea = self.getAreaAddr(self.getLong3(o + 1))
o += 4
# 跳過前4字節取字符串作為地區信息
aArea = self.getAreaAddr(o)
return cArea, aArea
if byte != 1 and byte != 2:
# 最簡單的IP記錄形式,[IP][國家信息][地區信息]
# 重定向模式1有種情況就是偏移量指向包含國家和地區信息兩個字符串
# 即偏移量指向的第一個字節不是1或2,就使用這里的分支
# 簡單地說:取連續取兩個字符串!
cArea = self.getString(o)
#o += len(cArea) + 1
# 我們已經修改cArea為utf-8字符編碼了,len取得的長度會有變,
# 用下面方法得到offset
o = self.img.find('\0',o) + 1
aArea = self.getString(o)
return cArea, aArea
def find(self, ip, l, r):
''' 使用二分法查找網絡字節編碼的IP地址的索引記錄'''
if r - l <= 1:
return l
m = (l + r) / 2
o = self.firstIndex + m * 7
new_ip = unpack('I', self.img[o: o+4])[0]
if ip <= new_ip:
return self.find(ip, l, m)
else:
return self.find(ip, m, r)
def getIPAddr(self, ip):
''' 調用其他函數,取得信息!'''
# 使用網絡字節編碼IP地址
ip = unpack('!I', socket.inet_aton(ip))[0]
# 使用 self.find 函數查找ip的索引偏移
i = self.find(ip, 0, self.indexCount - 1)
# 得到索引記錄
o = self.firstIndex + i * 7
# 索引記錄格式是: 前4字節IP信息+3字節指向IP記錄信息的偏移量
# 這里就是使用后3字節作為偏移量得到其常規表示(QQWry.Dat用字符串表示值)
o2 = self.getLong3(o + 4)
# IP記錄偏移值+4可以丟棄前4字節的IP地址信息。
(c, a) = self.getAddr(o2 + 4)
return c, a
def output(self, first, last):
for i in range(first, last):
o = self.firstIndex +? i * 7
ip = socket.inet_ntoa(pack('!I', unpack('I', self.img[o:o+4])[0]))
offset = self.getLong3(o + 4)
(c, a) = self.getAddr(offset + 4)
print "%s %d %s/%s" % (ip, offset, c, a)
def main():
i = IPInfo('QQWry.Dat')
(c, a) = i.getIPAddr(sys.argv[1])
print '%s %s/%s' % (sys.argv[1], c, a)
if __name__ == '__main__':
main()
# changelog
# 時間:2009年5月29日
# 1. 工具下面網友的建議,修改"o += len(cArea) + 1"
#??? http://linuxtoy.org/archives/python-ip.html#comment-113960
#??? 因為這個時候我已經把得到的字符串變成utf-8編碼了,長度會有變化!
五、總結
純真IP數據庫的結構使得查找IP簡單迅速,不過你想要編輯它卻是比較麻煩的,我想應該需要專門的工具來生成QQWry.dat文件,由于其文件格式的限制,你要直接添加IP記錄就不容易了。不過,能查到IP已經很開心了,希望純真記錄越來越多~。
下面就為大家推薦一款IP數據庫解壓軟甲:IPLook,其可將QQIP庫(如純真版、Phoenix版、梧州版等)轉換成txt文件格式;可將txt文件格式的IP數據轉換成dat文件格式(QQWry.dat),輕松打造自己的IP庫。
總結
以上是生活随笔為你收集整理的java 纯真ip数据库_纯真IP数据库格式读取方法(JAVA/PHP/Python)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: html代码雨特效代码,html开发数字
- 下一篇: 学校技能节计算机专业方案,第十九届技能节