當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【学习排序】 Learning to Rank中Pointwise关于PRank算法源码实现

發(fā)布時(shí)間：2024/5/28 编程问答 40 豆豆

生活随笔收集整理的這篇文章主要介紹了【学习排序】 Learning to Rank中Pointwise关于PRank算法源码实现小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

? ? 最近終于忙完了Learning to Rank的作業(yè),同時(shí)也學(xué)到了很多東西.我準(zhǔn)備寫幾篇相關(guān)的文章簡單講述自己對(duì)它的理解和認(rèn)識(shí).第一篇準(zhǔn)備講述的就是Learning to Rank中Pointwise的認(rèn)識(shí)及PRank算法的實(shí)現(xiàn).主要從以下四個(gè)方面進(jìn)行講述：
? ? 1.學(xué)習(xí)排序(Learning to Rank)概念
? ? 2.基于點(diǎn)的排序算法(Pointwise)介紹
? ? 3.基于順序回歸(Ordinal Regression-based)的PRank排序算法
? ? 4.PRank算法Java\C++實(shí)現(xiàn)及總結(jié)

一. 學(xué)習(xí)排序(Learning to Rank)概念

? ??學(xué)習(xí)排序概念推薦轉(zhuǎn)載的文章：機(jī)器學(xué)習(xí)排序之Learning to Rank簡單介紹
? ? 1.首先,為什么會(huì)出現(xiàn)學(xué)習(xí)排序呢?
? ??傳統(tǒng)的排序方法是通過構(gòu)造一個(gè)排序函數(shù)實(shí)現(xiàn)，在Information Retrieval領(lǐng)域一般按照相關(guān)度進(jìn)行排序。比較典型的是搜索引擎中一條查詢query，將返回一個(gè)相關(guān)的文檔document，然后根據(jù)(query,document)之間的相關(guān)度進(jìn)行排序,再返回給用戶。
? ? 而隨著影響相關(guān)度的因素(如PageRank)變多，Google目前排序方法考慮了200多種方法。這使得傳統(tǒng)排序方法變得困難，人們就想到通過機(jī)器學(xué)習(xí)來解決這一問題，這就導(dǎo)致了Learning to Rank的誕生。
? ? 2.然后是學(xué)習(xí)排序的基本流程如下圖所示.
? ? 很明顯它就是基本步驟就是通過訓(xùn)練集數(shù)據(jù)(Train Set)學(xué)習(xí)得到模型h,然后通過該模型去對(duì)測試集數(shù)據(jù)(Test Set)進(jìn)行計(jì)算和排序,最后得到一個(gè)預(yù)測的結(jié)果.

? ??3.那么,學(xué)習(xí)排序的數(shù)據(jù)集是怎樣的一個(gè)東西呢?也就是上圖中x、y、h分別代表著什么呢?
? ? 數(shù)據(jù)集可參考微軟136維數(shù)據(jù)——MSLR-WEB10K?它是2010年的數(shù)據(jù).形如：
? ???=============================================================
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 0 qid:1 1:3 2:0 3:2 4:2 ... 135:0 136:0?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 2 qid:1 1:3 2:3 3:0 4:0 ... 135:0 136:0?
? ? ? ? ? ?=============================================================
? ? ? ? ? ?其數(shù)據(jù)格式： label?qid:id ?feaid:feavalue ?feaid:feavalue ...
? ? 每行表示一個(gè)樣本,相同的查詢請(qǐng)求的樣本qid相同,上面就是兩個(gè)對(duì)qid為“1”的查詢;label表示該樣本和該查詢請(qǐng)求的相關(guān)程度,該label等級(jí)劃分方式為?{Perfect, Excellent,Good, Fair, Bad}?共五個(gè)類別,后面對(duì)應(yīng)的是特征和特征值,我們通常使用的<X,Y>即是<特征量,人工標(biāo)注>.
? ? 同樣你也可以使用比較經(jīng)典的2007的數(shù)據(jù)集——LETOR4.0,它是46維數(shù)據(jù).如下圖所示:

? ??它表示每行相當(dāng)于一個(gè)Document(樣本文檔),第一行是樣本相關(guān)程度,在46維中l(wèi)abel共三個(gè)值：2-完全相關(guān)、1-部分相關(guān)、0-不相關(guān);同時(shí)qid相同表示同一個(gè)查詢對(duì)應(yīng)多行樣本;中間是46維特征之,最后#相當(dāng)于注釋解釋.
? ? 4.如果你還是不清楚,我換成通俗的例子解釋:

?? ?比如,現(xiàn)在你在Google瀏覽器中輸入"Learning to Rank",它就相當(dāng)于一個(gè)qid.而下面列出的各個(gè)鏈接就是多個(gè)樣本集合,其中每一個(gè)都有200多種影響因素(如其中一種PageRank).在學(xué)習(xí)過程中需要找到一個(gè)模型來預(yù)測新查詢文檔的得分,并排序計(jì)算出用戶最想要的結(jié)果.
? ? PS:這是我的個(gè)人理解,如果有錯(cuò)誤或不足之處,歡迎提出! ?

二. 基于點(diǎn)的排序算法(Pointwise)介紹

? ??機(jī)器學(xué)習(xí)解決排序?qū)W習(xí)問題可分為3類:
? ? 1.基于回歸排序?qū)W習(xí)(regression-based algorithms):序列轉(zhuǎn)為實(shí)數(shù)
? ? 2.基于分類排序?qū)W習(xí)(classification-based algorithms):二值分類
? ? 3.基于順序回歸排序?qū)W習(xí)(ordinal regression-based algorithms)
? ? 但是這里我想講述的是最常見的分類,它們應(yīng)該與上面是交叉的:
? ? 1.基于點(diǎn)的LTR算法——Pointwise Approach
? ? 2.基于對(duì)的LTR算法——Pairwise Approach
? ? 3.基于列的LTR算法——Listwise Approach

? ??Pointwise處理對(duì)象是一篇文檔,將文檔轉(zhuǎn)化為特征向量后,機(jī)器學(xué)習(xí)系統(tǒng)根據(jù)訓(xùn)練得出的模型對(duì)文檔進(jìn)行打分(注意:訓(xùn)練集學(xué)習(xí)出權(quán)重模型去給測試集文檔打分是LTR中非常經(jīng)典的用法),打分的順序即為搜索排序的結(jié)果.
? ? Score(x)=w1*F1+w2*F2+w3*F3+...+w136*F136
? ? 其中w1-w136為136維對(duì)應(yīng)權(quán)重參數(shù),由訓(xùn)練集訓(xùn)練得到;F1-F136為測試文檔給出136個(gè)特征值.
? ? 原數(shù)據(jù)有5個(gè)類標(biāo)(0-4代表相關(guān)程度：Perfect>Excellent>Good>Fair>Bad),則設(shè)置5個(gè)閾值來區(qū)分所得分?jǐn)?shù)的分類.如果得分大于相關(guān)閾值,則劃分為相應(yīng)的類.常見算法包括：Prank、McRank
? ? 下面是我自己畫的一張圖,其中四根紅線是四個(gè)閾值,它把這些文檔集劃分為了五個(gè)不同類.每當(dāng)一個(gè)新的文檔來測試,它都會(huì)根據(jù)已有模型計(jì)算出相應(yīng)分?jǐn)?shù),再根據(jù)分?jǐn)?shù)和閾值劃分類即可.

三. PRank算法介紹

? ? PRank算法是基于點(diǎn)的排序?qū)W習(xí),順序回歸學(xué)習(xí)問題.其算法主要參考Kolby Crammer & Yoram Singer(From:The HeBrew University,以色列希伯來大學(xué))論文《Pranking with Ranking》.網(wǎng)址如下：
? ??http://papers.nips.cc/paper/2023-pranking-with-ranking.pdf
? ? 算法過程如下：

? ??算法描述:(感覺算法一目了然,但是我功力不夠描述不清楚)
? ? 對(duì)于46維數(shù)據(jù)而言,它存在3個(gè)類標(biāo)(0-2).故上述算法中初始閾值b[0]=b[1]=b[2]=0,b[3]=正無窮.
? ? 注意它只有一層循環(huán)For(1...T)表示樣本集的總行數(shù),而沒有進(jìn)行迭代(CSDN三國那個(gè)例子含迭代錯(cuò)誤);它主要是通過預(yù)測標(biāo)號(hào)y~和實(shí)際標(biāo)號(hào)y進(jìn)行對(duì)比,來更新權(quán)重和閾值.
? ? 在H排序決策函數(shù)中,它通過K個(gè)閾值b把空間劃分為K個(gè)連續(xù)的子空間,每個(gè)子空間對(duì)應(yīng)一個(gè)序列號(hào),即滿足所有的樣本x都有相同的排序結(jié)果.對(duì)每個(gè)樣本,先計(jì)算權(quán)重w與xi的內(nèi)積w·x,找出所有滿足w·x-br中最小的br,并將此br對(duì)應(yīng)的序標(biāo)號(hào)xi作為排序模型對(duì)樣本的預(yù)測排序結(jié)果.
? ? 推薦中文資料：南開大學(xué)論文《基于PRank算法的主動(dòng)排序?qū)W習(xí)算法》

四. PRank算法Java\C++實(shí)現(xiàn)及總結(jié)

? ? 1.Java代碼實(shí)現(xiàn)
? ? 代碼中有詳細(xì)注釋,每個(gè)步驟都是按照上面的算法進(jìn)行設(shè)計(jì)的.左圖是主函數(shù),它主要包括：讀取文件并解析數(shù)據(jù)、寫數(shù)據(jù)(該函數(shù)可注釋掉,它是我用于驗(yàn)證讀取是否正確時(shí)寫的)、學(xué)習(xí)排序模型和打分預(yù)測.右圖是預(yù)測排序結(jié)果的算法.

? ?代碼如下： package com.example.pointwise;import java.io.BufferedReader; import java.io.File; import java.io.FileInputStream; import java.io.FileReader; import java.io.FileWriter; import java.io.IOException; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.List;/*** Pointwise基于點(diǎn)學(xué)習(xí)排序(Learning to Rank)的Prank算法* @author Eastmount YXZ* 參考資料* 該算法從136維數(shù)據(jù)集改成46維數(shù)據(jù)集,中間可能有注釋不一致現(xiàn)象* （原始論文） http://papers.nips.cc/paper/2023-pranking-with-ranking.pdf* （新浪） http://blog.sina.com.cn/s/blog_4c98b960010008xn.html* （CSDN）http://blog.csdn.net/pennyliang/article/details/17333373*/ public class Prank {public int RANK_NUM = 10000; //記錄總樣本數(shù) (總行數(shù))public int RANK_CATA = 46; //排序的特征維數(shù) (數(shù)據(jù)集136維后改為46維)public int RANK_ITER = 1; //排序的迭代次數(shù) (原文迭代1次)public int RANK_LABEL= 3; //排序劃分的閾值 (微軟數(shù)據(jù)集劃分5類 0-4) 3維全相關(guān),部分相關(guān),不相關(guān)//采用該方法實(shí)現(xiàn)動(dòng)態(tài)數(shù)組添加數(shù)據(jù)List<Float> weight = null; //特征值的權(quán)重向量 (46個(gè) 136個(gè))//訓(xùn)練集數(shù)據(jù) 每行共48個(gè)數(shù)據(jù) (46個(gè)特征值二維數(shù)組-feature[行號(hào)][46] + 真實(shí)Label值0-2 + qid值)List<List<Float>> x = null; Float [] b = null; //閾值數(shù) K+1個(gè)(RANK_LABEL+1)public int sumLabel = 0; //文件總行數(shù) (標(biāo)記數(shù))/** * 函數(shù)功能讀取文件* 參數(shù) String filePath 文件路徑*/public void ReadTxtFile(String filePath) throws IOException {String encoding="GBK";File file = new File(filePath); //文件BufferedReader bufferedReader = null;try {//判斷文件是否存在if(file.isFile() && file.exists()) { //輸入流InputStreamReader read = new InputStreamReader(new FileInputStream(file), encoding); bufferedReader = new BufferedReader(read);String lineTxt = null;sumLabel =0; //記錄總樣本數(shù)x = new ArrayList<List<Float>> ();//按行讀取數(shù)據(jù)并分解數(shù)據(jù)while((lineTxt = bufferedReader.readLine()) != null) {String str = null;int lengthLine = lineTxt.length();List<Float> subList=new ArrayList<Float>();x.add(subList);//獲取數(shù)據(jù) 字符串空格分隔String arrays[] = lineTxt.split(" ");for(int i=2; i<arrays.length; i++) {if(i>=48) { //#號(hào)后跳出后面注釋不進(jìn)行讀取continue;}//獲取特征:特征值如1:0.0004String subArrays[] = arrays[i].split(":");int number = Integer.parseInt(subArrays[0]); //判斷特征 float value = Float.parseFloat(subArrays[1]); subList.add(value); }//獲取每行樣本的Label值 i=0 （五個(gè)等級(jí)0-4）subList.add(Float.parseFloat(arrays[0]));//獲取qid值 i=1String subArrays[] = arrays[1].split(":");subList.add(Float.parseFloat(subArrays[1]));//總行數(shù)+1sumLabel++; } //End 按行讀取read.close();} else {System.out.println("找不到指定的文件\n");}} catch (Exception e) {System.out.println("讀取文件內(nèi)容出錯(cuò)");e.printStackTrace();} finally {bufferedReader.close();}}/*** 函數(shù) 寫文件* 參數(shù) String filePath 文件路徑* 注意該函數(shù)還是136維數(shù)據(jù)，但算法該成46維故不使用該函數(shù) */public void WriteTxtFile(String filePath) {try {System.out.println("文件輸出");String encoding = "GBK";FileWriter fileWriter = new FileWriter(filePath);//按行寫文件for(int i=0; i<sumLabel; i++) {fileWriter.write("樣本行數(shù)"+i+"\r\n");fileWriter.flush(); String value;//寫數(shù)據(jù)特征值 136for(int j=0;j<136;j++) {value = String.valueOf(x.get(i).get(j)); //輸出第i行第j個(gè)特征值 fileWriter.write(value+" ");}//label等級(jí) qidfileWriter.write("\r\n");value = String.valueOf(x.get(i).get(136)); //labelfileWriter.write(value+" ");value = String.valueOf(x.get(i).get(137));fileWriter.write(value+" ");fileWriter.write("\r\n");}fileWriter.close();} catch(Exception e) {e.printStackTrace();}} /*** 學(xué)習(xí)排序* 主要功能計(jì)算136維權(quán)重w和劃分五個(gè)等級(jí)的閾值b*/public void LearningToRank() {int realRank; //真實(shí)Label等級(jí)int predictRank; //預(yù)測Label等級(jí)Float[] y= new Float[RANK_LABEL+1]; //new labelFloat tao [] = new Float[RANK_LABEL+1];//初始化權(quán)重全為0weight = new ArrayList<Float>();for(int i=0; i< RANK_CATA; i++){ //特征向量的維數(shù)weight.add((float) 0.0);}//初始化閾值 b[0]=b[1]=[2]=0 b[3]=正無窮大b=new Float[RANK_LABEL+1];for(int i=0; i<RANK_LABEL; i++){ //b[0] b[1] b[2]b[i] = (float) 0.0;}b[RANK_LABEL] = Float.POSITIVE_INFINITY; //b[3]/** 開始計(jì)算權(quán)重 * 注意:迭代主要參照CSDN博客,它沒有退出.同時(shí)沒有損失計(jì)算,其結(jié)果差別不大* 同時(shí)原論文中Loop 1...T是總行數(shù) 并沒有講述迭代*/for(int iter = 0; iter < RANK_ITER; iter++){ //總的迭代次數(shù) RANK_ITER=1for(int i=0; i< RANK_NUM; i++){ //總樣本數(shù) 可以設(shè)置讀取txt中部分//測試順序predictRank = 1;//權(quán)重*特征向量-閾值float sumWX = (float) 0.0;for(int z=0; z<46; z++) {sumWX += weight.get(z)*x.get(i).get(z); } //預(yù)測排名for(int r=1;r<=RANK_LABEL;r++) { //閾值數(shù) RANK_LABEL=3if(sumWX-b[r]<0) {predictRank = r;break;}}//獲取真實(shí)等級(jí) 即數(shù)據(jù)集中第一個(gè)Label數(shù)字realRank = Math.round(x.get(i).get(46)); //四舍五入并轉(zhuǎn)整數(shù)if(realRank!=predictRank) {for(int r=1; r < RANK_LABEL; r++){//若136維數(shù)據(jù) 5個(gè)值時(shí)if(realRank <= r) { // y形如 1 1 -1 -1 -1y[r] = (float)-1;}else {y[r] = (float)1;}}float tao_sum = (float) 0.0; //tau和for(int r=1; r < RANK_LABEL; r++) { //三個(gè)等級(jí)//權(quán)重*特征向量-閾值if((sumWX - b[r]) * y[r] <= 0) {tao[r] = y[r];} else {tao[r] = (float) 0.0;}tao_sum += tao[r]; }//更新數(shù)據(jù)for(int z=0; z<RANK_CATA; z++) { //136維權(quán)重float newWeight = weight.get(z) +tao_sum*x.get(i).get(z);weight.set(z, newWeight);} for(int r=1;r < RANK_LABEL;++r) { //5個(gè)閾值b[r] = b[r] - tao[r]; }} //End ifelse {continue;}} //End 樣本總數(shù)} //End 迭代次數(shù)}/*** 函數(shù) 預(yù)測排序結(jié)果* 主要通過LearningToRank()函數(shù)計(jì)算的得分計(jì)算分?jǐn)?shù),再根據(jù)閾值劃分等級(jí)*/public void PredictNewLabel() {float rightCount = 0;float score = (float) 0.0;for(int i=0; i < RANK_NUM; i++){int predict_r = 1;//權(quán)重*特征向量-閾值 (W*X-B)float sumWX = (float) 0.0; for(int z=0; z<46; z++) {sumWX = sumWX + weight.get(z) * x.get(i).get(z);}for(int r=1; r<= RANK_LABEL; r++){ //5if(sumWX < b[r]){score = sumWX;predict_r = r;break;}}//計(jì)算正確概率if(predict_r == Math.round(x.get(i).get(46))) //46維數(shù)據(jù) 46-label 47-qid 0-45特征值{rightCount++;}System.out.println("predict="+predict_r+" score="+score+" real="+x.get(i).get(46));}//輸出結(jié)果System.out.println("正確率:"+rightCount/(float)RANK_NUM);System.out.println("輸出閾值");for(int i= 1;i<4;i++){System.out.println(b[i]+" ");}}/*** 主函數(shù) */public static void main(String[] args) {String fileInput = "train.txt";String fileOutput = "output.txt";String fileRank = "rank.txt";//實(shí)例化Prank prank = new Prank();try {//第一步讀取文件并解析數(shù)據(jù)prank.ReadTxtFile(fileInput);//第二步輸出解析的基礎(chǔ)數(shù)據(jù)//prank.WriteTxtFile(fileOutput);//第三步學(xué)習(xí)排序訓(xùn)練模型prank.LearningToRank();//第四步測試打分排序prank.PredictNewLabel();} catch (Exception e) {// TODO Auto-generated catch blocke.printStackTrace();}}/*** End*/ }? ?運(yùn)行結(jié)果如下圖所示,算法流程分析都很清楚,同時(shí)我采用的是下標(biāo)從0開始取.b[1]和[2]兩個(gè)閾值即可劃分為3個(gè)不同的類,b[3]=Infinity.但是預(yù)測結(jié)果總是一個(gè)值,不知道為什么?可能算法中有些細(xì)節(jié)錯(cuò)誤,糾結(jié)了我很長時(shí)間.如果知道希望告知.下面是采用C++實(shí)現(xiàn).

? ? 2.C++代碼實(shí)現(xiàn)
? ? 該部分代碼參考自新浪播客：
? ??http://blog.sina.com.cn/s/blog_4c98b960010008xn.html
? ? 運(yùn)行結(jié)果過程如下圖所示,通過train.txt數(shù)據(jù)集得到model.txt,里面存儲(chǔ)的是46個(gè)權(quán)重.如:
? ? -0.052744 1.886342 1.002179 -6.400005 -1.824795 0.000000 0.000000 ..
? ? 然后通過該模型對(duì)test.txt進(jìn)行打分預(yù)測,同時(shí)計(jì)算正確率(已標(biāo)注Label=預(yù)測Label).
#include <iostream> #include <fstream> #include <limits> #include <iomanip>using namespace std;#define K 3 //排序的序數(shù),即如排成全相關(guān),部分相關(guān),不相關(guān),序數(shù)就是3 #define N 46 //特征的維數(shù)double *w; //權(quán)值 int *b; //偏置項(xiàng) int *y; int *t;//從文件中獲得特征值 X 存儲(chǔ)特征向量 yt 存儲(chǔ)標(biāo)簽 bool getData(double *x,int &yt,ifstream &fin) {if (fin.eof())return false;char data[1024];int index = 1;fin.getline(data,1024);char *p = data;char q[100];q[0] = p[0];q[1] = '\0';yt = atoi(q) + 1; // 標(biāo)簽 p = p+8;//跳過qid:xx的冒號(hào)for( ; *p != '\0'; ++p){if(*p == ':'){++p;int i = 0;for(i=0; *p != ' '; i++, p++){q[i] = *p;}q[i] = '\0'; x[index ++] = atof(q);}}return true; }//各變量進(jìn)行初始化 void Initialize() {w = new double[N+1];b = new int[K+1];y = new int[K+1];t = new int[K+1];int i;int r;for(i=1; i<=N;i++)w[i] = 0 ;for(r=1;r<=K-1;r++)b[r] = 0;b[K] = std::numeric_limits<int>::max();//無窮大 }//利用Prank算法進(jìn)行訓(xùn)練 void PrankTraining(double *x,int yt) {int i;int r;double wx = 0; //存儲(chǔ) W*X 的計(jì)算結(jié)果 for(i =1; i<=N; i++) //計(jì)算 W*X wx += w[i] * x[i];for(r =1; r<=K; r++) //找到滿足 W*X-b<0 的最小 r {if(wx - b[r] <0 )break;}int yy = r ; //預(yù)測值 if (yy == yt) //預(yù)測正確，直接返回 {return;} else //預(yù)測錯(cuò)誤，權(quán)值更新 {for(r=1; r<K; r++){if(yt <= r)y[r] = -1;elsey[r] = 1;}for(r=1; r<K; r++){if ((wx-b[r])*y[r] <= 0){t[r] = y[r];}elset[r] = 0;}//更新 W 和 b int sumt = 0;for(r=1; r<K; r++)sumt = sumt + t[r];for(i=1;i<=N;i++) //更新 W w[i] = w[i] + sumt*x[i];for(r=1; r<K; r++) //更新 b b[r] = b[r] - t[r];} }//利用得到的model進(jìn)行測試 int Pranking(double *x) {int i;int r;double wx = 0;for(i=1; i<=N; i++)wx = wx + w[i] * x[i];for(r=1; r<=K; r++)if(wx - b[r] <0 ){cout<< " "<<wx;break;}return r; }int main(int argc,char **argv) {int right=0,wrong=0;//排正確和錯(cuò)誤的樣本數(shù)//輸入訓(xùn)練數(shù)據(jù)文件名 string sin_train = "train.txt";ifstream fin_train(sin_train.c_str());if(fin_train.fail()){cout << "can't open the traningsetFile!"<<endl;return -1;}//輸入輸出模型文件名 string sout_model = "model.txt";ofstream fout_model(sout_model.c_str()); if(fout_model.fail()){cout << "can't open the ModelFile!"<<endl;return -1;}//輸入測試數(shù)據(jù)文件名string sin_test = "test.txt";ifstream fin_test(sin_test.c_str()); if(fin_test.fail()){cout << "can't open the testsetFile!"<<endl;return -1;}// 輸入輸出結(jié)果文件名string sout_result = "result.txt";ofstream fout_result(sout_result.c_str()); if(fout_result.fail()){cout << "open resultFile failed!"<<endl;return -1;}double *tr = new double[N+1]; // 特征向量 int yt; // 標(biāo)簽 Initialize(); //初始化權(quán)值w和偏置項(xiàng)b int i = 0;//讀入訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練得到modelwhile(true){if (getData(tr,yt,fin_train)){PrankTraining(tr,yt);//訓(xùn)練}elsebreak;}//將得到的w和b寫入文件char buff[128];cout<<"訓(xùn)練出的w為:\n";for(i=1; i<=N; i++) //寫 w{cout<<setw(8)<<w[i]<<'\t';memset(buff,0,sizeof(buff)); sprintf(buff,"%f",w[i]);fout_model << buff << " ";}fout_model<<endl;cout<<"\n\n訓(xùn)練出的b為:\n";for(i = 1; i<K;i++) //寫 b{cout<<b[i]<<'\t';memset(buff,0,sizeof(buff)); sprintf(buff,"%d",b[i]);fout_model << buff << " ";}//讀入測試數(shù)據(jù)進(jìn)行測試得到正確率while(true){if (getData(tr,yt,fin_test)){int yy = Pranking(tr);char p[2];p[0] = yy -1 + 48;p[1] = '\0';fout_result << p << endl;if (yy == yt)right ++;elsewrong ++;}elsebreak;}cout<<"\n\n排正確的個(gè)數(shù)為"<<right<<",錯(cuò)誤的個(gè)數(shù)為"<<wrong<<",正確率為%"<<right*100*1.0/(right+wrong)<<endl;cout<<b[0]<<'\t'<<b[1]<<'\t'<<b[2];//釋放申請(qǐng)的空間并關(guān)閉文件 delete []w; delete []y;delete []t;delete []b;delete []tr;fin_train.close();fin_test.close();fout_result.close();fout_model.close();system("PAUSE");return 0; }

五. 總結(jié)與問題

? ? 最后講述在該算法中你可能遇到的問題和我的體會(huì):
? ? 1.由于它是讀取文件,可能文件很大(幾百兆或上G).最初我設(shè)計(jì)的數(shù)組是double feature[10000][136],用來存儲(chǔ)每行特征值,但是如果行數(shù)太大時(shí),What can do?此時(shí)我們應(yīng)該設(shè)置動(dòng)態(tài)數(shù)組<List<List<Float>>>x解決.
? ? 2.最初閱讀了CSDN的Prank代碼,它迭代了1萬次,最后查看原文發(fā)現(xiàn)它并沒有迭代.所以你可以參考C++那部分代碼,每次只需要讀取一行數(shù)據(jù)處理,并記住上一次的46維權(quán)重和閾值即可.
? ? 3.為什么我從136維數(shù)據(jù)轉(zhuǎn)變成了46維數(shù)據(jù)?
? ? 你打開136維特征值數(shù)據(jù)時(shí),你會(huì)發(fā)現(xiàn)它的值特別大,不論是Pointwise,還是Pairwise和Listwise都可能出現(xiàn)越界,一次內(nèi)積求和可能就10的7次方數(shù)據(jù)了.但是46維數(shù)據(jù),每個(gè)特征值都是非常小的,所以如果用136維數(shù)據(jù),你需要對(duì)數(shù)據(jù)進(jìn)行歸一化處理,即數(shù)據(jù)縮小至-1到1之間.
? ? 4.評(píng)價(jià)Pointwise、Pairwise和Listwise指標(biāo)通常是MAP和NDCG@k,后面講述基于對(duì)的學(xué)習(xí)排序和基于列的學(xué)習(xí)排序會(huì)具體介紹.
? ? 5.你可能會(huì)發(fā)現(xiàn)數(shù)據(jù)集中存在vail驗(yàn)證集,以及交叉驗(yàn)證、交叉熵、梯度下降后面都會(huì)講述.但由于相對(duì)于算法,我對(duì)開發(fā)更感興趣,很多東西也是一知半解的.
? ? 6.最后要求該算法到Hadoop或Spark實(shí)現(xiàn)并行化處理,但算法的機(jī)制是串行化.有一定的方法,但我沒有實(shí)現(xiàn).我們做的是一種偽并行化處理,即模型得到權(quán)重后進(jìn)行并行化計(jì)算分?jǐn)?shù)排序.
? ? 最后簡單附上我們的實(shí)驗(yàn)結(jié)果,后面的算法實(shí)驗(yàn)結(jié)果是基于MAP和NDCG@k

? ?希望文章對(duì)大家有所幫助!主要是現(xiàn)在看到LTR很多都是理論介紹,論文也沒有具體代碼,而開源的RankLib有點(diǎn)看不懂,所以提出了自己的認(rèn)識(shí)及代碼執(zhí)行.我也是才接觸這個(gè)一個(gè)月,可能過程中存在錯(cuò)誤或不足之處,歡迎提出建議~同時(shí)感謝一起奮斗的伙伴,尤其是Pu哥.
? ? ? ?（By:Eastmount 2015-01-28 夜5點(diǎn)半? ??http://blog.csdn.net/eastmount/）

總結(jié)

以上是生活随笔為你收集整理的【学习排序】 Learning to Rank中Pointwise关于PRank算法源码实现的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： [android] 解决DatePick
下一篇：【学习排序】 Learning to R