度量相似性数学建模_一种基于粒子群位置更新思想灰狼优化算法的K-Means文本分类方法与流程...
技術(shù)特征:
1.一種基于粒子群位置更新思想灰狼優(yōu)化算法的k-means文本分類方法,其特征在于:包括以下步驟:
s1:對文本數(shù)據(jù)進行預(yù)處理,得到預(yù)處理后文本數(shù)據(jù);
s2:采用余弦角度為相似性度量,分別計算預(yù)處理后文本數(shù)據(jù)向量中的每一個數(shù)據(jù)對象到每一個初始灰狼個體的初始聚類中心點間的距離,并按相似度最接近的原則,分別將預(yù)處理文本數(shù)據(jù)中的數(shù)據(jù)對象分配到對應(yīng)的k個類簇中,直到所有的數(shù)據(jù)對象分配完畢,形成k個類簇;再計算下一個灰狼個體的數(shù)據(jù)分配結(jié)果,直到灰狼種群中所有的灰狼個體都計算完畢,得到n種初步文本聚類結(jié)果;
s3:分別計算每一個灰狼個體到數(shù)據(jù)中心點間的距離之和,分別得到了n個灰狼個體的適應(yīng)度評估函數(shù)值;
s4:對n個適應(yīng)度評估函數(shù)值進行按序排列,選出適應(yīng)度評估函數(shù)值最小的前三只狼作為α狼,β狼,δ狼;并根據(jù)α狼,β狼,δ狼三只狼的位置,計算灰狼種群中其他灰狼個體到這三只狼的距離,并計算其余灰狼個體位置更新的中間變量的值;s5:將帶有粒子群位置更新思想的所有灰狼個體進行位置更新;
s6:判斷粒子群位置更新思想改進的灰狼優(yōu)化算法的k-means聚類算法是否達到最大迭代次數(shù),如果否,則執(zhí)行步驟2;如果是,輸出α狼的適應(yīng)度值及其位置xα,根據(jù)xα聚類中心得到的最終文本數(shù)據(jù)分配結(jié)果。
2.根據(jù)權(quán)利要求1所述的一種基于粒子群位置更新思想灰狼優(yōu)化算法的k-means文本分類方法,其特征還在于:所述文本數(shù)據(jù)進行預(yù)處理步驟如下:
s1:采用分詞軟件劃分反映完整文本句意的最小單位的詞組;
s2:篩選無意義詞組;
s3:采用向量空間模型進行數(shù)學(xué)建模,對分詞后的本文數(shù)據(jù)采用詞頻統(tǒng)計進行分詞權(quán)重計算,提取文本數(shù)據(jù)中的關(guān)鍵詞;
s4:使用word2vec模型進行詞的向量化,用向量化之后的文本數(shù)據(jù)向量作為聚類的數(shù)據(jù)輸入。
3.根據(jù)權(quán)利要求1所述的一種基于粒子群位置更新思想灰狼優(yōu)化算法的k-means文本分類方法,其特征還在于:所述余弦角度作為相似性度量公式如下:
其中xi(i=1,2,3...,n)表述數(shù)據(jù)對象向量,xj(j=1,2,3,...,n)表示中心點向量。
4.根據(jù)權(quán)利要求1所述的一種基于粒子群位置更新思想灰狼優(yōu)化算法的k-means文本分類方法,其特征還在于:適應(yīng)度評估函數(shù)值公式如公式如下:
其中,k代表聚類個數(shù)。
5.根據(jù)權(quán)利要求1所述的一種基于粒子群位置更新思想灰狼優(yōu)化算法的k-means文本分類方法,其特征還在于:所述灰狼個體進行位置更新根據(jù)如下公式進行:
其中灰狼位置更新速度通過如下公式確定:
其中,w稱為慣性因子,r7,r8,r9是屬于[0,1]間的隨機數(shù),分別表示控制種群中其余狼與三只頭狼之間距離的參數(shù),范圍為在[0,2]之間;分別表示位置更新后的灰狼個體位置;代表當(dāng)前灰狼的位置。
創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯,堅持創(chuàng)作打卡瓜分現(xiàn)金大獎總結(jié)
以上是生活随笔為你收集整理的度量相似性数学建模_一种基于粒子群位置更新思想灰狼优化算法的K-Means文本分类方法与流程...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。