数据分析与挖掘实战-中医证型关联规则挖掘
生活随笔
收集整理的這篇文章主要介紹了
数据分析与挖掘实战-中医证型关联规则挖掘
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
中醫證型關聯規則挖掘
- 背景
- 顯然,如今的中醫治療再度火了起來,歸根到底的原因還是中醫在某些疾病處理上具有天然優勢。
- 而且,中醫治療沒有西醫治療的很多毒副作用。
- “先證而治”。
- 挖掘目標
- 發現中醫癥狀間的關聯聯系和諸多癥狀之間的規律性,并且依據規則分析病因、預測病情發展以及為未來臨床診治提供有效借鑒。
- 也就是說,借助乳腺癌患者病理信息,挖掘患者的癥狀與中醫證型之間的關聯聯系,對截斷治療提供依據,挖掘潛性證素。
- 分析
- 由于患者在特定的病程階段會有特定的臨床癥狀,所以可以運用中醫截斷療法進行治療,在辨病的基礎上圍繞各個病程的特殊癥候先證而治。截斷扭轉的主要觀點是強調早期治療,力圖快速控制病情,截斷病情的邪變深入,扭轉阻止疾病惡化。
- 由于數據紙質化,只能使用問卷調查獲取數據,采用關聯規則算法,挖掘各中醫證素與乳腺癌TNM分期之間的聯系。(乳腺癌基本分期原則,I比較輕,IV比較嚴重。
- 處理過程
- 數據獲取
- 問卷收集并整理數據。
- 數據探索
- 由于問卷由我指定,基本結構和問題點已知,這里無需數據探索,可以直接處理。
- 數據預處理
- 對原始數據進行數據預處理,包括數據清洗(存在無效問卷)、屬性規約(去除無關屬性)、數據變換。
- 這里數據變換包含了屬性構造和數據離散化。
- 為了更好的反映證素分布特征,采用證型系數代替單證型的證素得分:證型系數 = 該證型得分/該證型總分。
- 由于Apriori關聯規則算法不能處理連續型數值變量,原始數據需要離散化。(使用聚類方法)
- 對原始數據進行數據預處理,包括數據清洗(存在無效問卷)、屬性規約(去除無關屬性)、數據變換。
- 數據挖掘建模
- 利用建模數據,采用關聯規則算法,調整模型輸入參數,獲取各中醫證素與乳腺癌TNM分期之間的關系。
- 本案例的目標是探索乳腺癌患者TNM分期與中醫證型系數之間的關系,使用關聯規則算法,挖掘它們之間的聯系。
- 關聯規則算法主要用于尋找數據集中項之間的關聯聯系,它揭示數據項之間的位置關系,基于樣本的統計規律,進行關聯規則的挖掘,根據所挖掘的關聯關系,可以從一個屬性的信息來推斷另一個屬性信息,當置信度達到某一閾值時,可以認為規則成立。
- 使用Apriori需要設置建模參數的最小支持度和最小置信度,調整到合適為止,如何設置沒有統一標準,一般認為根據經驗設置。遺憾的是主流的庫中均沒有Apriori等關聯規則函數,自行編寫。
- 根據結果如A3---F4---H4,理解為A3,F4=H4,很多得到的規則,我們只需要以H開頭的為規則結果的項。
- 后續處理
- 結合實際業務,對模型結果進行分析,將模型結果應用到實際業務中,輸出關聯規則結果。
- 數據獲取
- 補充說明
- 首先,盡管關聯規則算法是機器學習、深度學習、數據挖掘中常用的模型,然而很遺憾的是主流的sklearn、keras等機器學習深度學習主流庫沒有進行封裝。本案例使用自行編寫的Apriori算法。
- 參考書《Python數據分析與挖掘》
這里只列舉了建模的代碼,數據集和更多代碼可以訪問我的github,歡迎star或者fork。
總結
以上是生活随笔為你收集整理的数据分析与挖掘实战-中医证型关联规则挖掘的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 数据分析与挖掘实战-航空公司客户价值分析
- 下一篇: 安卓进阶系列-04自定义原型图片显示(C