资料探勘的10大演算法我用大白话讲清楚了，新手一看就懂

资料探勘的10大演算法我用大白话讲清楚了，新手一看就懂 1. 一、PageRank1.1 原理1.2 比喻說明1.3 關於阻尼因子2. 二、Apriori（關聯分析）2.1 原理2.2 計算過程2.3 擴充套件：FP-Growth2.4 比喻說明：啤酒和尿不溼擺在一起銷售3. 三、AdaBoost3.1 原理3.2 計算過程3.3 比喻說明4. 四、C4.5（決策樹）4.1 原理4.2 比喻說明：挑西瓜5. 五、CART（決策樹）5.1 原理5.2 比喻說明6. 六、樸素貝葉斯（條件機率）6.1 原理6.2 比喻說明：給病人分類7. 七、SVM7.1 原理7.2 比喻說明8. 八、KNN（聚類）8.1 原理8.2 計算步驟8.3 比喻說明9. 九、K-Means（聚類）9.1 原理9.2 比喻說明10. 十、EM（聚類）10.1 原理10.2 比喻說明：菜稱重一個優秀的資料分析師，除了要掌握基本的統計學、資料庫、資料分析方法、思維、資料分析工具技能之外，還需要掌握一些資料探勘的思想，幫助我們挖掘出有價值的資料，這也是資料分析專家和一般資料分析師的差距之一。資料探勘主要分為分類演演算法，聚類演演算法和關聯規則三大類，這三類基本上涵蓋了目前商業市場對演演算法的所有需求。而這三類裡又包含許多經典演演算法。市面上很多關於資料探勘演演算法的介紹深奧難懂，今天就給大家用簡單的大白話來介紹資料探勘十大經典演演算法原理，幫助大家快速理解。演演算法分類連線分析：PageRank 關聯分析：Apriori 分類演演算法：C4.5，樸素貝葉斯，SVM，KNN，Adaboost，CART 聚類演演算法：K-Means，EM 1. 一、PageRank 當一篇論文被引用的次數越多，證明這篇論文的影響力越大。一個網頁的入口越多，入鏈越優質，網頁的質量越高。 1. 原理網頁影響力=阻尼影響力+所有入鏈集合頁面的加權影響力之和 1.一個網頁的影響力：所有入鏈的頁面的加權影響力之和。 2.一個網頁對其他網頁的影響力貢獻為：自身影響力/出鏈數量。 3.使用者並不都是按照跳轉連結的方式來上網，還有其他的方式，比如直接輸入網址訪問。 4.所以需要設定阻尼因子，代表了使用者按照跳轉連結來上網的機率。 2. 比喻說明 1.微博:一個人的微博粉絲數不一定等於他的實際影響力，還需要看粉絲的質量如何。如果是殭屍粉沒什麼用，但如果是很多大V或者明星關注，影響力很高。 2.店鋪的經營顧客比較多的店鋪質量比較好，但是要看看顧客是不是託。 3.興趣在感興趣的人或事身上投入了相對多的時間，對其相關的人事物也會投入一定的時間。那個人或事，被關注的越多，它的影響力/受眾也就越大。 3. 關於阻尼因子 1.透過你的鄰居的影響力來評判你的影響力，但是如果不能透過鄰居來訪問你，並不代表你沒有影響力，因為可以直接訪問你，所以引入阻尼因子的概念。 2.海洋除了有河流流經，還有雨水，但是下雨是隨機的。 3.提出阻尼係數，還是為了解決某些網站明明存在大量出鏈（入鏈），但是影響力卻非常大的情形。（1）出鏈例子：hao123導航網頁，出鏈極多入鏈極少。（2）入鏈例子：百度谷歌等搜尋引擎，入鏈極多出鏈極少。 2. 二、Apriori（關聯分析）關聯關係挖掘，從消費者交易記錄中發掘商品與商品之間的關聯關係。 1. 原理 1.支援度:某個商品組合出現的次數與總次數之間的比例。 5次購買，4次買了牛奶，牛奶的支援度為4/5=0.8。5次購買，3次買了牛奶+麵包，牛奶+麵包的支援度為3/5=0.6。 2.置信度:購買了商品A，有多大機率購買商品B，A發生的情況下B發生的機率是多少。買了4次牛奶，其中2次買了啤酒，(牛奶->啤酒)的置信度為2/4=0.5。買了3次啤酒，其中2次買了牛奶，(啤酒->牛奶)的置信度為2/3-0.67。 3.提升度:衡量商品A的出現，對商品B的出現機率提升的程度。提升度(A->B)=置信度(A->B)/支援度(B)。提升度>1，有提升；提升度=1，無變化；提升度 http://mepopedia.com/forum/read.php?516,94713,94713#msg-94713 Sun, 31 May 2026 18:56:01 +0800 Phorum 5.2.7 http://mepopedia.com/forum/read.php?516,94713,94713#msg-94713 资料探勘的10大演算法我用大白话讲清楚了，新手一看就懂 http://mepopedia.com/forum/read.php?516,94713,94713#msg-94713 一個優秀的資料分析師，除了要掌握基本的統計學、資料庫、資料分析方法、思維、資料分析工具技能之外，還需要掌握一些資料探勘的思想，幫助我們挖掘出有價值的資料，這也是資料分析專家和一般資料分析師的差距之一。

資料探勘主要分為分類演演算法，聚類演演算法和關聯規則三大類，這三類基本上涵蓋了目前商業市場對演演算法的所有需求。而這三類裡又包含許多經典演演算法。市面上很多關於資料探勘演演算法的介紹深奧難懂，今天就給大家用簡單的大白話來介紹資料探勘十大經典演演算法原理，幫助大家快速理解。
演演算法分類

連線分析：PageRank

關聯分析：Apriori

分類演演算法：C4.5，樸素貝葉斯，SVM，KNN，Adaboost，CART

聚類演演算法：K-Means，EM

1. 一、PageRank

當一篇論文被引用的次數越多，證明這篇論文的影響力越大。
一個網頁的入口越多，入鏈越優質，網頁的質量越高。

1. 原理

網頁影響力=阻尼影響力+所有入鏈集合頁面的加權影響力之和

1.一個網頁的影響力：所有入鏈的頁面的加權影響力之和。

2.一個網頁對其他網頁的影響力貢獻為：自身影響力/出鏈數量。

3.使用者並不都是按照跳轉連結的方式來上網，還有其他的方式，比如直接輸入網址訪問。

4.所以需要設定阻尼因子，代表了使用者按照跳轉連結來上網的機率。

2. 比喻說明

1.微博:一個人的微博粉絲數不一定等於他的實際影響力，還需要看粉絲的質量如何。如果是殭屍粉沒什麼用，但如果是很多大V或者明星關注，影響力很高。

2.店鋪的經營顧客比較多的店鋪質量比較好，但是要看看顧客是不是託。

3.興趣在感興趣的人或事身上投入了相對多的時間，對其相關的人事物也會投入一定的時間。那個人或事，被關注的越多，它的影響力/受眾也就越大。

3. 關於阻尼因子

1.透過你的鄰居的影響力來評判你的影響力，但是如果不能透過鄰居來訪問你，並不代表你沒有影響力，因為可以直接訪問你，所以引入阻尼因子的概念。

2.海洋除了有河流流經，還有雨水，但是下雨是隨機的。

3.提出阻尼係數，還是為了解決某些網站明明存在大量出鏈（入鏈），但是影響力卻非常大的情形。

（1）出鏈例子：hao123導航網頁，出鏈極多入鏈極少。

（2）入鏈例子：百度谷歌等搜尋引擎，入鏈極多出鏈極少。

2. 二、Apriori（關聯分析）

關聯關係挖掘，從消費者交易記錄中發掘商品與商品之間的關聯關係。

1. 原理

1.支援度:某個商品組合出現的次數與總次數之間的比例。 5次購買，4次買了牛奶，牛奶的支援度為4/5=0.8。5次購買，3次買了牛奶+麵包，牛奶+麵包的支援度為3/5=0.6。

2.置信度:購買了商品A，有多大機率購買商品B，A發生的情況下B發生的機率是多少。買了4次牛奶，其中2次買了啤酒，(牛奶->啤酒)的置信度為2/4=0.5。買了3次啤酒，其中2次買了牛奶，(啤酒->牛奶)的置信度為2/3-0.67。

3.提升度:衡量商品A的出現，對商品B的出現機率提升的程度。提升度(A->B)=置信度(A->B)/支援度(B)。提升度>1，有提升；提升度=1，無變化；提升度<1，下降。

4.頻繁項集項集：可以是單個商品，也可以是商品組合。頻繁項集是支援度大於最小支援度（Min Support）的項集。

2. 計算過程

從K=1開始，篩選頻繁項集。
在結果中，組合K+1項集，再次篩選。
迴圈1，2步。直到找不到結果為止，K-1項集的結果就是最終結果。

3. 擴充套件：FP-Growth

演演算法Apriori 演演算法需要多次掃描資料庫，效能低下，不適合大資料量。 FP-growth演演算法，透過構建FP 樹的資料結構，將資料儲存在FP 樹中，只需要在構建FP 樹時掃描資料庫兩次，後續處理就不需要再訪問資料庫了。

4. 比喻說明：啤酒和尿不溼擺在一起銷售

沃爾瑪透過資料分析發現，美國有嬰兒的家庭中，一般是母親在家照顧孩子，父親去超市買尿不溼。父親在購買尿不溼時，常常會順便搭配幾瓶啤酒來犒勞自己，於是，超市嘗試推出了將啤酒和尿不溼擺在一起的促銷手段，這個舉措居然使尿不溼和啤酒的銷量都大幅增加。

3. 三、AdaBoost

1. 原理

簡單的說，多個弱分類器訓練成為一個強分類器。將一系列的弱分類器以不同的權重比組合作為最終分類選擇。

2. 計算過程

1.初始化基礎權重。

2.獎權重矩陣，透過已的分類器計算錯誤率，選擇錯誤率最低的為最優分類器。

3.透過分類器權重公式，減少正確樣本分佈，增加錯誤樣本分佈，得到新的權重矩陣和當前k輪的分類器權重。

4.將新的權重矩陣，帶入上面的步驟2和3，重新計算權重矩陣。

5.迭代N輪，記錄每一輪的最終分類器權重，得到強分類器。

3. 比喻說明

1.利用錯題提升學習效率

（1）做正確的題，下次少做點，反正都會了。

（2）做錯的題，下次多做點，集中在錯題上。

（3）隨著學習的深入，做錯的題會越來越少。

2.合理跨界提高盈利
蘋果公司，軟硬結合，佔據了大部分的手機市場利潤，兩個領域的知識結合起來產生新收益。

4. 四、C4.5（決策樹）

決策就是對於一個問題，有多個答案，選擇答案的過程就是決策。
C4.5演演算法是用於產生決策樹的演演算法，主要用於分類。
C4.5使用資訊增益率做計算（ID3演演算法使用資訊增益做計算）。

1. 原理

C4.5選擇最有效的方式對樣本集進行分裂，分裂規則是分析所有屬性的資訊增益率。
資訊增益率越大，意味著這個特徵分類的能力越強，我們就要優先選擇這個特徵做分類。

2. 比喻說明：挑西瓜

拿到一個西瓜，先判斷它的紋路，如果很模糊，就認為這不是好瓜，如果它清晰，就認為它是一個好瓜，如果它稍稍模糊，就考慮它的密度，密度大於某個值，就認為它是好瓜，否則就是壞瓜。

5. 五、CART（決策樹）

CART：Classification And Regression Tree，中文叫分類迴歸樹，即可以做分類也可以做迴歸。
什麼是分類樹、迴歸樹？
分類樹：處理離散資料，也就是資料種類有限的資料，輸出的是樣本的類別。
迴歸樹：可以對連續型的數值進行預測，輸出的是一個數值，數值在某個區間內都有取值的可能。迴歸問題和分類問題的本質一樣，都是針對一個輸入做出一個輸出預測，其區別在於輸出變數的型別。

1. 原理

CART分類樹
與C4.5演演算法類似，只是屬性選擇的指標是基尼係數。
基尼係數反應了樣本的不確定度，基尼係數越小，說明樣本之間的差異性小，不確定程度低。
分類是一個不確定度降低的過程，CART在構造分類樹的時候會選擇基尼係數最小的屬性作為屬性的劃分。
CART 迴歸樹
採用均方誤差或絕對值誤差為標準，選取均方誤差或絕對值誤差最小的特徵。

2. 比喻說明

分類：預測明天是陰、晴還是雨。
迴歸：預測明天的氣溫是多少度。

6. 六、樸素貝葉斯（條件機率）

樸素貝葉斯是一種簡單有效的常用分類演演算法，計算未知物體出現的條件下各個類別出現的機率，取機率最大的分類。

1. 原理

假設輸入的不同特徵之間是獨立的，基於機率論原理，透過先驗機率P(A)、P(C)和條件機率推算出後機率出P(A|C)。
P(A)：先驗機率，即在C事件發生之前，對A事件機率的一個判斷
P(C|A)：條件機率，事件 C 在另外一個事件 A 已經發生條件下的發生機率。
P(A|C)：後驗機率，即在C事件發生之後，對A事件機率的重新評估。

2. 比喻說明：給病人分類

給定一個新病人，是一個打噴嚏的建築工人，計算他患感冒的機率。

7. 七、SVM

SVM：Support Vector Machine，中文名為支援向量機，是常見的一種分類方法，最初是為二分類問題設計的，在機器學習中，SVM 是有監督的學習模型。
什麼是有監督學習和無監督學習？
有監督學習：即在已有類別標籤的情況下，將樣本資料進行分類。
無監督學習：即在無類別標籤的情況下，樣本資料根據一定的方法進行分類，即聚類，分類好的類別需要進一步分析後，從而得知每個類別的特點。

1. 原理

找到具有最小間隔的樣本點，然後擬合出一個到這些樣本點距離和最大的線段/平面。
硬間隔：資料是線性分佈的情況，直接給出分類。
軟間隔：允許一定量的樣本分類錯誤。
核函式：非線性分佈的資料對映為線性分佈的資料。

2. 比喻說明

1.分隔桌上一堆紅球和籃球
用一根線將桌上的紅球和藍球分成兩部分。

2.分隔箱子裡一堆紅球和籃球
用一個平面將箱子裡的紅球和藍球分成兩部分。

8. 八、KNN（聚類）

機器學習演算法中最基礎、最簡單的演算法之一，既能分類也能迴歸，透過測量不同特徵值之間的距離來進行分類。

1. 原理

計算待分類物體與其他物體之間的距離，對於K個最近的鄰居，所佔數量最多的類別，預測為該分類物件的類別。

2. 計算步驟

1、根據場景，選取距離計算方式，計算待分類物體與其他物體之間的距離。

2、統計距離最近的K個鄰居。

3、對於K個最近的鄰居，所佔數量最多的類別，預測為該分類物件的類別。

3. 比喻說明

近朱者赤，近墨者黑

9. 九、K-Means（聚類）

K-means是一個聚類演算法，是無監督學習，生成指定K個類，把每個物件分配給距離最近的聚類中心。

1. 原理

1.隨機選取K個點為分類中心點。

2.將每個點分配到最近的類，這樣形成了K個類。

3.重新計算每個類的中心點。比如都屬於同一個類別裡面有10個點，那麼新的中心點就是這10個點的中心點，一種簡單的方式就是取平均值。

2. 比喻說明

1.選老大：大家隨機選K個老大，誰離得近，就是那個佇列的人（計算距離，距離近的人聚合在一起）。
隨著時間的推移，老大的位置在變化（根據演算法，重新計算中心點），直到選出真正的中心老大（重複，直到準確率最高）。

2.Kmeans和Knn的區別：Kmeans開班選老大，風水輪流轉，直到選出最佳中心老大。
Knn小弟加隊伍，離那個班相對近，就是那個班的。

10. 十、EM（聚類）

EM 的英文是 Expectation Maximization，所以 EM 演算法也叫最大期望演算法，也是聚類演算法的一種。
EM和K-Means的區別：

1.EM是計算機率，KMeans是計算距離。

2.EM屬於軟聚類，同一樣本可能屬於多個類別；而K-Means屬於硬聚類，一個樣本只能屬於一個類別。所以前者能夠發現一些隱藏的資料。

1. 原理

先估計一個大機率的可能引數，然後再根據資料不斷地進行調整，直到找到最終的確認引數。

2. 比喻說明：菜稱重

很少有人用稱對菜進行稱重，再計算一半的分量進行平分。
大部分人的方法是：

1、先分一部分到碟子 A 中，再把剩餘的分到碟子 B 中。

2、觀察碟子 A 和 B 裡的菜是否一樣多，哪個多就勻一些到少的那個碟子裡。

3、然後再觀察碟子 A 和 B 裡的是否一樣多，重複下去，直到份量不發生變化為止。

現在10大演算法都已經說完了，其實一般來說，常用演算法都已經被封裝到庫中了，只要new出相應的模型即可。]]> frlily 資訊 Mon, 21 Jul 2025 14:09:00 +0800