<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0" xmlns:dc="http://purl.org/dc/elements/1.1/">
    <channel>
        <title>資料分析 — — 辛普森悖論：資料會說謊？小心總體與分項分析的陷阱</title>
        <description>1. 01 到底哪個結論是對的2. 02 為啥會出現這種現象以下文章來源於首席數據科學家 ，作者NK冬至

資料會說謊？資料同行們應該對這個話題都有較多的感觸。今天咱們一起聊聊一個比較有意思、但經常忽略的數學現象：辛普森悖論，看一看這回資料到底是怎麼說謊的。

1. 01 到底哪個結論是對的

我們來看一個案例。

我們想判斷醫院A和醫院B哪家醫院的死亡率更低，希望透過死亡率判斷醫院的診治水平。

統計A和B的總體死亡率，我們發現A的死亡率是36%（假設總病人100，死亡36人），B的死亡率是40%（假設總病人100，死亡40人）。

假設我們上述的資料統計口徑都是完全一致的，沒有口徑上的差異，那是不是可以得出結論：B醫院的診治死亡率更高？再延伸一下，那是不是代表B醫院的治療水平差，畢竟死亡率高嘛！

如果是這樣的推理邏輯，其實存在了巨大的漏洞。我們將A和B醫院的病人按照危重程度進行二分類，分為危重病人和輕症病人，再來看一看資料情況，如下圖：



透過上圖我們發現，A醫院的危重病人比重較低，100個人中只有20個，剩下的80個病人都是輕症病人；而B醫院的情況恰恰相反，80個危重病人，20個輕症病人。無論是A醫院還是B醫院，重症病人的死亡率都很高，A醫院甚至達到了100%；而輕症病人的死亡率相對較低，B醫院0死亡。

縱向對比發現，無論是重症病人、還是輕症病人，B醫院的死亡率都是要低於A醫院的。但是由於B醫院的重症病人比重遠大於A醫院，導致了總體的死亡率高。

因此，我們到底要說B醫院的診治死亡率是高呢，還是低呢？

如果單純從總體資料上得出結論：B醫院的總體死亡率更高，這個從統計上沒問題，但是並不代表B醫院的治療水平差，因為從細分結構上看，B醫院的水平都更高。

這就是典型的辛普森悖論：即總體得出的結論和拆分後分項得出的結論，完全相反。

2. 02 為啥會出現這種現象

有沒有覺得很神奇。那為啥會出現這種現象呢？我們從數學和通俗兩個角度分別看一下。

（1）資料角度

我們先從數學的角度來看一看。其實可以用下面的圖形化來表示：



上圖中的3個黑點代表了A醫院，3個白點代表了B醫院。右上側的黑點和白點代表了A醫院和B醫院的總體，適應於向量的加法，是由兩個子向量（即重症和輕症）相加得到。x軸是患病人數，y軸是死亡人數。因此，每個向量的斜率代表了死亡比率。

透過上圖，我們可以發現：



子部分的比例大小，彙總後的整體大小關係並無絕對性。



再看一個散點圖，也是很直觀地說明了這一點：



上面的散點圖，如果不拆分到子部分，單純看x和y，明顯是負相關。但如果透過顏色第三個維度進行區分，明顯發現x和y是正相關的。

（2）通俗實踐角度

我們從通俗實踐的角度，看看為啥會出現辛普森悖論。

簡而言之：當我們對總體進行了第三個維度的拆分後（也就是我們常說的下鑽），由於不同分析物件在第三維度的比例結構有差別，最終導致了悖論現象的發生。

換句話說，如果兩個分析物件，在所有的維度拆分上的比例結構都一致，那麼也就不會出現辛普森悖論。

但通常來講，實踐中總會有差別的結構維度，因此出現該悖論也是機率不低的。往往沒發現結構性差異，是因為關鍵的拆解維度沒有被找到，而不是不存在。比如下面這個航空公司準點率的例子：



總體延誤率明顯是西部航空更低，但是拆分到起飛機場維度，發現每個機場的阿拉斯加航空的延誤率都低於西部航空。主要的干擾資料就是鳳凰城機場，西部航空的航班異常多，拉低了整體的延誤率。

但是拆分機場這種關鍵維度，有時候是不是也不太能想到。只有對事業充分了解、對資料足夠敏感，才能發現這其中的問題吧~

03 一些啟示

透過上面的案例及分享，不知道各位朋友是不是有了一些自己的想法。

其實多年前我搞資料分析的時候，確實遇到過這個問題。當初自己不知道辛普森悖論，一直覺得是自己資料算錯了。結果核查了好幾遍發現資料沒問題，但就是結論和直觀的感覺相悖。然後我就簡單證明了一下，確實會出現這個現象。後來才知道這個是辛普森悖論。

一方面，希望各位朋友以後再碰到這種彙總統計資料的時候，保留一顆質疑的心，極有可能是隱瞞了關鍵維度而得出了誤導性的結論。另一方面，各位朋友自己在做資料分析的時候，切記多多做下鑽、多多嘗試不同的維度進行分析。單單透過彙總資料得出的結論很有可能是和真相背道而馳的。

當然，這也給有些喜歡透過資料“說謊”的人，留下了後門。但這不應該是我們資料人所追求的。</description>
        <link>http://mepopedia.com/forum/read.php?516,94708,94708#msg-94708</link>
        <lastBuildDate>Mon, 25 May 2026 15:28:47 +0800</lastBuildDate>
        <generator>Phorum 5.2.7</generator>
        <item>
            <guid>http://mepopedia.com/forum/read.php?516,94708,94708#msg-94708</guid>
            <title>資料分析 — — 辛普森悖論：資料會說謊？小心總體與分項分析的陷阱</title>
            <link>http://mepopedia.com/forum/read.php?516,94708,94708#msg-94708</link>
            <description><![CDATA[<div class='message-body' style='float:right; margin: 0; border: none; padding: 0 0 1em 1em; max-width: 216px'><div class='notice' style='padding: 10px 14px'><ol style='font-size: 0.8em; margin:0; padding: 0; list-style-type: none;'><li><a style='text-decoration:none' href=#01+.E5.88.B0.E5.BA.95.E5.93.AA.E5.80.8B.E7.B5.90.E8.AB.96.E6.98.AF.E5.B0.8D.E7.9A.84>1. 01 到底哪個結論是對的</a><li><a style='text-decoration:none' href=#02+.E7.82.BA.E5.95.A5.E6.9C.83.E5.87.BA.E7.8F.BE.E9.80.99.E7.A8.AE.E7.8F.BE.E8.B1.A1>2. 02 為啥會出現這種現象</a></ol></div></div>以下文章來源於首席數據科學家 ，作者NK冬至<br />
<br />
資料會說謊？資料同行們應該對這個話題都有較多的感觸。今天咱們一起聊聊一個比較有意思、但經常忽略的數學現象：辛普森悖論，看一看這回資料到底是怎麼說謊的。<br />
<br />
<h2 id='01+.E5.88.B0.E5.BA.95.E5.93.AA.E5.80.8B.E7.B5.90.E8.AB.96.E6.98.AF.E5.B0.8D.E7.9A.84'>1. 01 到底哪個結論是對的</h2><br />
<br />
我們來看一個案例。<br />
<br />
我們想判斷醫院A和醫院B哪家醫院的死亡率更低，希望透過死亡率判斷醫院的診治水平。<br />
<br />
統計A和B的總體死亡率，我們發現A的死亡率是36%（假設總病人100，死亡36人），B的死亡率是40%（假設總病人100，死亡40人）。<br />
<br />
假設我們上述的資料統計口徑都是完全一致的，沒有口徑上的差異，那是不是可以得出結論：B醫院的診治死亡率更高？再延伸一下，那是不是代表B醫院的治療水平差，畢竟死亡率高嘛！<br />
<br />
如果是這樣的推理邏輯，其實存在了巨大的漏洞。我們將A和B醫院的病人按照危重程度進行二分類，分為危重病人和輕症病人，再來看一看資料情況，如下圖：<br />
<br />
<img class="singleimg img-responsive wp-image-2525 size-full aligncenter" src="https://miro.medium.com/v2/resize:fit:786/format:webp/1*-sbRCDvapzeUiDav6zvFKg.png" alt="" width="600" /><br />
<br />
透過上圖我們發現，A醫院的危重病人比重較低，100個人中只有20個，剩下的80個病人都是輕症病人；而B醫院的情況恰恰相反，80個危重病人，20個輕症病人。無論是A醫院還是B醫院，重症病人的死亡率都很高，A醫院甚至達到了100%；而輕症病人的死亡率相對較低，B醫院0死亡。<br />
<br />
縱向對比發現，無論是重症病人、還是輕症病人，B醫院的死亡率都是要低於A醫院的。但是由於B醫院的重症病人比重遠大於A醫院，導致了總體的死亡率高。<br />
<br />
因此，我們到底要說B醫院的診治死亡率是高呢，還是低呢？<br />
<br />
如果單純從總體資料上得出結論：B醫院的總體死亡率更高，這個從統計上沒問題，但是並不代表B醫院的治療水平差，因為從細分結構上看，B醫院的水平都更高。<br />
<br />
這就是典型的辛普森悖論：即總體得出的結論和拆分後分項得出的結論，完全相反。<br />
<br />
<h2 id='02+.E7.82.BA.E5.95.A5.E6.9C.83.E5.87.BA.E7.8F.BE.E9.80.99.E7.A8.AE.E7.8F.BE.E8.B1.A1'>2. 02 為啥會出現這種現象</h2><br />
<br />
有沒有覺得很神奇。那為啥會出現這種現象呢？我們從數學和通俗兩個角度分別看一下。<br />
<br />
<b>（1）資料角度</b><br />
<br />
我們先從數學的角度來看一看。其實可以用下面的圖形化來表示：<br />
<br />
<img class="singleimg img-responsive wp-image-2525 size-full aligncenter" src="https://miro.medium.com/v2/resize:fit:786/format:webp/1*ZbYdzCiubKo_K-T3_NL6sQ.png" alt="" width="600" /><br />
<br />
上圖中的3個黑點代表了A醫院，3個白點代表了B醫院。右上側的黑點和白點代表了A醫院和B醫院的總體，適應於向量的加法，是由兩個子向量（即重症和輕症）相加得到。x軸是患病人數，y軸是死亡人數。因此，每個向量的斜率代表了死亡比率。<br />
<br />
透過上圖，我們可以發現：<br />
<br />
<img class="singleimg img-responsive wp-image-2525 size-full aligncenter" src="https://miro.medium.com/v2/resize:fit:786/format:webp/1*-4qMQPRCv5YYFousyBehYg.png" alt="" width="600" /><br />
<br />
子部分的比例大小，彙總後的整體大小關係並無絕對性。<br />
<br />
<img class="singleimg img-responsive wp-image-2525 size-full aligncenter" src="https://miro.medium.com/v2/resize:fit:1100/format:webp/1*vV9LsOSn4b5wGqtM9Yj8DA.png" alt="" width="600" /><br />
<br />
再看一個散點圖，也是很直觀地說明了這一點：<br />
<br />
<img class="singleimg img-responsive wp-image-2525 size-full aligncenter" src="https://miro.medium.com/v2/resize:fit:1100/format:webp/1*IGfj1dflLGVK-z_I89qRuA.png" alt="" width="600" /><br />
<br />
上面的散點圖，如果不拆分到子部分，單純看x和y，明顯是負相關。但如果透過顏色第三個維度進行區分，明顯發現x和y是正相關的。<br />
<br />
<b>（2）通俗實踐角度</b><br />
<br />
我們從通俗實踐的角度，看看為啥會出現辛普森悖論。<br />
<br />
簡而言之：當我們對總體進行了第三個維度的拆分後（也就是我們常說的下鑽），由於不同分析物件在第三維度的比例結構有差別，最終導致了悖論現象的發生。<br />
<br />
換句話說，如果兩個分析物件，在所有的維度拆分上的比例結構都一致，那麼也就不會出現辛普森悖論。<br />
<br />
但通常來講，實踐中總會有差別的結構維度，因此出現該悖論也是機率不低的。往往沒發現結構性差異，是因為關鍵的拆解維度沒有被找到，而不是不存在。比如下面這個航空公司準點率的例子：<br />
<br />
<img class="singleimg img-responsive wp-image-2525 size-full aligncenter" src="https://miro.medium.com/v2/resize:fit:1100/format:webp/1*bpcOC_t1MmxNRxoo3LtMUw.png" alt="" width="600" /><br />
<br />
總體延誤率明顯是西部航空更低，但是拆分到起飛機場維度，發現每個機場的阿拉斯加航空的延誤率都低於西部航空。主要的干擾資料就是鳳凰城機場，西部航空的航班異常多，拉低了整體的延誤率。<br />
<br />
但是拆分機場這種關鍵維度，有時候是不是也不太能想到。只有對事業充分了解、對資料足夠敏感，才能發現這其中的問題吧~<br />
<br />
<h2>03 一些啟示<h2><br />
<br />
透過上面的案例及分享，不知道各位朋友是不是有了一些自己的想法。<br />
<br />
其實多年前我搞資料分析的時候，確實遇到過這個問題。當初自己不知道辛普森悖論，一直覺得是自己資料算錯了。結果核查了好幾遍發現資料沒問題，但就是結論和直觀的感覺相悖。然後我就簡單證明了一下，確實會出現這個現象。後來才知道這個是辛普森悖論。<br />
<br />
一方面，希望各位朋友以後再碰到這種彙總統計資料的時候，保留一顆質疑的心，極有可能是隱瞞了關鍵維度而得出了誤導性的結論。另一方面，各位朋友自己在做資料分析的時候，切記多多做下鑽、多多嘗試不同的維度進行分析。單單透過彙總資料得出的結論很有可能是和真相背道而馳的。<br />
<br />
當然，這也給有些喜歡透過資料“說謊”的人，留下了後門。但這不應該是我們資料人所追求的。]]></description>
            <dc:creator>frlily</dc:creator>
            <category>資訊</category>
            <pubDate>Tue, 18 Feb 2025 11:36:58 +0800</pubDate>
        </item>
    </channel>
</rss>
