R統計 | 相關分析

相關分析用於測量兩個變數之間的線性關聯程度，變數必須是計量而非類別型態。這個方法是由皮爾森發明，因此也稱為皮爾森相關係數(Pearson correlation coefficient)，通常以英文的小寫r來表示。相關係數的值介於-1與1之間，1表示兩個變數線性正相關，-1表示兩個變數線性負相關。

樣本相關係數的公式為：\[r{_x}{_y}=\frac{\displaystyle\sum_{i=1}^{n}(x{_i}-\overline{x})(y{_i}-\overline{y})}{\sqrt{\displaystyle\sum_{i=1}^{n}(x{_i}-\overline{x})^2}\sqrt{\displaystyle\sum_{i=1}^{n}(y{_i}-\overline{y})^2}}\]

\(n\)=樣本數。

\(x{_i}\), \(y{_i}\)=樣本點。

\(\overline{x}\)=樣本平均數，公式=\(\frac{1}{n}\displaystyle\sum_{i=1}^{n}x{_i}\)。

相關係數

相關係數適用於兩個變數都是計量變數的情況。我們以巧克力銷售與諾貝爾獎，來說明相關係數的應用。

新英格蘭醫學期刊(The New England Journal of Medicine)是世界權威的醫學期刊之一。2012年雜誌刊登了一篇名為Chocolate Consumption, Cognitive Function, and Nobel Laureates的文章，作者Franz H. Messerli發現巧克力消費量越高的國家，諾貝爾獎得主也越多，兩者的相關係數高達0.791，p值<.0001。

當年作者從wikipedia的List of contires by Nobel laureates per capita以及Chocosuisse、Theobroma-cacao獲得各國諾貝爾獎人數與巧克力消費數據進行分析。現在我們也如法炮製，看看經過這麼多年以後，巧克力消費是否與諾貝爾獎有關。

相關資料已經從相同網站，依據可獲得資料的程度，更新至2017年、2019年或2020年最新數據，可以從chocolate_nobel下載。


     > chocolate_nobel<-read.csv("c:/Users/USER/downloads/chocolate_nobel.csv", header=T, sep=",")

     > cor(chocolate_nobel[,2], chocolate_nobel[,3])

     [1] 0.6406726

cor()計算相關係數為0.641。雖然不像2012年發表的數據0.791那麼高，但兩者依然呈現正相關。

相關分析

接著我們利用cor.test()作相關分析：


     > cor.test(chocolate_nobel[,2], chocolate_nobel[,3])

     

             Pearson's product-moment correlation
     

     data:  chocolate_nobel[, 2] and chocolate_nobel[, 3]
     t = 4.4934, df = 29, p-value = 0.0001034
     alternative hypothesis: true correlation is not equal to 0
     95 percent confidence interval:
      0.3704249 0.8109207
     sample estimates:
           cor 
     0.6406726

分析結果發現p值.0001034已經沒有<.0001，但仍然非常接近，且一樣達到統計顯著。繪製兩者的散佈圖如下：


     > attach(chocolate_nobel)

     > plot(chocolate_nobel[,2], chocolate_nobel[,3], main="Correlation between Chocolate Consumption and Nobel Laureates", xlab="Chocolate Consumption (kg/yr/capita)", ylab="Nobel Laureates per 10 Million Population")

     > text(chocolate_nobel[,2], chocolate_nobel[,3], labels=Country, cex=0.8, pos=3, col="blue")

correlation between chocolate consumption and nobel laureates

無論是2012年的數據，還是目前的數據，都顯示巧克力消費與諾貝爾獎的關聯。但相關分析探究的是兩個變數「統計上的關聯性」，並非兩者的因果關係。很多案例並沒有因果關係，只是在數學上顯示兩者相關而已。

簡介

相關係數

相關分析