目前日期文章:201501 (4)

瀏覽方式: 標題列表 簡短摘要

 

大數據  

書名:大數據(Big Data)  作者:麥爾荀伯格、庫基耶(天下文化出版)

/以斯帖統計顧問公司整理

 

 「巨量資料」、「海量資料」、「大數據」這一類的字眼,都是big data的翻譯,麥爾荀伯格(Viktor Mayer-Schonberger)和庫基耶(Kenneth Cukier)這兩位最頂尖的巨量資料專家,合寫的這一本《大數據》,書中提到幾個重要的觀念,使我們對「大數據」有了初步的概念

 

1.「更多資料,樣本=母體的時代來臨:過去資料不足的時代,也就是小量資料的時代,由於很難掌握到全體的資料,只好抽取樣本,發展種種統計技巧去推估母體的概況。但是在巨量資料時代,掌握全體的資料已不是夢。巨量資料的「巨量」不是絕對、而是相對的概念,指的是有完整的資料集。

2.「擁抱不精確,宏觀新世界」:容忍各種不精確(也就是雜亂),可能是件好事,放寬允許的誤差值,手中就有更多的資料,就更能看到全貌,資料量增大的時候,我們常常會需要接受雜亂的事實,並從精確走向可能性。

3.「找到相關性,不再拘泥於因果關係」:在原本小量資料的情境下,相關性就已經相當實用,而巨量資料靠著相關性,我們對事物的觀察就能更快、更輕鬆、也更清楚。在分析某個現象時,不用抽絲撥繭找出它運作的道理,只要找到有用的指標即可。靠著相關性,就能抓住現在,預測未來。

文章標籤

estat 發表在 痞客邦 留言(0) 人氣()

 

    當解釋變項間存在共線性問題,但又無法直接以剔除變項的方式進行多元回歸分析,此時可採用主成份回歸分析來減輕解釋變數間的多重共線性。以下以工作倦怠感預測生活滿意度為例,解釋變數包含年齡、性別及工作倦怠感量表上的20個測量題,如下的資料結構所示,但有幾組題目間存在著相當高的相關性,若同時放入回歸模式中會因共線性的關係影響模式的估計,如下表的相關係數表所示,第1-8題的相關性很高,第10-15題的相關性很高,同時第20-22題與第16-18題之間的相關性很高。因此可考慮將量表以主成份分析萃取出幾個成份(component),使相關性很高的題目組成一個成份,而每一個成份間的相關性是最低的,並將每一個成份重新命名,且計算每一成份新的分數(score),再進行多元邏輯斯回歸,如此即可解決多重共線性的問題,此法即主成份回歸分析法。在因素分析時,要用正交(或直交)轉軸法找出特定的成份,並為各成份命名,但命名的合理性是很容易受到爭議的。

 

主成份回歸1  

資料檔改編自「吳明隆SPSS統計應用學習實務:問卷分析與應用統計」

 

20題測驗題間的相關係數表(只取部份表格內容)

主成份回歸2  

 

    以下步驟已將工作倦怠感量表萃取出4個因素,並產生4個因素分數,在資料檔中,新的變數名為FAC1_1FAC2_1FAC3_1FAC4_1,我們重新將變數的標籤(Label)依序改為:工作挫折感、工作價值與目標低落、工作興趣感低落、人際關係冷漠,如下所示,再進行多元迴歸的程序。

estat 發表在 痞客邦 留言(0) 人氣()

 

下圖有2組散佈圖,1組是FPG vs Age (空腹血糖值與年齡)的散佈圖,另1組為HbA1c vs Age (糖化血色素與年齡)的散佈圖。但2種檢驗值的測量尺度不同,如何同時呈現兩種尺度的Y軸?若想知道空腹血糖值與年齡的相關較大,還是糖化血色素與年齡的相關較大,並在同一張圖上呈現2組散佈圖,配適一條回歸線,該怎麼做呢?

 

請注意!下圖左右各有兩條不同的座標軸,左邊是FPGY軸,右邊是HbA1cY軸,給定兩種不同測量尺度的檢驗值各自的軸線及尺度,即可解決以上的問題。操作步驟如下:

 SigmaPlot雙軸            

1.   請將檔案匯入
2.   先畫好FPGAge的迴歸散佈圖,再利用Add New Plot加入HbA1c Age的迴歸散佈圖。

(1) 選擇Create Graph中的Scatter,再選擇Simple Scatter - Regression

SigmaPlot雙軸2  

(2) Data formatXY Pairs

estat 發表在 痞客邦 留言(0) 人氣()

 

通常我們收回集的資料乍看之下是很混亂,且讓人頭疼的。因此我們需要能從中找出資料的特性。由以下的舞蹈可以看到如何從混亂中衍生出規則,請注意!一開始,舞者的位置是雜亂的,動作有快亦有慢。之後,我們可以看到舞者頋依據他們的速度重新排列位置,跳得慢的站在左邊,快的在右邊,其餘的在中間。他們產生了次數分佈,水平方向呈現的是速度,垂直方向呈現不同速度的個數,這樣的分佈近似常態分佈(normal distribution)或稱高斯分佈(Gaussian distribution)。特別要留意的是,很少的舞者站在特別快或特別慢的位置,大部份的舞者屬於中等速度且站在中間,這樣的資料分佈特徵為鐘形曲線(bell-shaped curve)

 

將資料視覺化可以幫助我們從混亂中看出規則,透過次數分配的呈現,可以看到每個數值出現的頻率,以及看出資料分配的特性。而常態分配只是各種次數分配的一種,且大部份的數值集中在中間,極端值在兩側。
 
以下的影片由英國心理學會(British Psychological Society; BPS) 募集資金製作的,希望透過舞蹈的趣味讓更多心理學系學生對統計觀念有更深刻的印象。

  


estat 發表在 痞客邦 留言(0) 人氣()