目前日期文章:201404 (10)

瀏覽方式: 標題列表 簡短摘要

 

今日要介紹的分析方法為中介回歸(mediated regression),透過這個方法,可以瞭解哪些變數是中介變數(mediator)

在回歸分析中,當研究者以一自變數(Independent Variable ,IV)去預測依變數(Dependent Variable, DV),且其預測能力有統計上的顯著意義,其影響可能純粹來自自變數(IV),亦可能透過中介變數(Mediator, M)影響依變數(DV)。若將中介變數放入模式中,自變數(IV)的係數變小,但對依變數(DV)的影響仍然顯著,此中介變項對模式的影響為Partial mediation,即自變數(IV)對依變數(DV)的雖有影響,但有一部份是透過中介變項影響依變數(DV)。若將中介變數放入模式中,自變數(IV)的係數變小,但對依變數(DV)的影響已不顯著,此中介變項對模式的影響為Full mediation,即自變數(IV)對依變數(DV)的影響不顯著,而是完全透過中介變項影響依變數(DV)

mediated regression 1

 

根據上圖可以放入3個回歸模式檢驗自變數(IV)、依變數(DV)中介變項(Mediator)3者的關係。

  

思考題?

當研究者觀察到認知態度對空腹血糖值有影響時,真的是認知態度影響了空腹血糖嗎?還是透過其他未知的變數直接或間接影響空腹血糖值?

 

文章標籤

estat 發表在 痞客邦 留言(5) 人氣()

 

之前在以斯帖的部落格發表了「21世紀最夯的職業資料科學家」一文,文中不難看出統計學與產業營銷策略的息息相關,而統計學在生活各個領域的應用更是隨處可見,統計學的應用與發展勢必是未來重要的趨勢。然而很多的時候,統計學仍是鎖在象牙塔內的高深知識,艱澀難懂的語言與數學公式,讓人望而卻步,遑論如何與生活連結,甚至讓普羅大眾善用簡易的統計方法,使生活中摭拾可得的數據成為點子與創意的來源。

  

今天要介紹台灣大學的通識教育課程─『統計與生活』,該課程係提供給文學院與法律學院學生選修的課,顧名思義,課程會不斷環繞在日常生活的相關議題,藉由讓學生瞭解量化推理與數學的思考方法,以及瞭解生活上常用的統計分析工具的理論基礎,進而培養學生欣賞統計學「以簡馭繁的精神和結構完美的特質」。

 

以下是台大開放式課程的相關網址,提供了這門課完整的上課影音與講義,且可自行下載,對國人的統計教育無疑是開啟了更便捷的學習管道。該課程的上課內容已集結成書,書名即為「統計與生活」,在國內各大網路書店都可購買,教師群以台大的統計學教授掛帥。

 

http://ocw.aca.ntu.edu.tw/ntu-ocw/index.php/ocw/cou/100S216

 

筆者在台大的批批踢看到上課學生的留言,不禁莞爾,有學生說道:「想混學分? 選統計與生活就對了!... 想要被當掉比拿grade A還要困難。」、「想學到東西? 選統計與生活就對了!...另外試想和心儀的女同學/男同學,一起觀賞日劇時,能解說偏差值所代表的意義;一起收看新聞時,能講解民意數字的背後意涵。必定增進生活情趣,兩人感情加溫。」,還以統計與生活是好(甜)的課。」作總結,看來統計老師們的用心,學生都感受到了。由於課程偏重在課後的分組討論,學生們利用統計學所發揮的創意就更無邊無際,如此一來,統計不就脫下了艱澀的外袍,以親切之姿走進了學生的生活之中,這應該才是教授統計學最重要的目的吧!

文章標籤

estat 發表在 痞客邦 留言(0) 人氣()

 

獨立樣本t檢定(independent t test)

研究者欲比較兩組資料的平均值是否有統計上的顯著差異,且兩組資料間必須是獨立樣本。例如:比較實驗組與對照組的身高是否相同。

此範例為比較男生與女生的BMI值是否相同,由於男生與女生是獨立的樣本,故將使用獨立樣本t檢定來分析。


[程式]

>sexbmi=split(bmi,sex) #.將資料分割不同性別BMI分佈情形,並加以命名

>var.test(sexbmi$"1",sexbmi$"2") #.檢定兩組變異數是否相同?

>t.test(sexbmi$"1",sexbmi$"2",var.equal=T) #.檢定兩組樣本平均數是否相同(變異數相等)

>t.test(sexbmi$"1",sexbmi$"2",var.equal=F) #.檢定兩組樣本平均數是否相同(變異數不相等)

文章標籤

estat 發表在 痞客邦 留言(0) 人氣()

 

以下將介紹以Transpose將資料橫轉直的簡單語法。

[程式一] 建立資料檔AA中,為同一個人在不同時間的分數, 包含ID(身份證號), SEX, score(分數), 等欄位。

[
程式一]
data aa;
input id $ sex $ score1-score6;
cards;
A01 F 63 75 68 86 77 91

文章標籤

estat 發表在 痞客邦 留言(0) 人氣()

 

時間的運算是許多研究中會遭遇到的問題,特別是探討值大夜班,或工作至翌日凌晨的職業醫學之相關研究。今日將介紹時間的資料格式與相關的函數,且依2種情形進行時間計算:

1. 計算24小時內的時間差

2. 跨夜的時間差

 

再依時間是否與日期結合,分為3種狀況:

1. 若時間與日期為不同變項

2. 若時間與日期已結合為同一個變項

3. 僅有時間資料(只能計算24小時的時間差,無法計算跨夜的時間差)

 

文章標籤

estat 發表在 痞客邦 留言(0) 人氣()


今天來看看用 EXCEL做簡單的次數分配描述性分析該如何操作:

假設資料型態是類別型資料,欄A[物品種類原始資料],以1,2,3等數字代表物品的第一類、第二類、第三類,我們想在欄位D呈現個數,並在欄位E呈現百分比,則我們可在儲存格B2B3B4的位置打上[物品種類代碼]123,並在儲存格C2C3C4的位置打上[物品種類中文名稱]第一類、第二類、第三類,則在D2的位置我們就可打上公式: 

=COUNTIF(A$2:A$8,B2),依序複製公式至D3D4,在D5處加總。則E2可打上公式:=D2/D$5,依序複製公式至E3E4E5。如此一來,要貼至WORD的表格也接近完成了。以上是資料呈現的樣子:


提醒:公式中的 $ 代表中文的固定,亦即不要數字有所變動。

 

文章標籤

estat 發表在 痞客邦 留言(0) 人氣()

 

相關係數

 

研究目的探討HD病患的年齡與血肌酐酸(Cr)、膽固醇(Cholesterol)間之相關係數?

 

操作步驟: [資料]-[資料分析]-[相關係數]-[輸入欲檢定變項之範圍]

文章標籤

estat 發表在 痞客邦 留言(0) 人氣()

 
費雪精確檢定(Fisher’s exact test)
 
2x2列聯表(自由度為1)分析計算卡方值時,若細格內的理論期望次數小於5,且樣本數小於20,雖用葉式校正檢定(Yate’s correction)可校正,但校正結果較為保守,也不一定精確,且其只限於2x2列聯表,若遇到r x c列聯表(例如:2x3, 3x5)時,該如何校正較爲恰當?此時,使用Fisher’s exact test來分析是一個較合適的方法。但分析時該特別注意的是,因爲Fisher’s exact test是以計算機率值來檢定是否顯著,所以當有些格子內數字偏大時,會花費較多的計算時間。此外,費雪精確檢定其檢定的虚無假設爲OR=1(Odds Ratio, 勝算比),換句話說,當p< 0.05時所代表的意義爲兩變項之間,存在有相關性。
 

以下的例子來說明如何以R來執行Fisher’s exact test並列出(Odds Ratio, 勝算比)
 
---研究目的:壓力與飲酒是否相關?
文章標籤

estat 發表在 痞客邦 留言(0) 人氣()

 

資料科學家(data scientist)是一個近幾年被廣泛談論的職業,2012年美國哈佛商學院的指標性刊物哈佛商業評論 (Harvard Business Review)以『21世紀最性感的職業』介紹『資料科學家』(data scientist)在巨量資料(Big data)分析上的價值與定位,而您聽過或是知道何為『資料科學家』?

 

在一份科技報(Tech orange)對中研院資訊科學研究所的副研究員陳昇瑋的專訪中提到:「資料分析的歷史不是現在才開始,資料科學家其實早就存在,差別只在是否能夠以創新的作法,利用資料、分析資料而已。」

 

一般人想到資料科學家,便會與巨量資料(Big data)聯想在一起,GoogleFacebook、全球最大的職業社交網站LinkedIn等網路公司,擁有全球最大的Big data,為決定網站功能,他們導入資料分析的技術,以採掘出有創意且有價值的資訊,資料科學家在這環節即扮演了重要的角色。陳昇瑋說:「Big Data 指的是所涉及的資料具有Volume(量大)、Velocity(進入和處理速度快)、Variety(變化大)這三個特性。若要以量來定義,有一說法是,Big Data 至少要在數十 TBTerabyte)到數 PB Petabyte)之間。」【註:1PB=1000TB】,但事實上要符合Big級資料量的案例並不多,在台灣更少。

 

因此,資料科學家分析的範疇並不侷限於Big data,乃是透過運用資料分析的技術,創造更高的商業附加價值。網路資訊雜誌轉載一篇關於LinkedIn如何利用資料分析技術決定網戰功能的文章,文中提到:「LinkedIn的收入主要由人力解決方案(即招聘)、市場解決方案(精準廣告)、訂閱產品(針對個人的付費加值服務)構成…實際上,LinkedIn的這一整套業務,尤其是商業模式,是由資料分析和處理能力驅動的。」而陳昇瑋與Gogolook團隊分析 Call Pattern,研究詐騙電話的行為模式,也為10人團隊創造5.3億的價值,目前已賣給韓國最大的網路服務公司 NAVER

 

究竟什麼人可以成為資料科學家?資策會的課程招生文案中,出現引人注目的文字:「成為擁有百萬年薪的資料科學家,從這裡開始當上資料科學家,等於擁有一張年薪百萬元的入場券。」玉山銀行人資長王志成表示,資料科學家是銀行業競爭的秘密武器,因此升遷的機會也比其他職位多得多,而且預計工作三年左右,年薪至少超過百萬,是目前正夯的職業(SAS, 2012)當巨量資料在全球方興未艾之際,根據SAS(賽仕)公司的統計,總計全球企業約需170萬名資料科學家。在台灣,Big Data的應用雖然才剛剛萌芽,但是要面臨的幾項重大挑戰,除了資料分析人才不足之外,其他還有在地顧問服務不足以及對資料價值的敏感度不足的問題,而這些因素都將影響巨量資料在台灣市場的發展(SAS, 2013)。資料科學家的工作職缺,從2011年開始急速攀升,成為前10大熱門職缺。中華資料採礦協會榮譽理事長謝邦昌認為:「許多人以為只有大型企業才需要資料分析演算,但事實不然,即使是中小企業,同樣存在解析Data的需求。預估台灣需求的人力,大約會是在1萬名以上。」(余采霏, 2014)

文章標籤

estat 發表在 痞客邦 留言(2) 人氣()

 

在醫學研究中,主要的目的,通常在於驗證某種介入措施或治療方法是否有臨床上真正的效果。所以,最常見的實驗設計方式爲一組實驗組以及一組未受實驗效果影響的對照組;再針對兩組分別在兩個時間點,測量出前測值和後測值。在傳統的分析方法上,如果僅使用兩組的後測值來比較,很明顯地,完全忽略了前測可能造成的影響,而導致結論錯誤;另外,如果只單以兩組個別的前後測值來比較,並無法證明有介入措施的實驗組是否效果會優於無介入的對照組。

 

所以較爲適當的分析方式爲算出實驗組的後測效果去前測效果(T),以及對照組的後測效果減去前測效果(C),再將這兩個值相減(T-C),來比較介入措施隨時間改變後是否真具有臨床上的效果。這種分析的方式,在計量經濟學上稱之爲差異中差異方法(Difference-in-Difference method, DID)。以一般醫學或流病研究上會用到的長期追蹤資料分析模型爲例:假設Y爲測量值(前測值,後測值)group代表不同組別(實驗組,對照組)visit代表前後測不同的時間點(前測時間點,後測時間點),則模式可以寫成

 

 

文章標籤

estat 發表在 痞客邦 留言(0) 人氣()