資料科學家(data scientist)是一個近幾年被廣泛談論的職業,2012年美國哈佛商學院的指標性刊物哈佛商業評論 (Harvard Business Review)以『21世紀最性感的職業』介紹『資料科學家』(data scientist)在巨量資料(Big data)分析上的價值與定位,而您聽過或是知道何為『資料科學家』?

 

在一份科技報(Tech orange)對中研院資訊科學研究所的副研究員陳昇瑋的專訪中提到:「資料分析的歷史不是現在才開始,資料科學家其實早就存在,差別只在是否能夠以創新的作法,利用資料、分析資料而已。」

 

一般人想到資料科學家,便會與巨量資料(Big data)聯想在一起,GoogleFacebook、全球最大的職業社交網站LinkedIn等網路公司,擁有全球最大的Big data,為決定網站功能,他們導入資料分析的技術,以採掘出有創意且有價值的資訊,資料科學家在這環節即扮演了重要的角色。陳昇瑋說:「Big Data 指的是所涉及的資料具有Volume(量大)、Velocity(進入和處理速度快)、Variety(變化大)這三個特性。若要以量來定義,有一說法是,Big Data 至少要在數十 TBTerabyte)到數 PB Petabyte)之間。」【註:1PB=1000TB】,但事實上要符合Big級資料量的案例並不多,在台灣更少。

 

因此,資料科學家分析的範疇並不侷限於Big data,乃是透過運用資料分析的技術,創造更高的商業附加價值。網路資訊雜誌轉載一篇關於LinkedIn如何利用資料分析技術決定網戰功能的文章,文中提到:「LinkedIn的收入主要由人力解決方案(即招聘)、市場解決方案(精準廣告)、訂閱產品(針對個人的付費加值服務)構成…實際上,LinkedIn的這一整套業務,尤其是商業模式,是由資料分析和處理能力驅動的。」而陳昇瑋與Gogolook團隊分析 Call Pattern,研究詐騙電話的行為模式,也為10人團隊創造5.3億的價值,目前已賣給韓國最大的網路服務公司 NAVER

 

究竟什麼人可以成為資料科學家?資策會的課程招生文案中,出現引人注目的文字:「成為擁有百萬年薪的資料科學家,從這裡開始當上資料科學家,等於擁有一張年薪百萬元的入場券。」玉山銀行人資長王志成表示,資料科學家是銀行業競爭的秘密武器,因此升遷的機會也比其他職位多得多,而且預計工作三年左右,年薪至少超過百萬,是目前正夯的職業(SAS, 2012)當巨量資料在全球方興未艾之際,根據SAS(賽仕)公司的統計,總計全球企業約需170萬名資料科學家。在台灣,Big Data的應用雖然才剛剛萌芽,但是要面臨的幾項重大挑戰,除了資料分析人才不足之外,其他還有在地顧問服務不足以及對資料價值的敏感度不足的問題,而這些因素都將影響巨量資料在台灣市場的發展(SAS, 2013)。資料科學家的工作職缺,從2011年開始急速攀升,成為前10大熱門職缺。中華資料採礦協會榮譽理事長謝邦昌認為:「許多人以為只有大型企業才需要資料分析演算,但事實不然,即使是中小企業,同樣存在解析Data的需求。預估台灣需求的人力,大約會是在1萬名以上。」(余采霏, 2014)

 

資料科學家不是你想像中的「書呆子」(The Modern Data Nerd Isn’t as Nerdy as You Think)!他們是懂數據、有創意的「跨界人才」!(Klint 2013) 隨著資料科學領域的不斷成長,許多企業迫切希望延攬自己的資料科學家。但資料科學家需要具備什麼樣的學科背景與訓練?中研院陳昇瑋接受專訪時提到:這個職缺的職能範疇:最重要的是統計學的深厚素養,以及對所要分析目標範疇的理解。」資料科學家John Candido說:「數學知識很重要,但同等重要的是要了解研究方法。」他也強調統計的基礎固然重要,資料科學領域的實作經驗更重要,資料科學家不僅要消化數字,瞭解資料組合,不斷掌握企業領域最新的知識,才不致遭到淘汰。【註: John CandidoESPN專欄作家,ZestFinance公司(Google資訊長Douglas Merrill創辦)之資料科學家】因此,資料科學家必須同時具備3種條件,包括深入了解企業內的業務與組織、具備資料探勘等統計應用知識、熟悉資料分析工具操作(楊惠芬, 2012)分析的工具,除了商用的資料採礦軟體或統計軟體(SAS, S-PLUS),自由軟體程式語言 R 語言也是經常被採用的軟體。

 

台灣的第一個「資料科學計畫」(Data Science Program,DSP)是由精誠資訊公司(SYSTEX)旗下的Etu團隊以及 Code for Tomorrow基金會籌備處共同發起精誠公司目前表示已培養出32位資料科學的人才。培養的過程係依照每個人的專長予以分組,每一組都有程式設計、資料分析、產品企劃、視覺設計等來自不同領域、不同產業的專才,這些人才將為企業及國家巨量資料發展貢獻所學。訓練的過程係由講師引導團員整理原始資料,利用統計或資料探勘的分析技巧,探索各種可能的應用,例如「火鍋店的選址」、「房市資料的應用」等。最終希望幫助學員擁有真正能解決社會問題及滿足商業議題所需具備的資料科學能力(MoneyDJ, 2014)

 

玉山銀行長期深耕於資料探勘工具,近2年與SAS公司合辦校園資料採礦競賽該銀行認為:「資料科學家並非只是每日專研資料、研究數學模型,而是必須處在業務端與資料端,具有整合雙重能力的人。因為資料科學家所設計的模組,必須可以被業務端所運用,也就是了解客戶的需求與型態。」玉山銀行透過捕捉個體消費者的生活風格和行為模式,最後再提出客戶真正需要的金融服務,而早同業先一步提供預先「客製化」的服務,善用資料探勘工具使玉山銀行2013年的稅後盈餘,比前一年大幅躍升一倍(廖君雅, 2013)SAS公司台灣區總經理陳愷新指出,面對巨量資料的時代,資料科學家已取代過去最夯的電子工程師,而資料科學家,就是懂得從巨量資訊中,抽絲剝繭,找到開啟產業界商機的金鑰匙,具備為企業開採金礦的高手(SAS,2012)。不過這個領域在台灣剛剛萌芽,尚未成氣候,和全球一樣,同樣面臨人才嚴重欠缺的問題。

 

資料科學家的工作不僅是從資料採礦中提出解決問題的方法,還要具備預測未知問題的能力,資料科學的關鍵字是科學。因此團隊合作是很重要的,資料科學家的工作通常架構在一個跨領域的合作團隊下,Calvin Andrus將資料科學所涵蓋的領域以下方的圖表示,包括信號處理( signal processing)、數學(math)、機率模型技術和理論(probability models,)、機器學習(machine learning)、計算機編程(computer programming)、統計(statistics)、數據工程(data engineering)、模式識別和學習( pattern recognition and learning)、可視化(visualization)、不確定性建模(uncertainty modeling)、數據倉庫(data warehousing)、並與從數據中提取有意義和有創建的數據產品(Andrus, 2012)東吳大學「海量資料分析研究中心」的成員則橫跨人文社會、外語、理、法商等,專業領域涵蓋數學、統計分析、最佳化理論、資訊管理、資料探勘、雲端計算、商業智慧、資料倉儲以及各個不同應用領域的專業知識,該中心未來要探討的主題包括:財經商情、企業營運、社會政策、區域問題、全球變遷、網際網路行銷、智慧城市、智慧交通、智慧建築、疾病傳播(東吳大學)。由此可知,資料科學的工作已橫跨財經、企管、社會政策、交通運輸、民生問題、甚至醫療資訊與疾病防治

 

Data science  

 

Calvin Andrus , Depicts a mash-up of disciplines from which Data Science is derived, wiki, 2012-07-13

 

統計無處不在,如前所述,資料科學家所要解決的問題,並不侷限於大企業日益龐大的資料量,中小企業同樣需要資料科學家從資料中抽絲剝繭,再化為可提升營運效率的決策。資料科學家透過數據的分析,除了能為企業獻策,資料科學的應用層面日益廣泛,其實早已存在於各個領域中。資料科學(data science)已是一個時髦名詞,而且大量使用在巨量資料(Big data)的分析,因此經常被作為企業營銷時的參考依據,特別是為了重新给企業品牌定位(Re-brand)而提供的競爭情報和商業分析結果。事實上,資料科學也不必總是為大數據,但當數據不斷被擴大,巨量資料分析在資料科學上仍是一個重要領域(Wikipedia)

 

參考資料

    1. 1. Thomas H. Davenport and D.J. Patil, Data Scientist: The Sexiest Job of the 21st Century Harvard Business Review(哈佛商業評論) Spotlight , pp70-76, October 2012.
    2. 2. Gogolook 怎麼快速累積新台幣 5.29 億的價值?專訪中研院陳昇瑋談「如何培養資料科學家」Tech orange (科技報橘) 2013-12-30 .
    3. 3.PINGWEST, LinkedIn如何利用資料分析技術決定網站功能?網路資訊雜誌 2014-03-10轉載。
    4. 4.資策會,資料科學家資料主題館,http://www.iiiedu.org.tw/ites/portal/DS.htm
    5. 5. SAS, 找無頭路? 百萬年薪卻等無人!自由時報 2012-10-26
    6. 6. 余采霏, IT人轉換思維強化資料技術與Domain Knowledge挖掘無限巨量商機資料科學家人才需求孔急, 網管人, 2014-01-06
    7. 7. Klint Finley, The Modern Data Nerd Isn’t as Nerdy as You Think, WIRED 2013-04-11.
    8. 8. 東吳大學成立「海量資料分析研究中心」攜手SAS無縫接軌企業需求與人才培訓 SAS知識+ , http://www.sasresource.com/artical139.html
    9. 9. 東吳大學「海量資料分析研究中心」https://sites.google.com/site/bigdata102/zhong-yao-yi-ti-hui-zheng
    10. 10. 精誠贊助資料科學人才培養計畫,首梯團訓班結業MoneyDJ理財網,2014-01-22
    11. 11. 楊惠芬資料科學家是點燃資料價值的關鍵 iTHOME 2012-10-01
    12. 12. 廖君雅玉山靠海量資料採礦挖出大金礦財訊NO. 424 2013-05-15
    13. 13. Calvin Andrus , Depicts a mash-up of disciplines from which Data Science is derived, wiki, 2012-07-13. http://en.wikipedia.org/wiki/Data_science.
    14. 14. Data science, Wikipedia, http://en.wikipedia.org/wiki/Data_science.
arrow
arrow
    文章標籤
    資料科學家 data science
    全站熱搜

    estat 發表在 痞客邦 留言(2) 人氣()