神機妙算大數據:企業該如何導入(謝宗震)
2018/11/30
神機妙算大數據企業該如何導入
DSP智庫驅動創辦人暨知識長謝宗震
資料科學家不僅能透過大數據找出現實中未被發現的祕密,更可以預測未來可能發生的事情,防患問題於未然。資料科學是一門入世的學問,真相不在數字裡,而是在人心與世界。 2014年8月1日凌晨,高雄地區傳出氣爆意外,數個小時間高雄多個地區發生連環爆炸,造成32人死亡、 321人受傷,如此突發的重大災難,急促的時間內常出現傷患送醫過程的困難:在不清楚高雄地區各醫院急診資源的狀況下,我們該把傷患送去哪間醫院可以最快得到照顧與治療?如果高雄地區的醫院滿了,我們是否該送病患去台南?
|
在天災之外,我們如何降低後續人禍的延伸效應?
也許我們可以從《穀倉效應》書中的一個例子裡,找到未來的救星:2011年4月25日同樣是凌晨,紐約一處貧民社區的嚴重火警造成多人喪生,一時間大家開始點名罪魁禍首,而紐約市政府當然也在其中。但問題來了,在紐約市,住宅火警稀鬆平常,原因是消防檢查隊與住民不成比例──200人:400萬人,又沒有足夠經費增加消防預算,怎麼辦?
還好,「資料科學家」出現了。這個資料科學團隊整理紐約市的火警資料,但卻發現這些資料無法預測火警,於是乾脆走出辦公室,跟不同警察局、消防局、房屋署、建築部的檢查人員出去,不斷修正假設。終於線索浮現:他們發現當一棟建築物同時具備「房貸欠繳」、「歷史久遠」、「住戶貧窮」這些特徵時,則失火與違建的比率高出很多。
紐約市政府半信半疑的採用了這套資料科學模型作為未來住屋建築的檢查標準,結果相當驚人,原本只有13%被通報的房屋有問題,如今這個數字竄升為70%。結論是,你意想不到的數據,在資料科學家的巧手之下,將成為解決社會問題的最佳救星。
在「八一氣爆」的例子中也不例外,台灣資料科學家、DSP智庫驅動知識長謝宗震就分享,由「Code for Healthcare」機構主辦、以「八一氣爆」為核心問題的工作坊,就集結資料科學團隊,透過每5分鐘更新的急診室資料蒐集與運算,建立起一套即時的數據系統,讓未來重大災難發生的當下,可以透過App即時告訴救護人員:傷患應該優先送到哪間醫院?是否該向台南醫院尋求協助?有些醫院雖然略遠,但是否急診室不用排隊?甚至,在工作坊之後,相關單位也開始思考,是否有可能透過數據去重整醫療資源與人力?半夜3點到底需要幾個輪值的醫護人員?被批「血汗」的醫療工作環境,有沒有還工作者健康生活的一天?
資料科學是一門入世的學問,資料科學家的首要工作就是把一個真實世界的問題轉換成資料科學問題。相信數據最後是要為人所用的,不然它就失去意義。談完資料科學案例,接下來聊聊企業如何導入資料科學吧!
企業導入資料科學的第一步,分析性思維的資料共享平台
在大數據思潮之下,以數據作為論證基礎的意識抬頭,各大企業紛紛尋求資料科學導入方案,急欲將長年累計的數據經驗加以分析,用來改善精進其營運流程,並以此為本規劃未來方針。
然而,資料科學的導入並非一朝一夕,透過幾場教育訓練或是採購一套完整解決方案就真的能解決。筆者從事多年的資料分析與資料科學導入經驗來說,資料科學的第一步是從具備分析性思維的資料共享開始。資料共享的概念不是新玩意,Google drive, Dropbox 就是眾所皆知的解決方案,然而這些產品強調的是檔案或是文件共享,並不真的是資料共享。我們認為好的資料共享平台需要事先完成資料預處理 (data pre-processing),讓資料分析師能夠立即實作,計算結果能在最短時間內產出。另一方面,介接已完成預處理的資料,針對企業營運的重要目標以動態儀表板的方式做呈現,讓量化指標能夠立即反映企業營運的特徵與趨勢。
資料共享平台不只是檔案共享,更要能幫助企業營運。(圖片來源:http://data.dsp.im)
值得一提的是完成預處理的資料必然不是 docx,xlsx,pdf,jpg,png等文件、影像格式,是能夠透過 API(application programming interface) 的介接轉換成 csv, json,xml可直接應用於資料分析的格式。這種分析性思維的資料共享平台有幾個特點:
1. 全體員工的資料素養提升
資料科學的核心是「人」而不是「機器」。企業的營運特徵與趨勢經由資料共享平台以動態儀表板的方式傳遞給企業每一個層級的員工,完成預處理的資料讓大家可以輕易地介接使用有助於提升全員的資料素養。
日前一位遊戲產業的CEO跟我抱怨,要尋得同時具備領域經驗與資料素養的副手有多麼困難。深入瞭解後發現公司日常的營運報表只有少數幾位高層能夠看到,完整的報表彙整自業務、行銷、技術、客服…等不同部門,製作報表的同仁各自行事,雖有各自專業卻往往見樹不見林。
直到導入了這種資料共享方案,不僅同仁們願意以數據做為決策依據,更進一步強化員工跨部合作的意識。除此之外,讓這位CEO從中提拔了優秀人才。
2. 實務上適應性更高
分析性思維的資料共享機制具有高度適應性 (adaptive),而非預期性 (predictive)。資料科學流程可概分為四個主要步驟:定義目標、資料盤點、資料分析、行動決策。所謂的預期性係指整體流程是穩可預期的,需求項目相對固定,可以按部就班交辦完成。
2. 實務上適應性更高
分析性思維的資料共享機制具有高度適應性 (adaptive),而非預期性 (predictive)。資料科學流程可概分為四個主要步驟:定義目標、資料盤點、資料分析、行動決策。所謂的預期性係指整體流程是穩可預期的,需求項目相對固定,可以按部就班交辦完成。
實際進行資料分析專案時,穩定的因素其實很難滿足。傳統上的做法是在一個很長的時間跨度內對各個流程做詳細的規劃,盡可能降低不確定的因素。然而,我們往往需要在有限的時間內下決策,敏捷地在四個步驟間進行往返修正顯得極其重要。
分析性思維係指事先準備好一個資料湖泊 (data lake),這是一個匯聚眾多已完成預處理資料集的湖泊,水源可以是來自各部門的內部資料,可以是公司外部的開放資料,也可以是前一次完成分析報告後的重要指標。使用者可以在裡面對資料集做快篩,找出能解決問題的潛在資料集,快速導入資料分析。這樣的機制不僅能夠適應實務上充滿不確定性的狀況,甚至是歡迎變化,透過多次的迭代循環確立更佳的資料科學解決方案。
3. 進階拓展更容易
對於資料分析目標明確有系統化需求的企業,可以透過 API 向資料湖泊介接資料,從事各種應用服務。其好處在於資料 (核心) 與服務 (外殼) 能夠明確切割,便於資料權限控管以及服務的版本更新。
分析性思維的資料共享平台三個特點:
資料儀表板提升資料素養、資料湖泊提升分析的適應性、API實現進階應用。
(圖片來源:http://eva.dsp.im)
現在就開始
我常將資料比喻成食材,資料科學家比喻成廚師,好的資料科學解決方案是秀色可餐且營養兼具的佳餚。正在尋求資料科學解決方案的企業主們,你們要的只是大數據小數據結構化數據非結構化數據都能儲存的「超級冰櫃」,還是能更進一步在煮飯前就先備好料的「智慧冰箱」呢?
回上頁
沒有資料!