在如今的數(shù)據(jù)智能時(shí)代,幾乎所有人都相信“數(shù)據(jù)的真實(shí)價(jià)值就像漂浮在海洋中的冰山,第一眼你只能看到冰山一角,而絕大部分則隱藏在表面之下。”當(dāng)數(shù)據(jù)的價(jià)值依然在冰山之下隱藏,外面的世界便彌漫著對(duì)數(shù)據(jù)的渴望。
一些新的職業(yè)成為數(shù)據(jù)海洋里的新星,“數(shù)據(jù)科學(xué)家”無(wú)疑是最亮的之一,它被譽(yù)為21世紀(jì)最性感的職業(yè),但是近年來(lái)隨著平民數(shù)據(jù)科學(xué)家的發(fā)展,有人指出數(shù)據(jù)科學(xué)家將要消失,也有國(guó)外相關(guān)人士建議不要去選數(shù)據(jù)科學(xué)家這個(gè)職業(yè),數(shù)據(jù)科學(xué)家還是21世紀(jì)最性感的職業(yè)嗎?
數(shù)據(jù)科學(xué)五十年仍是少年
數(shù)據(jù)科學(xué)家泛指數(shù)據(jù)科學(xué)的從業(yè)者,追溯數(shù)據(jù)科學(xué)家的源頭可以到數(shù)據(jù)科學(xué)誕生的1966年,當(dāng)時(shí)peter naur提出數(shù)據(jù)科學(xué)(“datascience”起初叫datalogy ),用來(lái)代替計(jì)算機(jī)科學(xué)。1996年,international federation of classification societies (ifcs)國(guó)際會(huì)議召開(kāi)。數(shù)據(jù)科學(xué)一詞首次出現(xiàn)在會(huì)議(data science, classification, and related methods)標(biāo)題里。
在2000年代中期數(shù)據(jù)科學(xué)家職位開(kāi)始出現(xiàn),2009年natahn yau指出數(shù)據(jù)科學(xué)家是是采用科學(xué)方法、運(yùn)用數(shù)據(jù)挖掘工具尋找新的數(shù)據(jù)洞察的工程師,數(shù)據(jù)科學(xué)家集技術(shù)專(zhuān)家與數(shù)量分析師的角色于一身。
實(shí)際上大數(shù)據(jù)和數(shù)據(jù)科學(xué)在內(nèi)的整個(gè)數(shù)據(jù)行業(yè)最初都是由google、facebook、twitter等互聯(lián)網(wǎng)巨頭驅(qū)動(dòng),現(xiàn)在仍然如此。總部位于歐洲的jetbrains是國(guó)際知名軟件開(kāi)發(fā)工具提供商,其產(chǎn)品經(jīng)理andrey cheptsov認(rèn)為互聯(lián)網(wǎng)巨頭能夠推動(dòng)數(shù)據(jù)行業(yè)的發(fā)展首先有所需求、并有能力進(jìn)行大規(guī)模有效處理數(shù)據(jù),其主要業(yè)務(wù)模型從核心上取決于自身處理大規(guī)模數(shù)據(jù)的效率。
隨著大數(shù)據(jù)行業(yè)的發(fā)展,數(shù)據(jù)科學(xué)家成為了職場(chǎng)新星,更是被財(cái)富雜志譽(yù)為21世紀(jì)最性感的職業(yè)。但是數(shù)據(jù)科學(xué)家在初期成長(zhǎng)也并非一帆風(fēng)順,根據(jù)商業(yè)智能公司sisense在2012 年左右的一項(xiàng)報(bào)告,在接受調(diào)查的全球400位數(shù)據(jù)科學(xué)家和數(shù)據(jù)分析人士中,59%%u7684數(shù)據(jù)科學(xué)家在從業(yè)六年后都另謀高就。盡管該職業(yè)的報(bào)酬豐厚,其中超過(guò)半數(shù)表示對(duì)職業(yè)安全性的擔(dān)憂。
彼時(shí)麥肯錫等咨詢公司力挺數(shù)據(jù)科學(xué)家,堅(jiān)信數(shù)據(jù)科學(xué)家是當(dāng)今和未來(lái)稀缺的資源。隨著智能手機(jī)的普及移動(dòng)互聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)價(jià)值越發(fā)凸顯,數(shù)據(jù)科學(xué)家水漲船高。linkedin 發(fā)布的《2017 年美國(guó)新興工作崗位報(bào)告》中指出,“自 2012 年以來(lái),數(shù)據(jù)科學(xué)家的職位增長(zhǎng)了 650% %u4ee5上”且“數(shù)百家企業(yè)都在招聘這些職位”。
國(guó)內(nèi)近幾年也有互聯(lián)網(wǎng)公司近幾年開(kāi)始逐步設(shè)立獨(dú)立的數(shù)據(jù)科學(xué)(datascience)團(tuán)隊(duì),推動(dòng)公司向數(shù)據(jù)驅(qū)動(dòng)發(fā)展。進(jìn)入21世紀(jì)20年代,數(shù)據(jù)科學(xué)家成為更稀缺的資源,很多人也依然相信它還是21世紀(jì)最性感的職業(yè)。
不過(guò)榮譽(yù)傍身的新星也有“暗淡”的一面,2017年有研究指出數(shù)據(jù)科學(xué)家成為離職率最高的職位之一,通常他們每周都會(huì)花費(fèi)一定的時(shí)間尋找新工作。日前仍然有數(shù)據(jù)科學(xué)家從業(yè)者勸諫后來(lái)者不要入坑,可謂是冰火兩重天,何以至此?
數(shù)據(jù)科學(xué)五十年依舊是少年模樣,就如同“ai”這個(gè)名詞在1956年出現(xiàn)到如今60多年才有初步落地,數(shù)據(jù)科學(xué)是一個(gè)綜合性的學(xué)科,國(guó)內(nèi)外很多從業(yè)者認(rèn)為數(shù)據(jù)科學(xué)依然是探索性的工作,管理層對(duì) “數(shù)據(jù)科學(xué)” 的含義往往沒(méi)有達(dá)成共識(shí)。
雖然已經(jīng)經(jīng)過(guò)至少10多年的發(fā)展,現(xiàn)在可能受限于業(yè)務(wù),沒(méi)有辦法生搬硬套一個(gè)角色框架給數(shù)據(jù)科學(xué)家,企業(yè)也容易將數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師混淆。jetbrains產(chǎn)品經(jīng)理maria khalusova認(rèn)為“數(shù)據(jù)科學(xué)家”和“數(shù)據(jù)工程師”這兩種職位角色在行業(yè)中還是相當(dāng)新的,也正因此,通常沒(méi)有明確的職責(zé)劃分。“我們看到在某些公司中由數(shù)據(jù)科學(xué)家承擔(dān)的職責(zé),在其他公司中這些職責(zé)卻由數(shù)據(jù)工程師承擔(dān)。另一個(gè)越來(lái)越常見(jiàn)的新角色是機(jī)器學(xué)習(xí)工程師,但也是同樣的情況,他們也經(jīng)常與數(shù)據(jù)工程師發(fā)生重疊。”maria khalusova在接受it168采訪時(shí)指出。
數(shù)據(jù)科學(xué)家vs數(shù)據(jù)工程師
新的技術(shù)融入產(chǎn)業(yè)和社會(huì)必然會(huì)帶來(lái)一場(chǎng)職業(yè)的辭舊迎新,這個(gè)過(guò)程并沒(méi)有那么快速。
“從技術(shù)角度來(lái)看,數(shù)據(jù)科學(xué)在某些情況下的實(shí)踐似乎還不如傳統(tǒng)軟件開(kāi)發(fā)成熟。企業(yè)可能會(huì)面臨以下挑戰(zhàn):建立可重現(xiàn)的機(jī)器學(xué)習(xí)管道,對(duì)數(shù)據(jù)和模型進(jìn)行版本控制以進(jìn)行審核,與快速發(fā)展的技術(shù)保持同步。”maria khalusova指出。
數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師的角色兩者有許多共同的特點(diǎn)和共技能。這些重疊的技能包括處理和操作大數(shù)據(jù)集、應(yīng)用數(shù)據(jù)的編程技能、數(shù)據(jù)分析技能以及對(duì)系統(tǒng)操作的總體熟練程度。不過(guò)兩者還是有很大的不同。在筆者之前翻譯的文章中也強(qiáng)調(diào)了數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師不可能合二為一,為了從數(shù)據(jù)中獲得價(jià)值,大多數(shù)企業(yè)組織都需要數(shù)據(jù)科學(xué)和數(shù)據(jù)工程,由于相關(guān)技能有很大差異,二者合體也不太現(xiàn)實(shí)。企業(yè)組織可能需要多個(gè)數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師,但兩者之間的比例很少是1:1。對(duì)于大多數(shù)企業(yè)組織來(lái)說(shuō),擁有更多的數(shù)據(jù)工程師比數(shù)據(jù)科學(xué)家更有意義。因?yàn)閿?shù)據(jù)科學(xué)家已經(jīng)學(xué)會(huì)處理大量的干凈數(shù)據(jù),但是從許多不同系統(tǒng)獲得大量的干凈數(shù)據(jù)更難也更具挑戰(zhàn)。與抽象數(shù)據(jù)模型和對(duì)數(shù)據(jù)集運(yùn)行分析相比,移動(dòng)和清理數(shù)據(jù)的工作量更大。
從技能需求方面也有很大的差異,maria khalusova認(rèn)為,廣義上來(lái)講,數(shù)據(jù)工程師通常必須熟悉那些為分布式數(shù)據(jù)處理而設(shè)計(jì)的工具,例如apache spark、apache hadoop、apache ignite等。他們要具備數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖方面的經(jīng)驗(yàn),因?yàn)樗麄冃枰軌蚴炀毜厥褂胘ava、scala和kotlin等jvm語(yǔ)言,并且必須能夠創(chuàng)建和維護(hù)大多數(shù)數(shù)據(jù)基礎(chǔ)架構(gòu)。
數(shù)據(jù)科學(xué)家則需要了解python語(yǔ)言、r語(yǔ)言或兩者兼具,并且能夠獲取數(shù)據(jù)(例如使用sql或spark)、整理數(shù)據(jù)、分析數(shù)據(jù)、訓(xùn)練預(yù)測(cè)模型并將數(shù)據(jù)驅(qū)動(dòng)的洞察提供給利益相關(guān)者。他們需要在統(tǒng)計(jì)方法和機(jī)器學(xué)習(xí)方法(包括深度學(xué)習(xí))方面有扎實(shí)的基礎(chǔ)。在某些公司中,數(shù)據(jù)科學(xué)家也會(huì)參與機(jī)器學(xué)習(xí)模型的部署。
盡管現(xiàn)在很多企業(yè)對(duì)于數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師職位的劃分還不是那么明確,但是未來(lái)更加精細(xì)化的分工是大勢(shì)所趨。當(dāng)然這并不會(huì)一蹴而就,新職位不是憑空而來(lái),需要一個(gè)漸進(jìn)的過(guò)程和角色轉(zhuǎn)化,國(guó)內(nèi)某頭部互聯(lián)網(wǎng)公司兩年前正式組建了數(shù)據(jù)科學(xué)團(tuán)隊(duì),而團(tuán)隊(duì)成員以前散落在集團(tuán)各業(yè)務(wù)部門(mén),其中有數(shù)據(jù)分析師也有大數(shù)據(jù)專(zhuān)家,而數(shù)據(jù)科學(xué)團(tuán)隊(duì)成立以來(lái),讓數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)運(yùn)營(yíng),更加高效。
國(guó)內(nèi)另一家頭部直播平臺(tái)正在招聘數(shù)據(jù)科學(xué)家職位,從招聘信息描述來(lái)看,數(shù)據(jù)科學(xué)家屬于其數(shù)據(jù)分析部,其工作職責(zé)包括分析和挖掘海量數(shù)據(jù),發(fā)現(xiàn)用戶行為模式與規(guī)律,優(yōu)化用戶體驗(yàn),提升社區(qū)粘性,通過(guò)數(shù)據(jù)分析和經(jīng)濟(jì)運(yùn)籌模型優(yōu)化,為公司不同的運(yùn)營(yíng)團(tuán)隊(duì)制定目標(biāo)和策略,關(guān)注落地結(jié)果等。而職業(yè)技能要求需要熟練使用sql、python或r語(yǔ)言進(jìn)行數(shù)據(jù)分析、可視化呈現(xiàn),具有統(tǒng)計(jì)學(xué)和概率論基礎(chǔ),擅長(zhǎng)數(shù)據(jù)分析,了解常見(jiàn)規(guī)統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型及使用等,其需求與maria khalusova所說(shuō)基本一致。
有分析稱近來(lái)對(duì)ai、機(jī)器學(xué)習(xí)(ml)、非ml預(yù)測(cè)分析和“大數(shù)據(jù)”的應(yīng)用,使得數(shù)據(jù)科學(xué)家的需求有了顯著的增長(zhǎng)。不過(guò)從這一點(diǎn)來(lái)看數(shù)據(jù)科學(xué)是不是21世紀(jì)最性感的職業(yè)還為時(shí)尚早,公民數(shù)據(jù)科學(xué)家的到來(lái)讓不少人為此打上了大大的問(wèn)號(hào)。
全民數(shù)據(jù)科學(xué)家時(shí)代到來(lái)?
早在2013年就有專(zhuān)家指出對(duì)數(shù)據(jù)科學(xué)家的“炒作”該結(jié)束了,他們認(rèn)為大數(shù)據(jù)走入了一個(gè)新的階段。企業(yè)用戶利用直覺(jué)和互動(dòng)的ui來(lái)從大數(shù)據(jù)中獲取價(jià)值,從而避免依賴于數(shù)據(jù)科學(xué)家,應(yīng)該讓大數(shù)據(jù)變得更加民主。
市場(chǎng)競(jìng)爭(zhēng)加劇,外部環(huán)境和技術(shù)飛速變化,需要業(yè)務(wù)和技術(shù)更高效聯(lián)動(dòng)更及時(shí)有效了解用戶需求,明確企業(yè)自身現(xiàn)狀,為企業(yè)決策提供幫助。隨著大數(shù)據(jù)技術(shù)不斷走向成熟,技術(shù)應(yīng)用的門(mén)檻也不斷降低,復(fù)雜的數(shù)據(jù)統(tǒng)計(jì)可能仍限于數(shù)據(jù)科學(xué)家,一些可視化分析工具和敏捷的大數(shù)據(jù)工具可以讓業(yè)務(wù)人員能夠輕松上手,大數(shù)據(jù)民主化也催生出了公民數(shù)據(jù)科學(xué)家這個(gè)概念。
根據(jù)gartner 的定義,公民數(shù)據(jù)科學(xué)家(citizen data scientist )“能夠創(chuàng)建或生成采用高級(jí)診斷分析或預(yù)測(cè)和規(guī)范功能的模型,但本職工作并不屬于統(tǒng)計(jì)和分析領(lǐng)域”,近兩年關(guān)于公民數(shù)據(jù)科學(xué)家概念也異常火爆。
有人指出公民數(shù)據(jù)科學(xué)家發(fā)展預(yù)示著全民數(shù)據(jù)科學(xué)家時(shí)代的到來(lái),數(shù)據(jù)科學(xué)家可能會(huì)退出舞臺(tái),也有人認(rèn)為數(shù)字化智能時(shí)代,數(shù)據(jù)的增長(zhǎng)和數(shù)據(jù)價(jià)值的重要性日益凸顯,企業(yè)對(duì)數(shù)據(jù)科學(xué)家和數(shù)據(jù)分析人員需求不斷擴(kuò)大,而人才缺口較大,公民數(shù)據(jù)科學(xué)家是暫時(shí)填補(bǔ)供需之間不平衡的一個(gè)方案,數(shù)據(jù)科學(xué)家仍然是最亮的星。
可以看到近兩年技術(shù)民主化成了熱點(diǎn),不只是公民數(shù)據(jù)科學(xué)家,還有公民開(kāi)發(fā)者,在gartner的定義中公民開(kāi)發(fā)者是指在傳統(tǒng)it渠道之外的創(chuàng)建應(yīng)用程序的業(yè)務(wù)用戶,低代碼/零代碼的發(fā)展促使了全民開(kāi)發(fā)者時(shí)代的到來(lái)。公民開(kāi)發(fā)者無(wú)法替代開(kāi)發(fā)者,同樣的公民數(shù)據(jù)科學(xué)家也無(wú)法替代數(shù)據(jù)科學(xué)家。術(shù)業(yè)有專(zhuān)攻,數(shù)據(jù)科學(xué)家會(huì)向著更高階和更專(zhuān)業(yè)的數(shù)據(jù)分析方向發(fā)展,正如gartner所說(shuō),