從最早公元前2000年文字誕生(shēng)起人(rén)類就(jiù)開始采集數據,到1998年正式提出大數據這(zhè)一(yī)概念,實際上(shàng)數據的發展已經橫跨了(le)上(shàng)下(xià)4000多年的時(shí)間(jiān)。在這(zhè)一(yī)漫長的曆史演變中,人(rén)類共經曆了(le)四次工業革命,從最早以蒸汽技術為(wèi)代表的工業1.0,到如(rú)今以智能(néng)和互聯網為(wèi)代表的工業4.0,制造業也(yě)迎來(lái)了(le)其全面蛻變的時(shí)刻——智能(néng)工廠時(shí)代的強勢來(lái)襲。
畢業于美國卡内基梅隆大學、專注于制造業大數據研究的昆山杜克大學教授李昕認為(wèi),在人(rén)工智能(néng)和大數據愈發滲透的今天,如(rú)何更好(hǎo)(hǎo)地收集數據、分(fēn)析數據、利用數據才是企業根本。尤其是制造業,作(zuò)為(wèi)立國之本,量級更是驚人(rén),如(rú)何用數據助力智能(néng)制造,點“數”成金(jīn)?
在李昕看來(lái),數據分(fēn)析在制造業應用有兩大技術難點:第一(yī)個(gè)是數據變異性,第二個(gè)是工藝的變化(huà)。對于未來(lái)大數據的發展,李昕也(yě)表示,最大痛點在于“懂數據又懂行業”的雙料人(rén)才的匮乏。在這(zhè)點上(shàng),不管是學校(xiào),還是企業,都任重道遠(yuǎn)。
以下(xià)是李昕教授在2017IT 價值峰會暨中國企業級技術峰會上(shàng)的演講,經ITValue編輯整理(lǐ):
我本人(rén)主要從事(shì)制造業大數據的研究,是台灣富士康集團總裁郭台銘先生(shēng)的大數據顧問,同時(shí)也(yě)是香港兩家公司的董事(shì)。
互聯網時(shí)代,數據暴增。目前每兩天創造的信息幾乎相當于人(rén)類有史以來(lái)到2003年所創造的信息總和。這(zhè)是什(shén)麽概念?在美國,每分(fēn)鍾就(jiù)會産生(shēng)2.04億封郵件,Facebook上(shàng)會有180萬次的點贊、20萬張照片的上(shàng)傳。而且這(zhè)個(gè)量級還會随着時(shí)間(jiān)不斷上(shàng)升,大概每1.2年就(jiù)會翻一(yī)番。
如(rú)此龐大的數據量怎麽才能(néng)很好(hǎo)(hǎo)利用?我們先來(lái)看一(yī)下(xià)大數據應用的現(xiàn)狀。過去5-10年,大數據的發展主要集中在三個(gè)方向:圖像、視(shì)頻、語音(yīn)。國内外很多IT公司在這(zhè)三個(gè)方向上(shàng)都取得了(le)非常成功的發展。今年3月(yuè)(yuè),李克強總理(lǐ)在政府工作(zuò)報(bào)告上(shàng)強調,要把人(rén)工智能(néng)、大數據推廣到各行各業中,包括商(shāng)業、醫(yī)療、制造、教育、城市(shì)等。這(zhè)意味着,未來(lái)大數據将會滲透到我們生(shēng)活的每個(gè)環節中,發揮越來(lái)越重要的作(zuò)用。
要利用數據就(jiù)要先分(fēn)析數據。大數據分(fēn)析需要兩類人(rén):數據分(fēn)析專家和行業專家,二者缺一(yī)不可。谷歌(gē)過去十年一(yī)直在推自動駕駛技術,但(dàn)是兩年前意識到,自動駕駛并不是一(yī)個(gè)IT公司的數據專家就(jiù)能(néng)單獨完成的事(shì),還必須和各個(gè)整車廠包括本田、福特等的行業專家合作(zuò),共同研發産品。
智能(néng)工廠時(shí)代全面來(lái)臨
就(jiù)制造業來(lái)說(shuō),數據量的龐大難以想象。中國具有強盛的制造業,如(rú)果利用大數據把制造業的效率提高10%,那麽創造的利潤非同小可。在美國,奧巴馬時(shí)期就(jiù)提出了(le)智能(néng)制造的戰略,歐洲老牌制造強國德國一(yī)直在提倡工業4.0,新(xīn)加坡也(yě)有明确的規定國家GDP必須有15%-20%的貢獻是來(lái)自于制造業。
沒有制造業,一(yī)個(gè)國家就(jiù)喪失了(le)生(shēng)存之本。
回顧起來(lái),制造業的發展大概經曆了(le)四次工業革命。第一(yī)次工業革命發生(shēng)于18世紀60年代,主要以蒸汽技術為(wèi)代表的工業1.0時(shí)代;第二次工業革命是在19世紀50年代,以電力為(wèi)主要能(néng)源的工業2.0時(shí)代;第三次是20世紀50年代,以計算(suàn)機技術為(wèi)代表,把計算(suàn)機技術應用到工業控制中的工業3.0時(shí)代;最後一(yī)次就(jiù)是當今以智能(néng)和互聯網為(wèi)代表的第四次工業革命即工業4.0時(shí)代。
這(zhè)次工業革命對制造業來(lái)說(shuō)非比尋常,它意味着智能(néng)工廠時(shí)代的全面來(lái)臨。什(shén)麽是智能(néng)工廠?在每個(gè)工廠的每個(gè)車間(jiān)的每個(gè)機台上(shàng)都安裝有很多傳感器(qì),不斷地采集數據,并對數據進行分(fēn)析,從而優化(huà)生(shēng)産線,降低(dī)成本。這(zhè)個(gè)數據量有多大?制造業有一(yī)項技術叫自動光學檢測(AOI),每個(gè)零部件生(shēng)産出來(lái)後都會被拍照檢驗質量的好(hǎo)(hǎo)壞。倘若按每分(fēn)鍾收集一(yī)張1M像素的圖片來(lái)估算(suàn),一(yī)台機器(qì)一(yī)天産生(shēng)的數據就(jiù)是1.5G。每個(gè)工廠有N多個(gè)機台,N多個(gè)傳感器(qì),總的數據量可想而知。
大數據提升制造流程的4大應用
這(zhè)麽多數據能(néng)拿來(lái)做什(shén)麽?第一(yī)個(gè)應用就(jiù)是調度優化(huà)。
在智能(néng)車間(jiān)裏,機台與機台之間(jiān)的産品傳遞主要靠機械手臂來(lái)完成,而車間(jiān)與車間(jiān)之間(jiān)的産品傳遞則是通過傳動帶來(lái)完成。所謂調度優化(huà)就(jiù)是通過數據分(fēn)析,了(le)解每個(gè)産品在每個(gè)機台上(shàng)需要處理(lǐ)的時(shí)間(jiān),然後決定出把某個(gè)産品送到哪個(gè)機台去處理(lǐ)的最優解決方案。這(zhè)個(gè)事(shì)情看起來(lái)容易,操作(zuò)起來(lái)卻很難,正如(rú)車輛在路(lù)上(shàng)突然抛錨造成交通擁堵一(yī)樣,如(rú)果一(yī)個(gè)機台出了(le)問題,就(jiù)會擾亂整個(gè)調度的優化(huà)方案,更糟的是如(rú)果發現(xiàn)某個(gè)産品不合格,就(jiù)需要被重新(xīn)發配到某個(gè)機台重新(xīn)處理(lǐ),那麽就(jiù)會導緻整個(gè)調度非常複雜,處理(lǐ)不好(hǎo)(hǎo)就(jiù)會造成“擁堵”,甚至停工。
大數據的另外一(yī)個(gè)重要應用就(jiù)是設備監控。産品制造分(fēn)許多步驟,如(rú)果第一(yī)道工序出了(le)故障沒有立刻發現(xiàn),等生(shēng)産出來(lái)之後經檢測時(shí)才發現(xiàn),那就(jiù)意味着這(zhè)段時(shí)間(jiān)裏生(shēng)産的全部産品都要報(bào)廢。這(zhè)是個(gè)很嚴重的問題。設備監控就(jiù)是在每個(gè)機台上(shàng)都安置多個(gè)傳感器(qì)來(lái)監測設備是否有故障。美國有個(gè)大型制造企業,曾經成品率總是提不上(shàng)去,經多方查找後才發現(xiàn),原來(lái)是一(yī)個(gè)機台在清理(lǐ)時(shí)出了(le)問題,早班清潔工是從上(shàng)往下(xià)清理(lǐ),晚班清潔工是從下(xià)往上(shàng)清理(lǐ),就(jiù)是這(zhè)樣一(yī)個(gè)個(gè)小小的瑕疵就(jiù)會對整個(gè)生(shēng)産線造成幾百萬甚至幾千萬美金(jīn)的損失。
第三個(gè)應用就(jiù)是虛拟測試。在制造業中,測試占整個(gè)制造成本的25%-50%,怎麽用大數據降低(dī)測試成本?最根本的一(yī)點就(jiù)是利用數據的相關(guān)性,也(yě)就(jiù)是用數據去分(fēn)析不同的數據量之間(jiān)是否相關(guān),如(rú)果存在相關(guān)就(jiù)可以用一(yī)個(gè)數據量去估計另一(yī)個(gè)數據量。
這(zhè)裏有兩個(gè)例子(zǐ),一(yī)個(gè)是空間(jiān)的相關(guān)性。在集成電路(lù)制造中,一(yī)塊矽片包含很多芯片,傳統的方法是每個(gè)芯片都要去測試,如(rú)果我們把整塊矽片看作(zuò)是一(yī)幅圖像,那麽不同的像素對應不同的芯片,像素點之間(jiān)是有相關(guān)性的,我們可以通過測試少數幾個(gè)像素點的值,利用統計方法來(lái)估值另外的像素點,從而大大減少測試量。
另一(yī)個(gè)例子(zǐ)是給金(jīn)屬塊鑽孔。鑽孔是否平整?是不是圓形?在制造業上(shàng)是一(yī)個(gè)非常昂貴的測試過程。我們通過在鑽孔機上(shàng)安裝各種非常廉價的傳感器(qì),包括震動傳感器(qì)、聲音(yīn)傳感器(qì)、壓力傳感器(qì)等,用這(zhè)些(xiē)傳感器(qì)的測試值去創建一(yī)個(gè)模型,然後預估鑽孔的平整度和質量狀況,從而節省很大一(yī)筆成本。
第四個(gè)應用是故障追蹤。監控生(shēng)産線中産品的制造過程,發現(xiàn)故障的根源。故障可能(néng)是某一(yī)個(gè)機台,可能(néng)是某一(yī)種原材料,也(yě)可能(néng)是某一(yī)位操作(zuò)員(yuán)。
大數據分(fēn)析在制造業應用有兩大技術難點:第一(yī)個(gè)就(jiù)是數據變異性,不同機台,在不同時(shí)間(jiān)、不同環境下(xià)的數據具有不同的統計特性,也(yě)就(jiù)是說(shuō),在這(zhè)個(gè)機台上(shàng)采集的數據不可能(néng)直接拿來(lái)去用于另一(yī)個(gè)機台的建模。當你把采集到的數據分(fēn)配到每個(gè)機台、每個(gè)時(shí)間(jiān)點、每個(gè)不同的環境條件下(xià)去做分(fēn)析的時(shí)候,你會發現(xiàn)數據量其實并不大,甚至很小。另外一(yī)個(gè)難點是工藝的變化(huà)。制造工藝随時(shí)間(jiān)在不斷演變,同樣一(yī)個(gè)産品,今年制造出來(lái)的測試結果和明年制造出來(lái)的測試結果完全不同,因為(wèi)産線在不斷變化(huà),這(zhè)是大數據分(fēn)析的一(yī)個(gè)軟肋。我們分(fēn)析的數據都是曆史數據,所以大數據分(fēn)析實際上(shàng)就(jiù)是兩步,第一(yī)步記錄曆史數據,第二步根據這(zhè)些(xiē)曆史數據去預測未來(lái)。如(rú)果由于工藝變化(huà)導緻未來(lái)和曆史是不一(yī)緻的,那麽大數據分(fēn)析的最根本假設就(jiù)已經不成立了(le)。這(zhè)也(yě)是大數據分(fēn)析的一(yī)個(gè)痛點所在。
怎麽去解決這(zhè)一(yī)問題?從我來(lái)看,大數據未來(lái)發展的一(yī)個(gè)最大難點就(jiù)是缺乏複合型的人(rén)才。要找到一(yī)個(gè)既懂數據又懂專業領域的雙料人(rén)才非常困難,所以培養跨學科的人(rén)才是我們昆山杜克學校(xiào)的一(yī)個(gè)重要任務(wù)。
昆山杜克大學剛剛成立了(le)一(yī)個(gè)大數據中心,裏面有很多昆山杜克大學的教授,以及美國杜克大學的教授,我們一(yī)起合作(zuò)緻力于中國大數據人(rén)才的培養,也(yě)希望與中國的企業合作(zuò)共同貢獻一(yī)份力量。(本文首發钛媒體(tǐ),整理(lǐ)/胡江路(lù))