昆山杜克大學李昕：工業4.0時(shí)代，大數據賦能(néng)智能(néng)制造的4大應用

從最早公元前2000年文字誕生(shēng)起人(rén)類就(jiù)開始采集數據，到1998年正式提出大數據這(zhè)一(yī)概念，實際上(shàng)數據的發展已經橫跨了(le)上(shàng)下(xià)4000多年的時(shí)間(jiān)。在這(zhè)一(yī)漫長的曆史演變中，人(rén)類共經曆了(le)四次工業革命，從最早以蒸汽技術為(wèi)代表的工業1.0，到如(rú)今以智能(néng)和互聯網為(wèi)代表的工業4.0，制造業也(yě)迎來(lái)了(le)其全面蛻變的時(shí)刻——智能(néng)工廠時(shí)代的強勢來(lái)襲。

畢業于美國卡内基梅隆大學、專注于制造業大數據研究的昆山杜克大學教授李昕認為(wèi)，在人(rén)工智能(néng)和大數據愈發滲透的今天，如(rú)何更好(hǎo)(hǎo)地收集數據、分(fēn)析數據、利用數據才是企業根本。尤其是制造業，作(zuò)為(wèi)立國之本，量級更是驚人(rén)，如(rú)何用數據助力智能(néng)制造，點“數”成金(jīn)？

在李昕看來(lái)，數據分(fēn)析在制造業應用有兩大技術難點：第一(yī)個(gè)是數據變異性，第二個(gè)是工藝的變化(huà)。對于未來(lái)大數據的發展，李昕也(yě)表示，最大痛點在于“懂數據又懂行業”的雙料人(rén)才的匮乏。在這(zhè)點上(shàng)，不管是學校(xiào)，還是企業，都任重道遠(yuǎn)。

以下(xià)是李昕教授在2017IT 價值峰會暨中國企業級技術峰會上(shàng)的演講，經ITValue編輯整理(lǐ)：

我本人(rén)主要從事(shì)制造業大數據的研究，是台灣富士康集團總裁郭台銘先生(shēng)的大數據顧問，同時(shí)也(yě)是香港兩家公司的董事(shì)。

互聯網時(shí)代，數據暴增。目前每兩天創造的信息幾乎相當于人(rén)類有史以來(lái)到2003年所創造的信息總和。這(zhè)是什(shén)麽概念？在美國，每分(fēn)鍾就(jiù)會産生(shēng)2.04億封郵件，Facebook上(shàng)會有180萬次的點贊、20萬張照片的上(shàng)傳。而且這(zhè)個(gè)量級還會随着時(shí)間(jiān)不斷上(shàng)升，大概每1.2年就(jiù)會翻一(yī)番。

如(rú)此龐大的數據量怎麽才能(néng)很好(hǎo)(hǎo)利用？我們先來(lái)看一(yī)下(xià)大數據應用的現(xiàn)狀。過去5-10年，大數據的發展主要集中在三個(gè)方向：圖像、視(shì)頻、語音(yīn)。國内外很多IT公司在這(zhè)三個(gè)方向上(shàng)都取得了(le)非常成功的發展。今年3月(yuè)(yuè)，李克強總理(lǐ)在政府工作(zuò)報(bào)告上(shàng)強調，要把人(rén)工智能(néng)、大數據推廣到各行各業中，包括商(shāng)業、醫(yī)療、制造、教育、城市(shì)等。這(zhè)意味着，未來(lái)大數據将會滲透到我們生(shēng)活的每個(gè)環節中，發揮越來(lái)越重要的作(zuò)用。

要利用數據就(jiù)要先分(fēn)析數據。大數據分(fēn)析需要兩類人(rén):數據分(fēn)析專家和行業專家，二者缺一(yī)不可。谷歌(gē)過去十年一(yī)直在推自動駕駛技術，但(dàn)是兩年前意識到，自動駕駛并不是一(yī)個(gè)IT公司的數據專家就(jiù)能(néng)單獨完成的事(shì)，還必須和各個(gè)整車廠包括本田、福特等的行業專家合作(zuò)，共同研發産品。

智能(néng)工廠時(shí)代全面來(lái)臨

就(jiù)制造業來(lái)說(shuō)，數據量的龐大難以想象。中國具有強盛的制造業，如(rú)果利用大數據把制造業的效率提高10%，那麽創造的利潤非同小可。在美國，奧巴馬時(shí)期就(jiù)提出了(le)智能(néng)制造的戰略，歐洲老牌制造強國德國一(yī)直在提倡工業4.0，新(xīn)加坡也(yě)有明确的規定國家GDP必須有15%-20%的貢獻是來(lái)自于制造業。

沒有制造業，一(yī)個(gè)國家就(jiù)喪失了(le)生(shēng)存之本。

回顧起來(lái)，制造業的發展大概經曆了(le)四次工業革命。第一(yī)次工業革命發生(shēng)于18世紀60年代，主要以蒸汽技術為(wèi)代表的工業1.0時(shí)代；第二次工業革命是在19世紀50年代，以電力為(wèi)主要能(néng)源的工業2.0時(shí)代；第三次是20世紀50年代，以計算(suàn)機技術為(wèi)代表，把計算(suàn)機技術應用到工業控制中的工業3.0時(shí)代；最後一(yī)次就(jiù)是當今以智能(néng)和互聯網為(wèi)代表的第四次工業革命即工業4.0時(shí)代。

這(zhè)次工業革命對制造業來(lái)說(shuō)非比尋常，它意味着智能(néng)工廠時(shí)代的全面來(lái)臨。什(shén)麽是智能(néng)工廠？在每個(gè)工廠的每個(gè)車間(jiān)的每個(gè)機台上(shàng)都安裝有很多傳感器(qì)，不斷地采集數據，并對數據進行分(fēn)析，從而優化(huà)生(shēng)産線，降低(dī)成本。這(zhè)個(gè)數據量有多大？制造業有一(yī)項技術叫自動光學檢測（AOI），每個(gè)零部件生(shēng)産出來(lái)後都會被拍照檢驗質量的好(hǎo)(hǎo)壞。倘若按每分(fēn)鍾收集一(yī)張1M像素的圖片來(lái)估算(suàn)，一(yī)台機器(qì)一(yī)天産生(shēng)的數據就(jiù)是1.5G。每個(gè)工廠有N多個(gè)機台，N多個(gè)傳感器(qì)，總的數據量可想而知。

大數據提升制造流程的4大應用

這(zhè)麽多數據能(néng)拿來(lái)做什(shén)麽？第一(yī)個(gè)應用就(jiù)是調度優化(huà)。

在智能(néng)車間(jiān)裏，機台與機台之間(jiān)的産品傳遞主要靠機械手臂來(lái)完成，而車間(jiān)與車間(jiān)之間(jiān)的産品傳遞則是通過傳動帶來(lái)完成。所謂調度優化(huà)就(jiù)是通過數據分(fēn)析，了(le)解每個(gè)産品在每個(gè)機台上(shàng)需要處理(lǐ)的時(shí)間(jiān)，然後決定出把某個(gè)産品送到哪個(gè)機台去處理(lǐ)的最優解決方案。這(zhè)個(gè)事(shì)情看起來(lái)容易，操作(zuò)起來(lái)卻很難，正如(rú)車輛在路(lù)上(shàng)突然抛錨造成交通擁堵一(yī)樣，如(rú)果一(yī)個(gè)機台出了(le)問題，就(jiù)會擾亂整個(gè)調度的優化(huà)方案，更糟的是如(rú)果發現(xiàn)某個(gè)産品不合格，就(jiù)需要被重新(xīn)發配到某個(gè)機台重新(xīn)處理(lǐ)，那麽就(jiù)會導緻整個(gè)調度非常複雜，處理(lǐ)不好(hǎo)(hǎo)就(jiù)會造成“擁堵”，甚至停工。

大數據的另外一(yī)個(gè)重要應用就(jiù)是設備監控。産品制造分(fēn)許多步驟，如(rú)果第一(yī)道工序出了(le)故障沒有立刻發現(xiàn)，等生(shēng)産出來(lái)之後經檢測時(shí)才發現(xiàn)，那就(jiù)意味着這(zhè)段時(shí)間(jiān)裏生(shēng)産的全部産品都要報(bào)廢。這(zhè)是個(gè)很嚴重的問題。設備監控就(jiù)是在每個(gè)機台上(shàng)都安置多個(gè)傳感器(qì)來(lái)監測設備是否有故障。美國有個(gè)大型制造企業，曾經成品率總是提不上(shàng)去，經多方查找後才發現(xiàn)，原來(lái)是一(yī)個(gè)機台在清理(lǐ)時(shí)出了(le)問題，早班清潔工是從上(shàng)往下(xià)清理(lǐ)，晚班清潔工是從下(xià)往上(shàng)清理(lǐ)，就(jiù)是這(zhè)樣一(yī)個(gè)個(gè)小小的瑕疵就(jiù)會對整個(gè)生(shēng)産線造成幾百萬甚至幾千萬美金(jīn)的損失。

第三個(gè)應用就(jiù)是虛拟測試。在制造業中，測試占整個(gè)制造成本的25%-50%，怎麽用大數據降低(dī)測試成本？最根本的一(yī)點就(jiù)是利用數據的相關(guān)性，也(yě)就(jiù)是用數據去分(fēn)析不同的數據量之間(jiān)是否相關(guān)，如(rú)果存在相關(guān)就(jiù)可以用一(yī)個(gè)數據量去估計另一(yī)個(gè)數據量。

這(zhè)裏有兩個(gè)例子(zǐ)，一(yī)個(gè)是空間(jiān)的相關(guān)性。在集成電路(lù)制造中，一(yī)塊矽片包含很多芯片，傳統的方法是每個(gè)芯片都要去測試，如(rú)果我們把整塊矽片看作(zuò)是一(yī)幅圖像，那麽不同的像素對應不同的芯片，像素點之間(jiān)是有相關(guān)性的，我們可以通過測試少數幾個(gè)像素點的值，利用統計方法來(lái)估值另外的像素點，從而大大減少測試量。

另一(yī)個(gè)例子(zǐ)是給金(jīn)屬塊鑽孔。鑽孔是否平整？是不是圓形？在制造業上(shàng)是一(yī)個(gè)非常昂貴的測試過程。我們通過在鑽孔機上(shàng)安裝各種非常廉價的傳感器(qì)，包括震動傳感器(qì)、聲音(yīn)傳感器(qì)、壓力傳感器(qì)等，用這(zhè)些(xiē)傳感器(qì)的測試值去創建一(yī)個(gè)模型，然後預估鑽孔的平整度和質量狀況，從而節省很大一(yī)筆成本。

第四個(gè)應用是故障追蹤。監控生(shēng)産線中産品的制造過程，發現(xiàn)故障的根源。故障可能(néng)是某一(yī)個(gè)機台，可能(néng)是某一(yī)種原材料，也(yě)可能(néng)是某一(yī)位操作(zuò)員(yuán)。

大數據分(fēn)析在制造業應用有兩大技術難點：第一(yī)個(gè)就(jiù)是數據變異性，不同機台，在不同時(shí)間(jiān)、不同環境下(xià)的數據具有不同的統計特性，也(yě)就(jiù)是說(shuō)，在這(zhè)個(gè)機台上(shàng)采集的數據不可能(néng)直接拿來(lái)去用于另一(yī)個(gè)機台的建模。當你把采集到的數據分(fēn)配到每個(gè)機台、每個(gè)時(shí)間(jiān)點、每個(gè)不同的環境條件下(xià)去做分(fēn)析的時(shí)候，你會發現(xiàn)數據量其實并不大，甚至很小。另外一(yī)個(gè)難點是工藝的變化(huà)。制造工藝随時(shí)間(jiān)在不斷演變，同樣一(yī)個(gè)産品，今年制造出來(lái)的測試結果和明年制造出來(lái)的測試結果完全不同，因為(wèi)産線在不斷變化(huà)，這(zhè)是大數據分(fēn)析的一(yī)個(gè)軟肋。我們分(fēn)析的數據都是曆史數據，所以大數據分(fēn)析實際上(shàng)就(jiù)是兩步，第一(yī)步記錄曆史數據，第二步根據這(zhè)些(xiē)曆史數據去預測未來(lái)。如(rú)果由于工藝變化(huà)導緻未來(lái)和曆史是不一(yī)緻的，那麽大數據分(fēn)析的最根本假設就(jiù)已經不成立了(le)。這(zhè)也(yě)是大數據分(fēn)析的一(yī)個(gè)痛點所在。

怎麽去解決這(zhè)一(yī)問題？從我來(lái)看，大數據未來(lái)發展的一(yī)個(gè)最大難點就(jiù)是缺乏複合型的人(rén)才。要找到一(yī)個(gè)既懂數據又懂專業領域的雙料人(rén)才非常困難，所以培養跨學科的人(rén)才是我們昆山杜克學校(xiào)的一(yī)個(gè)重要任務(wù)。

昆山杜克大學剛剛成立了(le)一(yī)個(gè)大數據中心，裏面有很多昆山杜克大學的教授，以及美國杜克大學的教授，我們一(yī)起合作(zuò)緻力于中國大數據人(rén)才的培養，也(yě)希望與中國的企業合作(zuò)共同貢獻一(yī)份力量。（本文首發钛媒體(tǐ)，整理(lǐ)/胡江路(lù)）