近年來(lái)運維技術飛速發展,運維團隊大多建設好(hǎo)(hǎo)了(le)各種系統,虛拟化(huà)、容器(qì)化(huà)、持續集成等等。但(dàn)是如(rú)何有效的利用這(zhè)些(xiē)系統最終實現(xiàn)站(zhàn)點的高可用、高性能(néng)、高可擴展?随着智能(néng)化(huà)技術的發展,為(wèi)了(le)解決上(shàng)述運維領域的問題,智能(néng)運維的呼聲越來(lái)越高。
在日志易産品總監饒琛琳看來(lái),目前國内智能(néng)運維發展還處于一(yī)個(gè)探索階段,要想盡快(kuài)在智能(néng)運維領域有所突破,首先要主抓好(hǎo)(hǎo)監控系統和告警系統,并利用機器(qì)學習算(suàn)法進行快(kuài)速監控和排障。饒琛琳,日志易産品總監,曾任新(xīn)浪微博系統架構師、大數據運維技術專家,從事(shì)運維 11 年,精通大規模互聯網性能(néng)優化(huà),機器(qì)數據處理(lǐ)分(fēn)析,監控和管理(lǐ)平台的部署開發。
這(zhè)裏,就(jiù)将饒琛琳對智能(néng)運維的發展一(yī)些(xiē)早期觀點和看法整理(lǐ)出來(lái),和大家一(yī)起探討(tǎo)下(xià)運維未來(lái)的發展方向。
1對當下(xià)國内運維領域現(xiàn)狀的看法
簡單來(lái)講,目前國内運維界在自動化(huà)方面已經達到了(le)一(yī)定的水平,就(jiù)現(xiàn)階段而言,自動化(huà)和監控兩部分(fēn)還是有一(yī)定距離。例如(rú),你拿到了(le)監控類的報(bào)警,可能(néng)不清楚立馬去做哪一(yī)項自動化(huà)的部署。如(rú)果能(néng)把自動化(huà)和監控這(zhè)兩部分(fēn)有機的結合起來(lái),運維的工作(zuò)會運轉的更加順利。
2移動端和微服務(wù)給運維工作(zuò)帶來(lái)的挑戰
在 PC 端的時(shí)代,運維的很多工作(zuò)受限于浏覽器(qì),運維人(rén)員(yuán)拿不到用戶端真實的數據。這(zhè)種狀況下(xià),大家就(jiù)會普遍采購(gòu)一(yī)些(xiē)第三方服務(wù),嘗試獲取終端數據。而在移動端時(shí)期,我們都有自己的 IP,可以把一(yī)些(xiē)采點的邏輯放(fàng)在自己的 IP 裏,然後獲取到更準确、更真實的客戶數據。相對于挑戰來(lái)說(shuō),這(zhè)其實是移動端帶來(lái)的好(hǎo)(hǎo)處。
微服務(wù)的出現(xiàn)給運維工作(zuò)帶來(lái)一(yī)些(xiē)難題。沒有出現(xiàn)微服務(wù)之前,運維人(rén)員(yuán)在一(yī)台或者兩三台機器(qì)中就(jiù)可以完成問題排查。出現(xiàn)微服務(wù)之後,這(zhè)些(xiē)問題可能(néng)拆到了(le)好(hǎo)(hǎo)幾十個(gè)分(fēn)布式的地方,各自的輸出,甚至啓停會很方便,你有可能(néng)遇到在找問題的時(shí)候混淆的情況。而解決這(zhè)些(xiē)麻煩就(jiù)是需要智能(néng)運維。
3在大數據時(shí)代,智能(néng)運維與數據之間(jiān)、自動化(huà)運維之間(jiān)有何關(guān)系
智能(néng)運維的理(lǐ)想狀态就(jiù)是把運維工作(zuò)的三大部分(fēn):監控、管理(lǐ)和故障定位,利用一(yī)些(xiē)機器(qì)學習算(suàn)法的方法把它們有機結合起來(lái)。
在大數據時(shí)代,智能(néng)運維是基于大數據之上(shàng)。目前看來(lái),運維想要把監控、管理(lǐ)和故障定位這(zhè)三部分(fēn)有機結合起來(lái),就(jiù)不可避免的需要用到智能(néng)算(suàn)法,而體(tǐ)現(xiàn)智能(néng)算(suàn)法價值的一(yī)點就(jiù)是:智能(néng)算(suàn)法需要大量的數據去做支撐。
自動化(huà)運維這(zhè)幾年處在一(yī)個(gè)良性發展的狀态,包括像 Puppet 這(zhè)種配置管理(lǐ)的自動化(huà),像 Docker 這(zhè)種部署的自動化(huà)。進一(yī)步的發展就(jiù)是需要把這(zhè)三部分(fēn)融合起來(lái)。目前能(néng)夠把這(zhè)三部分(fēn)融合起來(lái)的辦法就(jiù)是利用人(rén)工智能(néng)的手段,最後達到一(yī)種智能(néng)運維的狀态。
4智能(néng)運維當下(xià)的狀況及智能(néng)運維發展的預測
智能(néng)運維當下(xià)還是一(yī)個(gè)初步探索的階段。可以舉幾個(gè)時(shí)間(jiān)數字,我所看到一(yī)個(gè)和智能(néng)運維相關(guān)的開源項目是在 2013 年,而我看到的第一(yī)個(gè)主動出來(lái)宣講和智能(néng)運維相關(guān)的應該是在 2015 年百度在一(yī)個(gè)大會上(shàng)的宣講。然後大量的出現(xiàn)在宣講上(shàng)有關(guān)智能(néng)運維的應該是在 16 年下(xià)半年。而這(zhè)些(xiē)宣講和我的一(yī)些(xiē)宣講都還是說(shuō)我們現(xiàn)在有這(zhè)樣的思路(lù),做了(le)一(yī)些(xiē)嘗試。而這(zhè)些(xiē)嘗試的效果還是需要大家去碰撞,看是否還有什(shén)麽更好(hǎo)(hǎo)的辦法,因為(wèi)我們現(xiàn)在是用普通的機器(qì)學習算(suàn)法,還沒有用到像 AlphaGo 的深度神經網絡這(zhè)部分(fēn)内容。轉變為(wèi)智能(néng)運維是一(yī)個(gè)需要大量投入和學習的過程。
想盡快(kuài)在智能(néng)運維領域有所突破,更實際一(yī)點的辦法就(jiù)是主抓好(hǎo)(hǎo)監控系統和告警系統。傳統的 IT 運維需要管理(lǐ)大量的告警,極大地分(fēn)散了(le)企業的注意力,消耗運維人(rén)員(yuán)大量的時(shí)間(jiān)和創新(xīn)力。想辦法能(néng)把一(yī)天收好(hǎo)(hǎo)幾千封告警這(zhè)種狀況,高效地解決,把運維人(rén)員(yuán)從紛繁複雜的告警和噪音(yīn)中解脫出來(lái)。這(zhè)是一(yī)個(gè)在衆多辦法中産生(shēng)價值的第一(yī)步。
現(xiàn)在比較明确的是大家會朝着智能(néng)運維方向發展,并且智能(néng)運維的發展一(yī)定是一(yī)個(gè)長期演進的過程。
對于智能(néng)運維的發展預測,我的簡單看法如(rú)下(xià):
第一(yī)步就(jiù)是前面所說(shuō)的,智能(néng)運維在告警系統上(shàng)的價值,;
第二步就(jiù)是智能(néng)地去判斷告警,而不是現(xiàn)在靠人(rén)力的經驗去設定一(yī)個(gè)阈值。設定告警阈值是一(yī)項耗時(shí)耗力的工作(zuò),需要運維人(rén)員(yuán)在充分(fēn)了(le)解業務(wù)的前提下(xià)才能(néng)進行,還得考慮業務(wù)是不是平穩發展狀态,否則一(yī)兩周改動一(yī)次,運維工程師絕對是要發瘋的。
第三步是利用一(yī)些(xiē) NLP(自然語言處理(lǐ)),把故障報(bào)告、文本化(huà)的語言提煉出來(lái)去自動反饋到這(zhè)個(gè)系統裏。這(zhè)一(yī)點可能(néng)是更遙遠(yuǎn)的一(yī)個(gè)設想,但(dàn)是目前來(lái)看會是将來(lái)發展的一(yī)條道路(lù)。
在智能(néng)化(huà)時(shí)代,大家開始思考:如(rú)何将智能(néng)化(huà)和運維工作(zuò)結合起來(lái),成為(wèi)智能(néng)運維?如(rú)何利用機器(qì)學習來(lái)進行快(kuài)速監控和排障?