智能時(shí)代,運(yùn)維工程師該談什么?
每家公司對(duì)于所謂運(yùn)維團(tuán)隊(duì)到底應(yīng)該做些什么,都有各自的看法。本文首先由阿里巴巴的運(yùn)維團(tuán)隊(duì)在整個(gè)阿里巴巴的業(yè)務(wù)里承擔(dān)的責(zé)任為切入點(diǎn)...
我們以前一直都認(rèn)為定位這個(gè)問(wèn)題不是個(gè)大問(wèn)題,如果我能快速修復(fù),定位,你慢慢定好了,定個(gè)兩天我也無(wú)所謂。但是現(xiàn)在阿里特別重視的原因在于,故障定位損耗了我們非常多的人力,耗費(fèi)了我們非常大的團(tuán)隊(duì)力量。所以我們認(rèn)為需要有更智能化的方法,把故障定位出來(lái),以助研發(fā)團(tuán)隊(duì)更專(zhuān)注投入在其他事情上。比如現(xiàn)在故障一出來(lái),研發(fā)查了半天,一看,跟它都沒(méi)有什么關(guān)系。所以就浪費(fèi)了很多,這張圖是我們現(xiàn)在在做的一套系統(tǒng),從一個(gè)異常,那里標(biāo)一二三四五,當(dāng)有一個(gè)異常出來(lái)之后,第一步發(fā)現(xiàn),第二步不斷的分析,一直定位到最后到底是哪個(gè)地方出了問(wèn)題,我們的目標(biāo)是最后盡可能定位到代碼層面的問(wèn)題,或者是網(wǎng)絡(luò)或者是基礎(chǔ)設(shè)施等等。
邊壓邊彈 做好規(guī)模化運(yùn)維
目前對(duì)阿里來(lái)講最重要的問(wèn)題還是效率問(wèn)題。比如說(shuō)我們?cè)诿磕隃?zhǔn)備雙十一容量的時(shí)候,很多人都知道阿里有全鏈路壓測(cè),一個(gè)最重要的目的就是調(diào)整容量,怎么把一個(gè)機(jī)房的容量調(diào)整成比率是最合適的,比如說(shuō) A 應(yīng)用可能是瓶頸,但是事實(shí)上如果搭配得好,A 應(yīng)用就不再是瓶頸。所以怎么樣讓一個(gè)固定機(jī)器數(shù)下做一個(gè)最好的搭配,我們以前是壓一輪調(diào)整一下,再壓一輪再調(diào)整一下,這非常耗費(fèi)一堆人通宵的精力。我們認(rèn)為這個(gè)過(guò)程需要提升,現(xiàn)在改成非常簡(jiǎn)單的模式,流量過(guò)來(lái)以后不斷的自動(dòng)調(diào)整容量比例,我們會(huì)有一個(gè)所謂邊壓邊彈,一邊壓測(cè)一邊調(diào)整比例。相信很多運(yùn)維同學(xué)都干過(guò)這個(gè)事情,因?yàn)闃I(yè)務(wù)方給你一個(gè)指標(biāo),你是要算的,而且很難算的很精準(zhǔn)。邊壓邊彈意味著你不需要算得很精準(zhǔn),粗略算一個(gè)數(shù)就可以了,后面靠這套系統(tǒng)自動(dòng)給你調(diào)平衡。
阿里巴巴在這五個(gè)方面,在智能化方面做的探索,阿里認(rèn)為我們還不足以所有的領(lǐng)域都去覆蓋。
未來(lái)運(yùn)維領(lǐng)域需要突破的防線
無(wú)人化 讓夢(mèng)想照進(jìn)現(xiàn)實(shí)
我認(rèn)為現(xiàn)在運(yùn)維這個(gè)領(lǐng)域中最大的挑戰(zhàn)仍然是,能不能真正的走向無(wú)人化,整個(gè)過(guò)程中是完全沒(méi)有人的。
從目前來(lái)看,要做到無(wú)人化最重要的是質(zhì)量問(wèn)題,質(zhì)量做得不夠好是沒(méi)有辦法無(wú)人化的。另外如果出問(wèn)題了能不能自動(dòng)修復(fù)等等,所以我們認(rèn)為無(wú)人化對(duì)運(yùn)維領(lǐng)域是最大的挑戰(zhàn),能不能把這個(gè)落地變成現(xiàn)實(shí),奠定了智能化的基礎(chǔ)。如果說(shuō)智能化所有的動(dòng)作要人介入,那基本就不用做了。
智能化 帶來(lái)效率上的質(zhì)變
在智能化這一點(diǎn)上,第一點(diǎn)是有效性的問(wèn)題,如果這個(gè)智能表現(xiàn)得比人的智力還差一些,這個(gè)慢慢就沒(méi)有人相信這個(gè)東西了。所以怎么樣把有效性提升上來(lái),另外最重要的是要看到智能化給運(yùn)維領(lǐng)域帶來(lái)效率上的質(zhì)變。智能化投入非常大,要做大量的收集做大量的分析。所以最好帶來(lái)的是質(zhì)變而不只是量變,如果只是量變可能投入都收不回來(lái)。對(duì)于所有公司而言,更少的人更低的成本是非常重要的。人最好投入在一些更重要的研發(fā)等等事情上。

免責(zé)聲明:本文僅代表作者個(gè)人觀點(diǎn),與本站無(wú)關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請(qǐng)讀者僅作參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。
我要收藏
個(gè)贊
- 相關(guān)閱讀
- 業(yè)務(wù)信息化
- 戰(zhàn)略規(guī)劃
- IT運(yùn)維與治理
-
從SCADA入手強(qiáng)化工控系統(tǒng)安全風(fēng)險(xiǎn)
-
展望2018 AI芯片領(lǐng)域:眾多廠商追隨深度學(xué)習(xí)
-
企業(yè)沒(méi)有專(zhuān)注于其最大的IT安全威脅的6個(gè)原因
-
展望2018 AI芯片領(lǐng)域:眾多廠商追隨深度學(xué)習(xí)
-
區(qū)塊鏈概念大熱的背后,真正的價(jià)值在這里
-
【觀點(diǎn)】區(qū)塊鏈的火熱,是不是一場(chǎng)錯(cuò)覺(jué)游戲