通常業(yè)務(wù)通常比較關(guān)心哪些指標(biāo)?我們的巡檢是不是也可以換個方式來做,既能服務(wù)于業(yè)務(wù),也能體現(xiàn)我們工作的深度和廣度,這樣一來,我們提供的就不是一個黑盒服務(wù),而是可以轉(zhuǎn)變?yōu)楦又鲃拥淖灾?wù)了,簡而言之,目標(biāo)就是讓別人看得懂的巡檢。自助巡檢設(shè)計的初衷就是基于這樣的情況,如果換一個角度,在做好本職工作的前提下,也讓別人效率提高,我們的服務(wù)才更有價值。
業(yè)務(wù)巡檢應(yīng)該關(guān)注什么?
一般來說,運維巡檢都是系統(tǒng)層面的,偏向于技術(shù)方向的,會出來一些很抽象的報告和一大堆的數(shù)據(jù)。對于業(yè)務(wù)來說,這種互動很不友好,對于絕大多數(shù)人來說,我們看一個偏理本行業(yè)內(nèi)容的報告時,潛意識里是排斥的。而系統(tǒng)巡檢方向的內(nèi)容是更加底層的,有些信息其實對于業(yè)務(wù)來說壓根不重要,但是我們的報告反而把這些放在了前面比較醒目的地方,但卻導(dǎo)致的結(jié)果就是報告有,但是難以消化。
從另外一個維度上來說,運維中的很多操作都是手工式,腳本化,或者平臺化的,這些操作對于開發(fā)人員來說是一種黑盒的操作,技術(shù)方向的代溝勢必會使得業(yè)務(wù)不能理解我們在做的事情,包括巡檢也是如此。對于他們來說,這可能就是巡檢人員份內(nèi)的事情。其實恰恰不是,我們巡檢后的很多問題,如果開發(fā)人員能夠提早了解和介入,在問題的處理流程和改進(jìn)上效果更佳。
我們在和業(yè)務(wù)溝通的時候,期望得到體系化的信息,所以在進(jìn)行溝通調(diào)研之前,我們需要了解下應(yīng)用關(guān)注的問題,大體分為這幾類:問題需求、時間周期、結(jié)果預(yù)測、權(quán)重、容易衡量、重要緊急、期望支持效率提高的需求、周期較長,需要迭代優(yōu)化、重新適配操作方式,周期相對較長、重要不緊急、期望支持更靈活的需求、周期較長,改動難度較大、結(jié)果難以量化、不重要不緊急等等。為了避免范圍鋪的太大,難以聚焦,我們需要做一些引導(dǎo)。以下是我們預(yù)設(shè)的一些問題和業(yè)務(wù)提出的問題,整理后的結(jié)果:
從溝通的情況來看,他們對于很多需求還是很迫切的,但是如果你不去問,可能他們也不知道該找誰,所以在信息的透明性和對等性方面還是存在較大的改進(jìn)空間。比如對于系統(tǒng)配置和系統(tǒng)性能,我們可以提供相關(guān)的API或者數(shù)據(jù)查詢服務(wù)來開放這些數(shù)據(jù)。有兩個指標(biāo)是業(yè)務(wù)格外關(guān)注的,一個是數(shù)據(jù)延遲,一個是連接數(shù)情況,這個是和我們預(yù)設(shè)的情況偏差較大的情況,我們需要引起注意。
在技術(shù)細(xì)節(jié)上,他們也存在一些疑惑,那就是對于一些指標(biāo)的量化,比如CPU監(jiān)控指標(biāo),我們設(shè)定閾值是30%,現(xiàn)在的狀態(tài)是20%,業(yè)務(wù)在查看的時候大多數(shù)情況是沒有概念的,如果沒有量化的指標(biāo)其實也不知道20%是高還是低,而我們?nèi)绻峁┰敱M的文檔這些信息也不能夠充分利用起來,所以我們可以對指標(biāo)數(shù)據(jù)通過可視化來銜接,比如我們顯示的CPU監(jiān)控曲線圖,有一條閾值線(在這里就是30%),通過閾值來作為參考,高還是低,就一目了然了。
巡檢的維度設(shè)計
整體可以分成巡檢信息分的三個維度:系統(tǒng),數(shù)據(jù)庫和業(yè)務(wù)。大部分?jǐn)?shù)據(jù)是通過數(shù)據(jù)字典的配置信息得到,而對于業(yè)務(wù)巡檢來說,更有意義的便是后面三類信息的聚合。通過后面三類信息的提取和聚合,能夠根據(jù)設(shè)定的數(shù)據(jù)模型來發(fā)現(xiàn)一些潛在的問題。
對于系統(tǒng)巡檢問題,主要是面向運維人員,需要作出響應(yīng)和明確的處理方法,而對于業(yè)務(wù)而言,就是一種透明的處理方式,比如業(yè)務(wù)發(fā)現(xiàn)某個服務(wù)產(chǎn)生了問題,可以通過系統(tǒng)的配置信息和監(jiān)控報警來確認(rèn)是不是服務(wù)出現(xiàn)了問題。在這個時候他們可以主動提取這些信息,這就是一個自助服務(wù)的初衷。
對于數(shù)據(jù)庫巡更,對于業(yè)務(wù)來說就是一種全新的補(bǔ)充,比如對于業(yè)務(wù)開放了VIP,但是實際業(yè)務(wù)中可能是一主多從的架構(gòu),那么業(yè)務(wù)就需要了解目前的架構(gòu)方式,比如一主多從,那么就可以使用多個從庫提供讀寫分離的服務(wù),而不是僅僅告訴一個VIP就完事了。通過數(shù)據(jù)庫信息的補(bǔ)充,能夠減少業(yè)務(wù)處理中的更多確認(rèn)環(huán)節(jié),起碼業(yè)務(wù)提出一個需求就可以明確知道你們理解問題的維度是不是基本平衡。
對于業(yè)務(wù)能夠接觸到的就是數(shù)據(jù)庫,表和索引了,但是絕大多數(shù)情況下,業(yè)務(wù)根不知道自己所處的環(huán)境是否存在問題,是否配置得當(dāng)?shù)取T跈?quán)限允許的情況下,我們可以提供這樣的自助服務(wù)來明確告訴業(yè)務(wù)這樣做是有問題的,這樣做是有風(fēng)險的。這樣做有幾個好處,一種是由被動變?yōu)橹鲃樱鲃影l(fā)現(xiàn)問題主動提示,也是一種相對友好的方式,遠(yuǎn)比出現(xiàn)問題被動處理要好得多。
如需要了解電子巡更、巡更棒、巡更系統(tǒng)、巡更、巡檢的可繼續(xù)關(guān)注慧友安的動態(tài),我們會隨時更新,及時上傳客戶的使用反饋體驗,無論是簡單的修改,還是復(fù)雜的功能定制,我們都可以快速地為您提供合適的解決方案。我們堅持:“您提要求,我們來做”為服務(wù)宗旨。我們已為100多家公司進(jìn)行OEM、ODM研發(fā)生產(chǎn)。