監(jiān)控產(chǎn)品中“告警服務(wù)”的設(shè)計(jì)及演化

8 評(píng)論 26049 瀏覽 212 收藏 20 分鐘

在“告警服務(wù)”的設(shè)計(jì)過程中,首先明確了“告警服務(wù)”的價(jià)值,然后通過用戶畫像描述了“告警服務(wù)”的實(shí)際應(yīng)用場(chǎng)景,接著通過“用戶體驗(yàn)地圖”全面梳理了“告警服務(wù)”中用戶的觸點(diǎn)、痛點(diǎn)、機(jī)會(huì)點(diǎn),并以此分析出設(shè)計(jì)的落地策略,最后通過對(duì)“告警服務(wù)”的設(shè)計(jì)及其迭代演化,逐步完善“告警服務(wù)”的設(shè)計(jì)方案、提升用戶體驗(yàn)。

監(jiān)控,可以拆解為“監(jiān)視+控制”,監(jiān)視(monitor)表示用戶通過觀察獲取數(shù)據(jù),控制(control)表示數(shù)據(jù)變化引發(fā)的用戶行為。

作為云產(chǎn)品的一種,監(jiān)控產(chǎn)品構(gòu)成“數(shù)據(jù)—人—行為”的閉環(huán),滿足用戶兩層需求:

  1. 提供準(zhǔn)確實(shí)時(shí)的產(chǎn)品數(shù)據(jù)
  2. 產(chǎn)品數(shù)據(jù)引導(dǎo)正確的用戶行為

數(shù)據(jù)是監(jiān)控的基礎(chǔ),行為是監(jiān)控的價(jià)值變現(xiàn)。本文所述的“告警服務(wù)”就是在用戶處于離線狀態(tài)下,監(jiān)控產(chǎn)品仍然能構(gòu)成“數(shù)據(jù)—人—行為”的完整閉環(huán)。

一、告警服務(wù)的價(jià)值

用戶需求

對(duì)于99%的用戶,都不能7*24盯著監(jiān)控系統(tǒng),當(dāng)處于離線狀態(tài)時(shí)(干活、吃飯、睡覺、下班、休假…),用戶與監(jiān)控?cái)?shù)據(jù)之間是隔離的。

在這種場(chǎng)景中,如果監(jiān)控?cái)?shù)據(jù)發(fā)生了異常變化,用戶仍希望能夠立馬獲悉,進(jìn)而采取措施應(yīng)對(duì)、避免造成損失。“告警服務(wù)”應(yīng)運(yùn)而生,用戶設(shè)定一定的規(guī)則,當(dāng)監(jiān)控?cái)?shù)據(jù)違反規(guī)則時(shí)觸發(fā)告警并發(fā)送給用戶,打破“人”和“數(shù)據(jù)”的的隔離狀態(tài),瞬間構(gòu)成“數(shù)據(jù)—人—行為”的完整閉環(huán)。

業(yè)務(wù)價(jià)值

“告警服務(wù)”能極大解放用戶的注意力。通過對(duì)產(chǎn)品的業(yè)務(wù)數(shù)據(jù)設(shè)定規(guī)則,業(yè)務(wù)人員就可以7*24的掌握產(chǎn)品數(shù)據(jù)的健康狀態(tài),得以將更多的精力專注于業(yè)務(wù)本身。

“告警服務(wù)”能使用戶第一時(shí)間獲取期望的業(yè)務(wù)數(shù)據(jù)。產(chǎn)品的業(yè)務(wù)數(shù)據(jù)一旦違反用戶設(shè)定的規(guī)則即可迅速推送至用戶,幫助用戶過濾99%的無效信息,使數(shù)據(jù)精準(zhǔn)觸達(dá)用戶。

二、用戶畫像

用戶畫像A

任盈盈,女,25歲,產(chǎn)品經(jīng)理

負(fù)責(zé)蘇寧易購某核心產(chǎn)品線-XX產(chǎn)品線的產(chǎn)品工作,日常的工作主要圍繞XX產(chǎn)品線的需求、排期、研發(fā)、上線開展,工作節(jié)奏快、強(qiáng)度高。每天會(huì)登錄數(shù)次監(jiān)控產(chǎn)品,查看XX產(chǎn)品線的監(jiān)控?cái)?shù)據(jù),以掌握XX產(chǎn)品線的健康狀態(tài)。

由于工作節(jié)奏快,每天難以抽出充沛的時(shí)間去分析產(chǎn)品監(jiān)控?cái)?shù)據(jù),會(huì)遺漏部分關(guān)鍵數(shù)據(jù)從而留下隱患。希望能通過告警服務(wù)獲取所有XX產(chǎn)品線相關(guān)的關(guān)鍵異常數(shù)據(jù),既不用花費(fèi)大量的時(shí)間精力去分析數(shù)據(jù),也不會(huì)遺漏任何關(guān)鍵數(shù)據(jù)。

用戶畫像B

令狐沖,男,35歲,技術(shù)負(fù)責(zé)人

負(fù)責(zé)蘇寧易購某核心研發(fā)中心-XX研發(fā)中心的技術(shù)工作,日常的工作主要是XX研發(fā)中心的技術(shù)保障,工作責(zé)任重、壓力大。每天一上班就會(huì)打開監(jiān)控產(chǎn)品,隨時(shí)查看XX研發(fā)中心相關(guān)的監(jiān)控?cái)?shù)據(jù),保證系統(tǒng)的穩(wěn)定。

由于系統(tǒng)是7*24小時(shí)運(yùn)行,但自身無法全天候上線查看監(jiān)控?cái)?shù)據(jù),尤其是下班后或節(jié)假日,沒法做到隨時(shí)查看監(jiān)控?cái)?shù)據(jù)。希望能通過告警服務(wù)及時(shí)獲取XX研發(fā)中心相關(guān)的異常數(shù)據(jù),以便第一時(shí)間作出判斷、并決定是否安排人員介入。

三、用戶體驗(yàn)地圖

通過參考行業(yè)相關(guān)產(chǎn)品和調(diào)研用戶需求,可以將“告警服務(wù)”拆分為4個(gè)階段:

“配置告警策略——篩選產(chǎn)品數(shù)據(jù)——推送告警消息——接收告警消息”

以下是“告警服務(wù)”4個(gè)階段的用戶體驗(yàn)地圖,可以從全局視角審視“告警服務(wù)”的每一個(gè)環(huán)節(jié)。

通過洞察用戶的行為和心理,梳理用戶在不同階段的情緒點(diǎn),可以盤點(diǎn)、挖掘“告警服務(wù)”四個(gè)階段設(shè)計(jì)的機(jī)會(huì)點(diǎn),如下:

  1. 配置告警策略:簡(jiǎn)單的配置規(guī)則、合理的指標(biāo)、提供默認(rèn)的閾值
  2. 篩選產(chǎn)品數(shù)據(jù):計(jì)算平臺(tái)處理能力強(qiáng)、計(jì)算平臺(tái)準(zhǔn)確性高、計(jì)算平臺(tái)穩(wěn)定性好
  3. 推送告警消息:告警平臺(tái)穩(wěn)定性好、告警平臺(tái)對(duì)相同告警進(jìn)行合并
  4. 接收告警消息:告警內(nèi)容簡(jiǎn)單易讀、告警消息支持多渠道發(fā)送、告警消息支持自定義接收者

四、分析與思考

用戶體驗(yàn)地圖給出設(shè)計(jì)的“機(jī)會(huì)點(diǎn)”,接下來需要思考如何將其落地、形成可參考執(zhí)行的設(shè)計(jì)策略。

首先,需要關(guān)注存在哪些用戶觸點(diǎn),這是設(shè)計(jì)落地的切入點(diǎn),通過用戶體驗(yàn)地圖,分析如下:

1)在“配置告警策略”階段,存在1個(gè)觸點(diǎn):告警配置模塊。

結(jié)合該階段的設(shè)計(jì)機(jī)會(huì)點(diǎn),可以推定:在告警配置模塊,需要提供簡(jiǎn)單的配置規(guī)則,在配置規(guī)則內(nèi)盡量提供用戶最合適的指標(biāo)或組合,并且在關(guān)于閾值的設(shè)定上可以提供默認(rèn)值、或者毋需用戶設(shè)定。

2)在“篩選產(chǎn)品數(shù)據(jù)”、“推送告警信息”兩個(gè)階段,均由后臺(tái)系統(tǒng)自動(dòng)完成、用戶不會(huì)直接接觸,因此不存在用戶觸點(diǎn)。

但是并不意味著設(shè)計(jì)不需要關(guān)注這兩個(gè)階段,在設(shè)計(jì)的過程中,需要根據(jù)目前的技術(shù)能力給出合理的設(shè)計(jì)方案,盡量避免憑空想象。

3)在“接受告警消息”階段,存在2個(gè)觸點(diǎn):終端接收設(shè)備、告警內(nèi)容。

結(jié)合該階段的設(shè)計(jì)機(jī)會(huì)點(diǎn),可以推定:

  • 針對(duì)“終端接收設(shè)備”,用戶希望可以選擇自己需要的渠道接收告警消息,并且告警消息發(fā)送給誰也由用戶自己決定,這兩項(xiàng)均屬于配置階段的內(nèi)容。
  • 針對(duì)“告警內(nèi)容”,用戶希望能按照重要、緊急兩個(gè)維度將告警內(nèi)容從上到下排列,并且盡量減少冗余信息、提升可讀性。

通過以上分析,可以清晰歸納出,設(shè)計(jì)的落地點(diǎn)主要由兩個(gè):

  1. 配置告警策略(支持自定義的渠道和接收者)
  2. 告警消息所推送的內(nèi)容

針對(duì)這兩項(xiàng)的設(shè)計(jì)策略如下:

五、設(shè)計(jì)及演化

配置告警策略

參考行業(yè)相關(guān)產(chǎn)品,告警配置模塊主要分為兩個(gè)部分:

  1. 告警策略的展示列表
  2. 告警策略的添加/編輯狀態(tài)

本質(zhì)上兩者都是即圍繞“告警策略”開展設(shè)計(jì)。

針對(duì)“告警策略”,一般由4種內(nèi)容組成:

  1. 告警策略的名稱
  2. 告警監(jiān)控的對(duì)象
  3. 告警針對(duì)的指標(biāo)
  4. 告警觸發(fā)的條件

在本案例中,由于“終端接收設(shè)備”模塊的內(nèi)容合并至“告警配置模塊”,因此本案例中的告警策略需要再增加一項(xiàng)內(nèi)容:告警消息的推送。

1)告警策略的名稱:指本條告警策略的名稱,與人的姓名一樣,是用戶識(shí)別告警策略的主要標(biāo)識(shí)。

2)告警監(jiān)控的對(duì)象:指本條告警策略是針對(duì)哪些對(duì)象而配置的,監(jiān)控這些對(duì)象的狀態(tài)變化。

3)告警針對(duì)的指標(biāo):指針對(duì)哪個(gè)數(shù)據(jù)指標(biāo)設(shè)立告警規(guī)則,指標(biāo)可以是單個(gè)或一組,需要選擇合適的指標(biāo)才能更好的發(fā)揮告警服務(wù)的價(jià)值。

4)告警觸發(fā)的條件:指選定的數(shù)據(jù)指標(biāo)達(dá)到什么閾值即觸發(fā)告警的生成,這個(gè)決定告警服務(wù)的精確程度。

5)告警消息的推送:指告警消息發(fā)送的人員,以及發(fā)送的方式,也就是解決“通知誰、怎么通知”的問題。

梳理完告警配置模塊的元素,就可以根據(jù)“配置告警策略”的設(shè)計(jì)原則,開展設(shè)計(jì):“配置規(guī)則簡(jiǎn)單、指標(biāo)契合、閾值有默認(rèn)值、自定義接收渠道、自定義接收者”

當(dāng)用戶進(jìn)入告警配置模塊,未配置任何告警策略,提示、引導(dǎo)用戶開始創(chuàng)建。

針對(duì)“添加告警策略”,經(jīng)歷了3版設(shè)計(jì)方案的演變。

第一版方案,基本符合上述的設(shè)計(jì)原則。

該方案上線之后用戶配置了大量的告警策略,但發(fā)生了意想不到的事情:不告警。經(jīng)過排查定位,最終確認(rèn)是計(jì)算平臺(tái)產(chǎn)生了非常嚴(yán)重的阻塞,即“用戶體驗(yàn)地圖”的第二階段“篩選產(chǎn)品數(shù)據(jù)”出了問題。復(fù)盤之后,認(rèn)定有兩方面的原因:

  1. 一是所選擇的告警指標(biāo)“影響用戶占比的環(huán)比增長率”涉及大量的“去重”計(jì)算,嚴(yán)重消耗計(jì)算平臺(tái)的性能;
  2. 二是監(jiān)控對(duì)象沒有做限制,多個(gè)篩選條件排列組合之后產(chǎn)生了大量監(jiān)控對(duì)象,遠(yuǎn)遠(yuǎn)超過了計(jì)算平臺(tái)的極限。

因此,決定從兩個(gè)方面優(yōu)化設(shè)計(jì)方案:

  1. 使用新的告警指標(biāo)
  2. 對(duì)監(jiān)控對(duì)象做限制

這是第二版方案,在延續(xù)第一版所遵循的設(shè)計(jì)原則基礎(chǔ)上,針對(duì)性做了優(yōu)化。

  1. 監(jiān)控對(duì)象限制了可配置的數(shù)目,降低現(xiàn)有計(jì)算平臺(tái)產(chǎn)生阻塞的風(fēng)險(xiǎn);
  2. 改用新的告警指標(biāo),舍棄了“去重”計(jì)算,提供“絕對(duì)值”、“相對(duì)值”兩種指標(biāo)供用戶選擇,覆蓋面更廣;
  3. 精簡(jiǎn)了觸發(fā)條件,減輕現(xiàn)有計(jì)算平臺(tái)的壓力;
  4. 消息推送的渠道默認(rèn)值只設(shè)置“豆芽”,降低成本(豆芽是蘇寧內(nèi)部員工使用的IM工具)

第二版方案上線之后,告警計(jì)算平臺(tái)的阻塞問題解決了,但是用戶反饋:監(jiān)控對(duì)象可配置的太少。這個(gè)當(dāng)時(shí)已經(jīng)預(yù)料到會(huì)有這個(gè)問題,但是現(xiàn)有的計(jì)算平臺(tái)性能受限,“巧婦難為無米之炊”,只能采取這種妥協(xié)的方式。

隨著新的計(jì)算平臺(tái)上線,性能得到極大提升,設(shè)計(jì)方案也不用“畏手畏腳”。第三版方案在保留原有優(yōu)點(diǎn)的基礎(chǔ)上,主要針對(duì)“告警對(duì)象”做了重點(diǎn)優(yōu)化。

  1. 告警名稱提供默認(rèn)值,解決用戶對(duì)告警名稱填寫過程中“不愿想、不愿寫”的”懶“需求;
  2. 監(jiān)控對(duì)象的來源,提供用戶常見的場(chǎng)景作為待選集合,方便用戶快速選擇告警對(duì)象;
  3. 監(jiān)控對(duì)象的配置,讓用戶行為從“輸入”變成“勾選”,并提供批量選擇,簡(jiǎn)化用戶的配置步驟;
  4. 監(jiān)控對(duì)象的數(shù)目,限制數(shù)放開至200,并可通過后臺(tái)配置進(jìn)行動(dòng)態(tài)調(diào)整。之所以將數(shù)目暫定于200,是方便用戶從四個(gè)TOP異常的場(chǎng)景中分別選中一類,正好200。

添加完告警策略之后,告警模塊至少會(huì)有一條告警策略。

  1. 支持用戶對(duì)告警策略列表進(jìn)行篩選、搜索
  2. 支持繼續(xù)添加告警策略
  3. 將告警策略的五種主要內(nèi)容(告警名稱、監(jiān)控對(duì)象、告警指標(biāo)、觸發(fā)條件、消息推送)顯示在列表內(nèi)
  4. 支持對(duì)單條策略的開關(guān)、編輯和刪除,其中“開關(guān)”場(chǎng)景是用戶暫時(shí)需要關(guān)閉策略、但不對(duì)其進(jìn)行刪除

告警消息

告警消息指的是當(dāng)告警發(fā)生以后,告警平臺(tái)將該條告警相關(guān)的信息推送至用戶,是“數(shù)據(jù)—人—行為”閉環(huán)的重要一環(huán),用戶通過閱讀告警消息獲取當(dāng)前系統(tǒng)的健康狀況、從而采取對(duì)應(yīng)的干預(yù)措施。

根據(jù)“告警消息”的設(shè)計(jì)原則,開展設(shè)計(jì):

“提供關(guān)鍵數(shù)據(jù)、精簡(jiǎn)告警內(nèi)容、減少冗余信息、提升可讀性”

相比于“配置告警策略”,“告警消息”沒有出現(xiàn)過較大版本的優(yōu)化。通過參考行業(yè)相關(guān)產(chǎn)品和用戶需求,擇取了9個(gè)字段,實(shí)際的告警消息有兩種模板,分別對(duì)應(yīng)兩種告警指標(biāo):異常數(shù)、絕對(duì)值。

  1. 告警策略的名稱:用戶第一時(shí)間判斷和自身的相關(guān)程度,是否自己創(chuàng)建、是否是高優(yōu)先級(jí)告警策略。
  2. 當(dāng)前產(chǎn)生的告警等級(jí):判斷該告警的嚴(yán)重程度,決定了采取何種干預(yù)措施。
  3. 產(chǎn)生告警的監(jiān)控對(duì)象:確認(rèn)告警是由哪個(gè)監(jiān)控對(duì)象引起,如果要采取措施可據(jù)此聯(lián)系責(zé)任人。
  4. 觸發(fā)告警的數(shù)據(jù):查看現(xiàn)場(chǎng)數(shù)據(jù),在告警等級(jí)的基礎(chǔ)上進(jìn)一步判斷該告警的嚴(yán)重程度。
  5. 告警發(fā)生的時(shí)間:時(shí)間可用于定位告警的原因和判斷時(shí)效性。
  6. 告警所屬的產(chǎn)品:附屬信息,當(dāng)用戶名下有多個(gè)產(chǎn)品時(shí)據(jù)此區(qū)分。
  7. 告警發(fā)生的來源:附屬信息,當(dāng)用戶使用多種監(jiān)控系統(tǒng)時(shí)據(jù)此區(qū)分。
  8. 告警消息的接收者:附屬信息,用戶用以判斷相關(guān)干系人是誰。
  9. 告警策略的創(chuàng)建者:附屬信息,用戶用以判斷該告警策略是否是正常、合法創(chuàng)建。

六、總結(jié)

小結(jié)

在“告警服務(wù)”的設(shè)計(jì)過程中,首先明確了“告警服務(wù)”的價(jià)值,然后通過用戶畫像描述了“告警服務(wù)”的實(shí)際應(yīng)用場(chǎng)景,接著通過“用戶體驗(yàn)地圖”全面梳理了“告警服務(wù)”中用戶的觸點(diǎn)、痛點(diǎn)、機(jī)會(huì)點(diǎn),并以此分析出設(shè)計(jì)的落地策略,最后通過對(duì)“告警服務(wù)”的設(shè)計(jì)及其迭代演化,逐步完善“告警服務(wù)”的設(shè)計(jì)方案、提升用戶體驗(yàn)。

隨著AI和大數(shù)據(jù)等技術(shù)的引入,“告警服務(wù)”會(huì)持續(xù)進(jìn)行優(yōu)化迭代,主要圍繞3個(gè)方面:

  1. 更簡(jiǎn)單的配置。通過采取態(tài)勢(shì)感知、智能化的帶狀閾值區(qū)間會(huì)逐步取代人工設(shè)定的閾值,能極大降低用戶使用“告警服務(wù)”的成本。
  2. 更具體的對(duì)象。目前的告警策略針對(duì)的還是零散的告警對(duì)象,未來將會(huì)將圍繞“場(chǎng)景”概念為用戶提供更加具體的業(yè)務(wù)告警對(duì)象,價(jià)值更高。
  3. 更精準(zhǔn)的決策。目前的告警服務(wù)僅僅限于將現(xiàn)場(chǎng)數(shù)據(jù)告知用戶,未來將會(huì)提供給用戶加精準(zhǔn)的輔助決策,以達(dá)到智能化運(yùn)維的目標(biāo)。

反思

設(shè)計(jì)師都是理想主義者,設(shè)計(jì)過程就是一個(gè)理想主義者不斷與這個(gè)世界妥協(xié)的過程,與用戶妥協(xié)、與技術(shù)妥協(xié)、與時(shí)間妥協(xié),但這也體現(xiàn)體驗(yàn)設(shè)計(jì)的魅力:圍繞用戶需求進(jìn)行快速迭代。

“設(shè)計(jì)沒有好與壞,只有合不合適”

 

作者:胡欣欣,公眾號(hào):吹拉彈唱大師(ID:cltcds)

本文由@吹拉彈唱大師 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash, 基于CC0協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 發(fā)現(xiàn)原型一個(gè)小細(xì)節(jié)錯(cuò)誤,告警消息標(biāo)題上面的一張圖,異常數(shù)環(huán)比那個(gè)例子,原型寫的告警類型還是異常數(shù),??

    來自江蘇 回復(fù)
  2. 求問畫體驗(yàn)地圖的工具是啥呀~

    來自廣東 回復(fù)
  3. 寫的不錯(cuò),贊一個(gè)。正好最近我在做一個(gè)監(jiān)控系統(tǒng)的設(shè)計(jì),冒昧問下,線下能否深度交流呢?

    回復(fù)
    1. 可以,公眾號(hào)留言,加你微信

      回復(fù)
  4. 你好請(qǐng)問一下,參考行業(yè)相關(guān)產(chǎn)品,這些產(chǎn)品在哪里可以找到并體驗(yàn)?zāi)兀?/p>

    來自廣東 回復(fù)
    1. 阿里云、華為云

      來自江蘇 回復(fù)
  5. 寫得很棒,想問一下:如果用一個(gè)可量化的指標(biāo)衡量你的產(chǎn)品價(jià)值,這個(gè)指標(biāo)是什么?

    來自廣東 回復(fù)
    1. 以結(jié)果為導(dǎo)向的話,就是:告警消息的準(zhǔn)確率

      來自江蘇 回復(fù)