后臺產(chǎn)品方法論:如何設(shè)計(jì)監(jiān)控功能?

4 評論 16681 瀏覽 170 收藏 13 分鐘

監(jiān)控功能是后臺產(chǎn)品中既常用也重要的功能,主要起到異常預(yù)警和異??刂频淖饔谩1酒恼轮饕U釋如何打造監(jiān)控功能。

01 什么是監(jiān)控功能?

監(jiān)控功能是指針對某項(xiàng)數(shù)據(jù)或某項(xiàng)業(yè)務(wù)流程進(jìn)行系統(tǒng)層面的定時掃描和執(zhí)行控制措施,旨在定位目標(biāo)數(shù)據(jù)中的風(fēng)險或發(fā)現(xiàn)業(yè)務(wù)流程中的問題,并通過系統(tǒng)采取必要的自動化控制手段并沉淀相關(guān)數(shù)據(jù)。

監(jiān)控功能是后臺系統(tǒng)中的輕量級應(yīng)用,一般較多的涉及數(shù)據(jù)、邏輯層面,較少的涉及界面原型設(shè)計(jì)。

02 為什么需要監(jiān)控功能?

任何公司在運(yùn)營一段時間以后,都會產(chǎn)生數(shù)據(jù),這些數(shù)據(jù)可能是與業(yè)務(wù)目標(biāo)直接相關(guān)的核心指標(biāo)。

對于電商產(chǎn)品而言,是GMV、是利潤;對于社交、短視頻等c端產(chǎn)品而言,是DAU、MAU。

這些數(shù)據(jù)一般出現(xiàn)在Dashboard面板上,由于業(yè)務(wù)部門、產(chǎn)品部門每天都在看,當(dāng)出現(xiàn)業(yè)務(wù)指標(biāo)的數(shù)據(jù)浮動時,即使不設(shè)置針對關(guān)鍵業(yè)務(wù)指標(biāo)的監(jiān)控功能,也一樣能很快發(fā)現(xiàn)問題。對于核心指標(biāo)的監(jiān)控,重點(diǎn)不在于發(fā)現(xiàn)問題,而在于快速定位問題的原因,并進(jìn)行自動化的控制。

而一些隱藏較深的間接數(shù)據(jù),是從側(cè)面影響核心數(shù)據(jù)的,而這個影響可能具有滯后性。如果能在其影響核心數(shù)據(jù)前,監(jiān)控間接數(shù)據(jù),并及時采取控制措施,那么可以將業(yè)務(wù)損失降至最低,影響范圍降至最小。

03 監(jiān)控的核心要素

監(jiān)控的核心要素為監(jiān)控的對象及其限定條件、監(jiān)控的時間范圍或監(jiān)控的數(shù)量級、系統(tǒng)執(zhí)行的時間和頻次、觸發(fā)條件、處理機(jī)制。

1. 監(jiān)控對象及其限定條件

如果監(jiān)控對象是利潤,這個數(shù)據(jù)是系統(tǒng)已有的,也不需要限定條件,直接對利潤監(jiān)控即可。

如:當(dāng)利潤≤0時,這個就是一個明確的監(jiān)控對象。

如果監(jiān)控對象是某項(xiàng)復(fù)雜業(yè)務(wù)流程,那必須明確說明選取對象的規(guī)則。

如:針對首次充值訂單,且充值時間在30分鐘以內(nèi)的所有訂單進(jìn)行監(jiān)控。

2. 監(jiān)控的時間范圍或數(shù)量級

根據(jù)不同業(yè)務(wù)的數(shù)據(jù)量級不同,選擇合適的監(jiān)控時間范圍,對于利潤,半小時內(nèi)已經(jīng)足以產(chǎn)生波動較大的數(shù)據(jù),根據(jù)利潤的數(shù)據(jù)波動情況進(jìn)行數(shù)據(jù)分析,選擇合適的時間范圍進(jìn)行監(jiān)控,選擇最小產(chǎn)生明確利潤波動的時間單位。

假設(shè)通過數(shù)據(jù)分析得出該類產(chǎn)品訂單量和供貨渠道都相當(dāng)不穩(wěn)定,10分鐘就可能產(chǎn)生利潤相差較大的結(jié)果。

那么在定義該產(chǎn)品監(jiān)控時間范圍時,選擇監(jiān)控近10分鐘的數(shù)據(jù)。通常這個時間尺度越小,則控制起來風(fēng)險越小。

以上情況適用于數(shù)據(jù)在時間分布中是均勻的,那么對于一些數(shù)據(jù)分布不均勻的業(yè)務(wù)而言,應(yīng)該使用累計(jì)數(shù)量劃定監(jiān)控范圍。

比如異常訂單,它的出現(xiàn)往往伴隨著隨機(jī)性,出現(xiàn)的時間完全不可控。那么就應(yīng)該設(shè)定:監(jiān)控近x筆異常訂單中,異常問題定義為無狀態(tài)碼的訂單。

3. 系統(tǒng)執(zhí)行的時間和頻次

系統(tǒng)執(zhí)行時間一般有:

  1. 設(shè)置固定時間點(diǎn)執(zhí)行;
  2. 設(shè)置固定的間隔時間執(zhí)行。

選擇1意味著業(yè)務(wù)流程,可能含有更多人工干涉的因素;或者系統(tǒng)在執(zhí)行其他程序時與此程序有些不兼容的問題,比如前置條件和后置條件,為防止程序產(chǎn)生沖突,設(shè)置固定的時間點(diǎn)執(zhí)行。

選擇2則意味著業(yè)務(wù)數(shù)據(jù)在時間分布上是均勻的。

間隔時間的設(shè)置跟業(yè)務(wù)的響應(yīng)時間成正比,業(yè)務(wù)越需要快速響應(yīng)的,執(zhí)行的頻次越高。如利潤屬于公司核心指標(biāo),出現(xiàn)虧損是不可接受的,所以響應(yīng)時間要盡可能快,間隔時間可設(shè)置為5分鐘或10分鐘執(zhí)行一次。

即使選擇了按照固定頻次執(zhí)行,也不意味著萬事大吉。產(chǎn)品人員還需要與技術(shù)協(xié)商好該程序幾點(diǎn)開始執(zhí)行,執(zhí)行一次的時間大概是多少秒,執(zhí)行程序是否會對關(guān)聯(lián)數(shù)據(jù)產(chǎn)生影響。

4. 觸發(fā)條件

監(jiān)控既然是對業(yè)務(wù)中風(fēng)險進(jìn)行控制,那么必然需要有響應(yīng)的觸發(fā)條件。

觸發(fā)條件主要依賴于閾值的設(shè)置,通過閾值的靈活設(shè)置,可以讓業(yè)務(wù)部門隨時根據(jù)業(yè)務(wù)情況自行配置相關(guān)閾值。如下圖所示:

當(dāng)達(dá)成觸發(fā)條件時,系統(tǒng)會執(zhí)行相應(yīng)程序。

5. 處理機(jī)制

處理機(jī)制一般為告警和系統(tǒng)自動執(zhí)行。

(1) 告警按照問題出現(xiàn)的嚴(yán)重程度,采取不同的告警措施:

  1. 數(shù)據(jù)波動幅度較大,情況緊急,設(shè)置電話通知的告警方式,保證消息及時收到,業(yè)務(wù)人員可以及時處理(即使在非工作日遇到緊急情況也能迅速處理);
  2. 數(shù)據(jù)波動幅度一般,對于時間要求較寬松的,采用短信通知的告警方式,業(yè)務(wù)人員看到后處理即可;
  3. 數(shù)據(jù)波動較小,處理或不處理影響不大的,或僅做通知用途的,可采用系統(tǒng)推送消息的方式告警。如果是日常運(yùn)營內(nèi)容,如工單的處理、審核等(數(shù)據(jù)量小,頻次不高的情況),也可采用系統(tǒng)推送的方式。

當(dāng)對某項(xiàng)業(yè)務(wù)數(shù)據(jù)進(jìn)行告警時,告警信息務(wù)必明清晰告警內(nèi)容主體,告警相關(guān)數(shù)據(jù),該主體對應(yīng)設(shè)置的閾值,便于第一時間明確問題出現(xiàn)的層次和范圍,查找更深層次的原因并進(jìn)行控制。

(2) 另外一種處理機(jī)制是系統(tǒng)強(qiáng)制執(zhí)行,控制目標(biāo)產(chǎn)品下架、強(qiáng)制關(guān)閉某功能。

一般為達(dá)到止損或減損的目的,通常配合告警信息同步使用,一方面起到通知的作用,另一方面便于后續(xù)查找問題。

所有的超過閾值和相關(guān)處理措施都應(yīng)該形成日志記錄,如需要后續(xù)迭代和分析數(shù)據(jù)的,則需要形成完整和規(guī)范的數(shù)據(jù)報(bào)表,并且需要導(dǎo)出功能。

04 監(jiān)控的其他輔助功能

1. 主監(jiān)控頁面

主要以表單頁面呈現(xiàn),對于處理需求頻次較高的業(yè)務(wù),或比較重要的業(yè)務(wù),需要設(shè)計(jì)該頁面。

如果監(jiān)控的產(chǎn)品處理頻次低,告警頻次低,則不必設(shè)計(jì)該頁面??筛鶕?jù)處理的操作不同區(qū)分不同的監(jiān)控產(chǎn)品,如產(chǎn)品強(qiáng)制下架的劃分為一類,產(chǎn)品訂單限制的劃分為一類,分類方法沒有局限,主要根據(jù)業(yè)務(wù)需求。

表單頁面設(shè)計(jì),必須包含監(jiān)控主題、統(tǒng)計(jì)范圍、數(shù)據(jù)相關(guān)閾值、觸發(fā)動作、詳情等,如下圖示例:

2. 數(shù)據(jù)統(tǒng)計(jì)功能

監(jiān)控功能的設(shè)計(jì)不是一蹴而就的,先設(shè)計(jì)出基本的功能,然后再憑借數(shù)據(jù)統(tǒng)計(jì)功能分析數(shù)據(jù),掌握其中數(shù)據(jù)的規(guī)律,做好下次迭代。

一般針對數(shù)據(jù)較復(fù)雜、設(shè)置閾值不清晰、產(chǎn)品需要個性化閾值方案的監(jiān)控功能。

同樣以表單頁面進(jìn)行呈現(xiàn),數(shù)據(jù)統(tǒng)計(jì)一般根據(jù)業(yè)務(wù)需要,每隔一段時間生成一組數(shù)據(jù),字段需要包含監(jiān)控主體、閾值相關(guān)的所有數(shù)據(jù)(如時長、訂單數(shù)、統(tǒng)計(jì)時間段等)、是否觸發(fā)動作、統(tǒng)計(jì)時間等。

需要導(dǎo)出功能以方便分析,另外數(shù)據(jù)統(tǒng)計(jì)需要和設(shè)置閾值的統(tǒng)計(jì)頻次盡量保持一致。

3. 操作記錄功能

不一定所有執(zhí)行動作都是系統(tǒng)完成的,人工也有可能操作。處于風(fēng)險管理的需要和追責(zé),需要記錄所有操作的操作人,操作人一般為系統(tǒng)和具體人名。字段包含操作內(nèi)容、操作人、操作時間。

不光是對于產(chǎn)品的操作需要操作人,對于閾值的操作也需要操作人,比如誰調(diào)整了相關(guān)閾值,這些都是需要記錄下來的。

4. 閾值配置功能

閾值配置一般適用于觸發(fā)條件會隨著業(yè)務(wù)需求變化的情況,這樣方便業(yè)務(wù)操作人員根據(jù)業(yè)務(wù)需求靈活調(diào)整閾值配置?;蛘弋a(chǎn)品繁多,各個產(chǎn)品都需要配置個性化的閾值方案。

閾值配置也并非一味的追求靈活配置,需要非常清楚這些閾值對業(yè)務(wù)的影響,部分?jǐn)?shù)據(jù)需要可配置的方式,而一些數(shù)據(jù)固定后臺寫死比較好,一方面出于風(fēng)險控制考慮,配置越靈活,越有可能出錯;另一方面考慮到開發(fā)成本,配置項(xiàng)過多的,開發(fā)難度越大。

而一些業(yè)務(wù)對于時間不敏感的,可以長期使用一套固定的閾值方案,那么可以不設(shè)計(jì)配置功能。

05 其他注意事項(xiàng)

  1. 后臺產(chǎn)品核心就是業(yè)務(wù),一切都在滿足核心業(yè)務(wù)需求的基礎(chǔ)上提高用戶體驗(yàn),原型圖不追求高大上,也不能一開始就把原型畫的很完善。先出一個簡單的功能邏輯、流程圖,描述你將要做的功能是什么,先進(jìn)行內(nèi)部的業(yè)務(wù)評審,評審?fù)ㄟ^后再著手完善原型和文檔;
  2. 監(jiān)控類產(chǎn)品的核心在于閾值的設(shè)置、監(jiān)控范疇、統(tǒng)計(jì)頻次、統(tǒng)計(jì)時長、數(shù)據(jù)敏感度這些抽象邏輯層面,而不是具象化的原型demo,所以事先做好業(yè)務(wù)需求調(diào)研和數(shù)據(jù)分析非常重要,這樣在設(shè)計(jì)功能時才能有的放矢;
  3. 監(jiān)控類產(chǎn)品不能一開始就追求大而全,先重點(diǎn)解決對業(yè)務(wù)影響較大的、急需監(jiān)控的數(shù)據(jù),保證核心功能的可用性,再通過數(shù)據(jù)沉淀分析數(shù)據(jù),逐步細(xì)化產(chǎn)品需求,并逐漸迭代產(chǎn)品;
  4. 后臺產(chǎn)品大部分頁面都是在設(shè)計(jì)表單頁面,必須清晰明白哪些字段屬于核心信息,哪些信息屬于不必要信息,精簡字段,字段太多也會影響查詢效率的。

 

本文由 @交響樂的口技現(xiàn)場 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于CC0協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 很有幫助,感謝!

    來自浙江 回復(fù)
  2. 拿我們產(chǎn)品后臺套進(jìn)去 是這么個邏輯

    回復(fù)
  3. 辛苦了!

    來自上海 回復(fù)
    1. 謝謝支持

      來自北京 回復(fù)