實踐復(fù)盤丨如何完整地進行一次可用性測試
可用性測試是通過觀察有代表性的用戶,完成產(chǎn)品的典型任務(wù),發(fā)現(xiàn)產(chǎn)品的可用性問題,達(dá)到改善產(chǎn)品的目的。本文將按照測試前準(zhǔn)備、測試執(zhí)行、結(jié)果整理三大模塊進行展開,總結(jié)其中需要注意的地方。
一、測試準(zhǔn)備
這部分包括資料收集、相關(guān)材料準(zhǔn)備、用戶招募等
1. 資料收集
可用性測試本質(zhì)上也是一種研究類型的工作,作為研究類的工作,那么做一些前期的資料收集也是有必要的,這有助于幫助我們界定需要研究的主要問題,好比我們在寫論文的過程中,需要先閱讀相關(guān)的文獻(xiàn)。
在資料的收集方式上,主要有以下幾種方式:
(1)定性訪談
前期可以找一些用戶,尤其是產(chǎn)品使用經(jīng)驗比較久的用戶進行訪談,這個訪談可以盡量發(fā)散,不局限于某一功能和某一方面,這樣能夠比較全面的了解產(chǎn)品的相關(guān)功能信息。
(2)焦點小組
組織一次小范圍的討論,了解大家對于產(chǎn)品的使用情況和反饋。
(3)研究競品
如果產(chǎn)品有相應(yīng)的競品,也可以進行競品分析,對比彼此在功能上的差異性。
(4)其他包括參考相關(guān)的研究報告、相關(guān)的可用性測試案例等
在本次研究中,我們找了5名有產(chǎn)品使用經(jīng)驗(都在三年以上)的用戶進行了訪談,并且也對競品進行了研究,然后我們將得到的結(jié)果進行初步的整理歸納。前期的資料收集可以根據(jù)項目的整體進度安排時間,建議訪談一定要做,其他可選。
2. 材料準(zhǔn)備
需要準(zhǔn)備的材料主要包括:可用性測試腳本、任務(wù)條、相關(guān)評估量表、禮物簽收表、測試的產(chǎn)品及版本號、相關(guān)記錄(錄音、錄像、計時器等)工具
(1)可用性測試腳本
測試腳本是指導(dǎo)測試進行的工具,內(nèi)容包括:基本信息、測試指導(dǎo)語、場景任務(wù)、任務(wù)評分題、事后訪談問題。
1)基本信息
一般包括被試的姓名、性別、產(chǎn)品使用經(jīng)驗、測試開始/結(jié)束時間、主持人、記錄員等。
2)測試指導(dǎo)語
向被試介紹測試的目的,需要注意的事項等,測試前也可以做一個簡短的訪談,了解用戶對產(chǎn)品的使用情況,幫助用戶將注意力轉(zhuǎn)移到產(chǎn)品上,為測試做準(zhǔn)備。
3)場景任務(wù)
根據(jù)測試的目的,選取需要測試的功能,在此基礎(chǔ)上,將任務(wù)場景化,這樣更符合用戶平時的使用習(xí)慣,也避免生硬的表達(dá),這里需要注意兩點:
a. 在任務(wù)場景化的過程中,避免提及與測試功能有關(guān)的詞匯,以免對用戶造成暗示。
- 錯誤示例:請搜索聯(lián)系人XXX,并給他發(fā)送消息
- 正確示例:在系統(tǒng)中找到聯(lián)系人XXX,并告知他下午要開會
b. 任務(wù)應(yīng)該涉及詳細(xì)的操作,而不是籠統(tǒng)的描述
- 錯誤示例:請發(fā)送一次會議邀請
- 正確示例:請發(fā)送一次會議邀請,時間為XXXX,參會人員為XXXX,會議地點為XXXX,會議主題是XXXX
4)任務(wù)評分題
在每一次任務(wù)完成后,可以讓用戶對任務(wù)進行評分,注意評分要有相同的維度,否則無法進行統(tǒng)計。比如可以從產(chǎn)品功能的滿意度、操作的便捷性滿意度進行評分,評分可以采取5分制或者7分制。
最后統(tǒng)計的時候可以分別計算產(chǎn)品的功能滿意度和操作滿意度總平均分,將單一任務(wù)的平均分與總平均分進行參照對比,了解用戶對功能的評價情況。
5)事后訪談
在完成每一次的操作任務(wù)后,可以對用戶進行訪談,訪談的邏輯可以參考“基于過去和現(xiàn)狀,你的期望是什么”,因此提問的方式可以參考:
- “在平時使用的過程中,您有遇到什么問題嗎?您是怎么處理的?”
- “目前的功能能否滿足您的使用需要,您認(rèn)為還需要哪些功能?”
(2)任務(wù)條
1)將任務(wù)條裁剪成相同大小,消除挑選時外觀的誤差影響
測試的任務(wù)條盡量做成相同大小,進行裁剪,這樣在挑選單條任務(wù)給用戶進行操作時,不容易受外觀不同這一誤差的影響,保證能夠隨機挑選。鑒于大部分用研都不是專業(yè)的設(shè)計師,任務(wù)卡片可以直接在Word中插入一行表格的形式,空行保證相同,這樣裁剪的時候大小就一致了。
2)任務(wù)隨機進行,消除順序效應(yīng)的影響
每次測試的時候?qū)㈨樞蜻M行打亂,消除順序效應(yīng)的影響,避免前面的操作對后面產(chǎn)生影響。
(3)其他的材料包括評估量表(一般可以采用SUS量表進行評分)、禮物簽收表等
3. 用戶招募
用戶招募的關(guān)鍵之處在于所招募的用戶要具有代表性,數(shù)量一般在10名左右即可。可以根據(jù)產(chǎn)品后臺的使用數(shù)據(jù),了解用戶的群體特征是怎樣的,比如設(shè)備類型、性別比例、年齡分布等,這些即構(gòu)成招募的條件,然后我們可以對招募的用戶信息進行整理。
二、測試執(zhí)行
這一部分是整個測試的關(guān)鍵環(huán)節(jié),操作執(zhí)行的好壞直接影響到整個可用性測試的結(jié)果。在操作執(zhí)行中,最重要的就是觀察和記錄用戶的行為。這里需要注意幾點:
(1)在用戶操作的時候盡量不要打擾用戶,觀察和記錄疑問的地方,事后再進行訪談
比如:用戶可能操作的時候出現(xiàn)遲疑,做思考狀,事后可詢問原因是什么。
(2)用戶所說的固然重要,但用戶所做的更加重要
不管用戶如何說,堅持讓他完整操作一遍任務(wù)
在測試中,我們發(fā)現(xiàn),有用戶認(rèn)為這一任務(wù)很簡單,因此只是大致向我們示意了一下,實際并沒有完整的執(zhí)行這個任務(wù),當(dāng)我們要求他完整執(zhí)行整個任務(wù)流程時,依然發(fā)現(xiàn)了一些問題,因此一定要讓用戶執(zhí)行任務(wù)操作,而不是簡單示意,或者說“這個任務(wù)很簡單,我知道怎么做,就不用演示了”等之類的話語。
當(dāng)提問用戶關(guān)于某一功能模塊的問題時,可讓用戶邊看邊回答
對于很多的產(chǎn)品功能模塊,或許我們平時已經(jīng)使用較為成熟,已經(jīng)習(xí)以為常,但如果是在不看著產(chǎn)品的情況下,我們并一定能夠進行完整回憶。比如我們?nèi)粘J褂玫奈⑿牛淞奶鞂υ捒蚶锩娴墓δ?,我相信很少有人能夠在不看著的情況下完整說出來。因此,當(dāng)提問用戶具體某一模塊的功能相關(guān)問題時,可以提示用戶邊看邊進行回答。
鼓勵用戶進行操作時進行“發(fā)聲思維”
所謂“發(fā)聲思維”,就是讓用戶邊操作時,邊口述自己的想法。
不僅要記錄顯性的回答話語,也要記錄隱性的行為和表情等
用戶的回答揭示了其個人的感受和體驗,這是我們需要關(guān)注和記錄的,但用戶在操作中的行為和表現(xiàn)出來的情緒,也是值得關(guān)注的,更何況在某些情況下人的言語與行為存在不一致的情況。
因此在記錄時,既要記錄用戶的言語回答,也可以括號備注用戶的行為和表情中隱性的信息,這樣事后看記錄結(jié)果時,也能夠聯(lián)想起當(dāng)時的場景,當(dāng)然這對用研人員的觀察力提出了一定的要求。
三、結(jié)果整理
1. 原始結(jié)果的整理記錄
這一部分的整理記錄,應(yīng)盡可能詳細(xì),方便后續(xù)核對和查閱,形式可以整理如下:
2. 結(jié)果分析整理
結(jié)果分析整理可以從定量和定性結(jié)果兩方面進行,定量的結(jié)果可以分析任務(wù)的完成情況、任務(wù)的滿意度等,并借助可視化的圖表進行展現(xiàn),比如:
(1)統(tǒng)計任務(wù)的滿意度評分情況,并與總均值進行比較,對于評分比較低的功能則需要引起注意
(2)統(tǒng)計任務(wù)的完成情況
任務(wù)完成一般可以分為一次完成、多次嘗試完成、經(jīng)提示完成、任務(wù)失敗四種情況,不同的完成情況用不同的色塊表示,然后統(tǒng)計完成率情況,整理結(jié)果可以參考如下:
(3)定性結(jié)果的整理
根據(jù)用戶回答的情況,進行概括總結(jié),歸納問題點集中表現(xiàn)在哪些方面,可以整理為:
功能三,操作交互體驗不佳:
①長按提示功能沒有整合
②滑動跳轉(zhuǎn)不符合正常操作習(xí)慣
……
(4)撰寫測試研究報告
將得到的結(jié)果進行凝練總結(jié),形式上按照“總-分-總”的格式進行,內(nèi)容上按照“提出問題-給予建議-后續(xù)研究”的線索進行撰寫。報告要具有一定的結(jié)構(gòu)性和提煉總結(jié),做到條理清晰,有總結(jié)和挖掘,同時能夠提供的意見和建議以及后續(xù)的研究進展和方向等前瞻性的內(nèi)容。
本文由 @?Samuel 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自unsplash,基于CC0協(xié)議
感謝分享!不過有個疑問,可用性測試對樣本量要求通常是6-8人(質(zhì)性研究樣本量),SUS或者ASQ、SEQ這類量表樣本要求通常是20-30(量化研究樣本量),兩種研究方法對樣本量的要求不一致,能這么混用嗎?
可用性測試本質(zhì)上是一種定性的研究方法,用戶的實際操作場景和行為特點是更為關(guān)鍵的。量表在此過程中更多的是一種輔助作用,不是占主要的。