做可用性測試時,只需要5名用戶參與測試就夠了

1 評論 12822 瀏覽 35 收藏 10 分鐘

精心設計可用性測試無疑是浪費資源。最佳的結果是測試用戶不超過 5 個用戶,在測試過程中盡可能多地采用小測試。

測試用戶數(shù)量曲線

有些人認為可用性是非常昂貴和復雜的,用戶測試應該預留給罕見的網頁設計項目(補充,目前常見的多是應用或者服務等產品),而且預算龐大、時間表繁瑣。

其實,不是這樣的。精心設計可用性測試無疑是浪費資源。最佳的結果是測試用戶不超過 5 個用戶,在測試過程中盡可能多地采用小測試。

在早先的研究中,Tom Landauer 和我表明,在 n 個用戶的可用性測試中發(fā)現(xiàn)的可用性問題的數(shù)量是:

N (1-(1- L ) n )

其中: N 是設計中可用性問題的總數(shù),L 是測試單個用戶時發(fā)現(xiàn)的可用性問題的比例。 L 的典型值為 31%,在我們研究的大量項目中取平均值。

繪制 L = 31% 的曲線得出以下結果:

曲線中,最引人注目的事實是:零用戶給出的洞察數(shù)為零。

只要你從一個測試用戶那里收集數(shù)據,洞察數(shù)就會出現(xiàn),你已經學會了近三分之一的知識來了解設計的可用性——零和即便是一點點數(shù)據之間的差異是驚人的。

當你測試第二個用戶時,你會發(fā)現(xiàn)這個人和第一個用戶做了一些相同的事情,所以你掌握的東西有一些重疊。人們是完全不同的,所以從第二個用戶那,也會有一些第一個用戶那沒有的新的東西出現(xiàn)。所以從第二個用戶那也會增加一些新的洞察力,但不像第一個用戶那么多。

第三個用戶會做很多事情,這些事你已經從觀察過的第一個用戶或第二個用戶那觀察過了,甚至有些事情你已經看過兩次了;此外,第三位用戶當然也將產生少量新數(shù)據,這些數(shù)據僅是第三位用戶產生的。

隨著添加越來越多的測試用戶,你能獲得的越來越少,因為你會一次又一次地看到相同的內容。真的沒有必要多次持續(xù)觀察同一件事,并且你將很樂意回到繪圖板并重新設計網站或者產品,以消除可用性問題。

在第五位用戶后,通過反復觀察相同的發(fā)現(xiàn)而浪費了時間,但沒有獲得太多的新東西。

迭代設計

曲線清楚地表明:你需要測試至少 15 個用戶才能發(fā)現(xiàn)設計中的所有可用性問題。

那么,為什么我建議用更少的用戶進行可用性測試呢?

主要原因是最好是在許多小測試中分配用戶測試的預算,而不是在單個精細的研究中將所有內容都放在一起。讓我們假設你有資金招募 15 位典型客戶并讓他們參與你的測試。將這些預算用在每組 5 個用戶的 3 項研究上!

你想進行多個測試,因為可用性工程的真正目標是改進設計,而不僅僅是記錄它的缺點。在進行 5 名參與者的第一次研究發(fā)現(xiàn)了 85% 的可用性問題后,你將需要在重新設計中解決這些問題。

重新設計之后,你需要再次進行測試。盡管我說重新設計應該“解決”第一次研究中發(fā)現(xiàn)的問題,但事實是,你認為重新設計可以克服這些問題。但由于沒有人可以設計出完美的用戶界面,因此不能保證新設計確實能夠解決問題。第二次測試會發(fā)現(xiàn)重新設計是否有效。而且,在引入新設計時,即使舊的可用性問題得到修復,總會有引發(fā)新的可用性問題的風險。

此外,另外 5 名用戶的第二輪測試將發(fā)現(xiàn)第一輪測試中未發(fā)現(xiàn)的 15% 的原始可用性問題中的大部分。(仍然會殘留 2% 的原始問題 —— 這些將不得不等待第三輪測試才能確定)。

最后,第二輪測試將能夠深入探討網站或產品基本結構的可用性,評估信息架構、任務流程以及與用戶需求匹配等問題。在最初的研究中,這些重要問題常常被模糊處理,因為用戶被愚蠢的“表面級”可用性問題困擾著,這些問題阻礙了他們真正深入使用網站或者產品。

因此,第二輪測試將作為第一輪測試結果的驗證過程,并有助于提供更深入的見解。第二輪測試總是會導致新的(但較小的)可用性問題,并在新一輪的設計中得到修復。同樣的見解也適用于這種重新設計:并非所有的修復都可行;清理界面之后將會發(fā)現(xiàn)一些更深層的問題。因此,還需要第三輪測試。

最終的用戶體驗通過 3 輪測試得到了更多的改進,每組 5 個用戶,每個用戶進行一輪測試,一共 15 個用戶。

為什么不用單個用戶進行每輪測試?

你可能會認為 15 個使用單一用戶的測試甚至比 5 個用戶的 3 輪測試更好。曲線確實表明我們從第一個用戶那里了解的東西,比從任何后續(xù)用戶那里了解的要多得多,所以為什么要繼續(xù)下去?兩個原因:

  • 總是有被單個人的虛假行為誤導的風險,他們可能會以意外或非典型的方式執(zhí)行某些行為。即使 3 個用戶也足以了解用戶行為的多樣性,并洞察什么是獨特的、什么是普遍的。
  • 根據測試的風格,用戶測試的成本效益分析提供了 3-5 個用戶的最佳比例。計劃和運行一項測試總會有一個固定的初始成本:最好在多個用戶的研究結果中降低這個初始成本。

何時測試更多用戶?

當一個網站或者產品有幾個高度不同的用戶群時,你需要測試其他用戶。該公式僅適用于以相當類似的方式使用網站或產品的用戶。

例如,如果你有一個供兒童和家長使用的網站或產品,那么這兩組用戶的行為就會有很大差異,因此有必要與兩組人員進行測試。對于旨在連接采購代理和銷售人員的系統(tǒng)來說也是如此。

即使用戶群體差異很大,兩組的觀察結果仍然會有很大的相似之處。畢竟,所有的用戶都是人。此外,許多可用性問題都與人們與網站或產品互動的基本方式,以及其他網站或產品對用戶行為的影響有關。

在測試多個不同用戶組時,不用像單一用戶組的單個測試那樣,包含每個組的多個成員。觀察之間的重疊將確保——從針對每個組較少人員的測試中——得出更好的結果。我建議:

  • 如果測試兩組用戶,每個類別有 3-4 個用戶
  • 如果測試三個或三個以上的用戶組,則每個類別有3個用戶(你總是希望每個類別至少有3個用戶,這樣就能確保涵蓋組內的各種行為)

參考

Nielsen, Jakob, and Landauer, Thomas K.: “A mathematical model of the finding of usability problems,” Proceedings of ACM INTERCHI’93 Conference (Amsterdam, The Netherlands, 24-29 April 1993), pp. 206-213.

譯文中對 redesign (重新設計)的翻譯,我理解為重新規(guī)劃、調整,包括產品需求、UI/UE、開發(fā)等各個環(huán)節(jié),而不是單指設計 UI/UE 環(huán)節(jié)。

另外,我仔細思考了下這里的可用性測試范圍其實是針對單一功能而言的。為什么?當產品用戶類型不同,層次不同的時候,總體的測試用戶量會變的非常大,但就單一類型的單一層次來說,5 個人基本上就符合文章中提到的范圍了。

 

作者:Jakob Nielsen

原文地址:https://www.nngroup.com/articles/why-you-only-need-to-test-with-5-users/

#專欄作家#

鄭幾塊,人人都是產品經理專欄作家,前新浪微博產品經理。

本文系作者@鄭幾塊 獨家翻譯授權,未經本站許可,不得轉載

題圖來自 Unsplash ,基于 CC0 協(xié)議

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!