可用性測(cè)試,到底需要找多少個(gè)用戶?
可用性測(cè)試到底需要多少參與者?本文作者經(jīng)常被問(wèn)及。由五名參與者進(jìn)行的可用性研究將發(fā)現(xiàn)超過(guò) 80% 的界面問(wèn)題,他介紹得出該結(jié)論的依據(jù),并且統(tǒng)計(jì)抽樣方法也得出了相同結(jié)論。5-10 名參與者是一個(gè)合理的基線范圍,應(yīng)在每次研究之前進(jìn)行評(píng)估,并附上了需要考慮的一些事項(xiàng)。
人們經(jīng)常問(wèn)我:我們的可用性測(cè)試需要找多少個(gè)用戶?
這個(gè)問(wèn)題是用研人員和利益相關(guān)者間存在大量爭(zhēng)論的根源。作為專業(yè)人士,我們的目標(biāo)是可靠性與業(yè)務(wù)目標(biāo)及其他影響因素(例如時(shí)間和預(yù)算)之間取得平衡。這意味著我們應(yīng)識(shí)別出不同樣本量測(cè)試中潛在的風(fēng)險(xiǎn)和影響,并為不同研究項(xiàng)目推薦最佳的小組人數(shù)規(guī)?!?/p>
通常,在不清楚可用性測(cè)試內(nèi)如何及什么環(huán)節(jié)使用這些用戶,用研人員就接受了關(guān)于可用性研究流行的人數(shù)建議。典型例子是尼爾森 (Nielsen) 的建議:“由五名參與者進(jìn)行的可用性研究將發(fā)現(xiàn)超過(guò) 80% 的界面問(wèn)題”。這個(gè)著名的建議基于維爾奇 (1992) 和尼爾森 (1993) 的研究。
根據(jù)麥斯菲爾德 (2009) 的說(shuō)法,他們是這樣得出這個(gè)結(jié)論的:“100 組 5 名用戶參加發(fā)現(xiàn)界面問(wèn)題。該研究的確發(fā)現(xiàn),在所有 100 組中發(fā)現(xiàn)的問(wèn)題的平均百分比約為 85%。然而,這個(gè)數(shù)字有 95 % 的置信水平和 ±18.5% 的誤差范圍。這意味著對(duì)于任何一個(gè)特定五人組,發(fā)現(xiàn)問(wèn)題的百分比有 95% 的可能性在 66.5%-100% 的范圍內(nèi)。事實(shí)上,一些五人組確實(shí)(實(shí)際上)識(shí)別了所有問(wèn)題;然而,一個(gè)五人組只發(fā)現(xiàn)了 55% 的問(wèn)題?!?/p>
最近,??思{ (2003) 嘗試使用統(tǒng)計(jì)抽樣方法回答同樣的問(wèn)題。她發(fā)現(xiàn),平均而言,尼爾森的預(yù)測(cè)是正確的。在 100 次模擬測(cè)試中測(cè)試 5 名用戶,發(fā)現(xiàn)平均 85% 的可用性問(wèn)題是在更大的群體中發(fā)現(xiàn)的。然而,當(dāng)仔細(xì)查看數(shù)據(jù)時(shí),由 5 名參與者組成的小組發(fā)現(xiàn)的可用性問(wèn)題的范圍從幾乎 100% 到只有 55%(類似于早期的研究)。這對(duì)用研人員意味著什么?當(dāng)我們只依賴 5 名用戶時(shí),我們冒著錯(cuò)過(guò)幾乎一半可用性問(wèn)題的風(fēng)險(xiǎn)。
回顧??思{的結(jié)果,我們看到增加參與者的數(shù)量,可以解決問(wèn)題并提高研究結(jié)果的可靠性。更具體地說(shuō),10 名參與者平均可以發(fā)現(xiàn) 95% 的問(wèn)題(范圍從82% 到 100%)。參與者增加到 15 名可以平均識(shí)別 97% 的問(wèn)題(范圍為 90% 到 100%)。
福克納 (2003) 的表格顯示了不同的參與者群體規(guī)模如何影響研究達(dá)到問(wèn)題發(fā)現(xiàn)的水平。
當(dāng)然,招募超過(guò) 5 名用戶并不總是可行的,而且我們不希望一次發(fā)現(xiàn)所有可用性問(wèn)題!那么應(yīng)該怎么做呢?
就像用戶研究存在諸多方面,沒(méi)有一種適合所有方面的方法我們可以采用!答案取決于許多因素,應(yīng)在每次研究之前進(jìn)行評(píng)估。需要考慮的一些因素如下:
- 研究的影響結(jié)果:如果你沒(méi)有盡可能多地發(fā)現(xiàn)可用性問(wèn)題,會(huì)有什么風(fēng)險(xiǎn)?與測(cè)試購(gòu)物 app 中的新功能相比,測(cè)試一個(gè)以人們生命為代價(jià)的系統(tǒng)時(shí),可用性問(wèn)題帶來(lái)的風(fēng)險(xiǎn)會(huì)更高。影響越大,你應(yīng)該招募的參與者就越多。
- 正在測(cè)試的產(chǎn)品/系統(tǒng)的復(fù)雜性:最佳小組規(guī)模應(yīng)受研究復(fù)雜性的影響,更復(fù)雜的研究需要更多的參與者。可以通過(guò)一些標(biāo)準(zhǔn)來(lái)評(píng)估研究的復(fù)雜性:被測(cè)系統(tǒng)的復(fù)雜性、所用任務(wù)的范圍和復(fù)雜性、參與者的多樣性等。
- 目標(biāo)用戶群體:如果你正在開(kāi)發(fā)存在不同用戶類型的產(chǎn)品,你測(cè)試來(lái)自所有類型的用戶以獲得有效結(jié)果。例如,如果你有兩種不同的用戶類型,你需要從每個(gè)類型(例如5個(gè)賣(mài)家和 5個(gè)買(mǎi)家)中招募一個(gè)具有代表性的用戶樣本。
- 開(kāi)發(fā)周期的階段:位于越早的開(kāi)發(fā)過(guò)程,就越有可能發(fā)現(xiàn)影響產(chǎn)品功能的嚴(yán)重錯(cuò)誤。因此,可以從招募較小的樣本開(kāi)始。隨著產(chǎn)品變得更改善和更優(yōu)化,可用性問(wèn)題更難發(fā)現(xiàn),需要更大的樣本。
- 用戶必須使用的主線任務(wù):測(cè)試的任務(wù)越多越復(fù)雜,需要的用戶就越多。當(dāng)要求用戶完成基礎(chǔ)的主線任務(wù)時(shí),你可以使用較小的樣本量。
- 研究目的:研究目的會(huì)影響我們需要招募多少用戶。例如,出于政治原因(比如說(shuō)服利益相關(guān)者)進(jìn)行可用性研究需要小樣本(2-3名參與者),但如果想測(cè)試新產(chǎn)品的可用性,則需要更大的樣本來(lái)幫助我們發(fā)現(xiàn)盡可能多的問(wèn)題。
根據(jù)麥斯菲爾德 (2009) 的評(píng)論,可以證明:“對(duì)于大多數(shù)發(fā)現(xiàn)問(wèn)題的研究,3-20 名用戶的小組規(guī)模是有效的,5-10 名參與者是一個(gè)合理的基線范圍,并且小組規(guī)模應(yīng)該隨著研究的復(fù)雜性和背景的重要性而增加”。
注意:如果測(cè)試質(zhì)量差,再多用戶參與都無(wú)濟(jì)于事……
研究表明,可用性測(cè)試的結(jié)果很大程度上取決于評(píng)估者(雅各布森和赫茨姆研究,2001)。例如,使用無(wú)效的測(cè)試任務(wù)或不正確地促進(jìn)會(huì)話??捎眯詼y(cè)試中的錯(cuò)誤并不少見(jiàn) —— 即使是有經(jīng)驗(yàn)的研究人員也會(huì)犯錯(cuò)。
正如莫利奇 (2010) 建議的那樣,如果我們使用糟糕的方法,無(wú)論參與群體的人數(shù)規(guī)模如何,研究的結(jié)果都會(huì)很糟糕…… 選擇正確的方法并努力防止評(píng)估者的錯(cuò)誤應(yīng)該是首要事項(xiàng)。
原文作者:Dr Maria Panagiotidi(本文翻譯已獲得作者的正式授權(quán))
原文:uxpsychology.substack.com/...
譯者:周佳悅;審核:徐曼鷺;編輯:孫淑雅;微信公眾號(hào):TCC翻譯情報(bào)局(ID:TCC-design);連接知識(shí),了解全球精選設(shè)計(jì)干貨
原標(biāo)題:用戶研究 |你的可用性測(cè)試到底需要多少人
本文由@TCC翻譯情報(bào)局 翻譯發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來(lái)自 Unsplash,基于 CC0 協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
- 目前還沒(méi)評(píng)論,等你發(fā)揮!