卡片分類法解析:究竟要測試多少用戶?
在卡片分類測試中,使用過多的測試用戶會使回報率遞減,但測試至少 15 個用戶,效果將是傳統(tǒng)可用性測試的 3 倍之多。
官網(wǎng)和內(nèi)網(wǎng)設(shè)計(注1)中最大的挑戰(zhàn)之一就是信息架構(gòu):在哪會發(fā)生什么?一個經(jīng)典的錯誤類型就是根據(jù)如何查看內(nèi)容來構(gòu)建信息空間——這往往會導(dǎo)致公司各個部門或信息提供商擁有不同的子網(wǎng)站。
可以通過創(chuàng)建反映用戶查看內(nèi)容的信息架構(gòu)的方式,來提高可用性測試,而不是簡單地鏡像組織結(jié)構(gòu)。在每項企業(yè)內(nèi)部網(wǎng)絡(luò)調(diào)研中,我們發(fā)現(xiàn),當(dāng)企業(yè)重組內(nèi)部網(wǎng)反映員工工作流程時,生產(chǎn)力會高效增長。而在電子商務(wù)中,當(dāng)產(chǎn)品出現(xiàn)在用戶期望找到的類別時,銷售量會增加。
所有這一切都很棒,但如何找出用戶對信息空間的看法,以及他們認(rèn)為每個項目應(yīng)該如何進(jìn)行呢?為了研究這種心智模式,主要的方法是卡片分類法:
- 在索引卡上寫下每個主要項目的名稱(以及簡短描述)。沒錯,就是那種舊式的紙卡片。(注意不要使用讓用戶產(chǎn)生偏向的術(shù)語。)
- 隨意打亂卡片后交給用戶。(招募測試者的標(biāo)準(zhǔn),建議:他們必須是典型用戶,等等)
- 要求用戶將卡片分分類,將同一類的在一起。用戶可以根據(jù)自己的喜好進(jìn)行分類,包括類型的數(shù)量、類型的大小,等等。
- 可選的額外步驟包括:要求用戶將已有的分類分成更大的組、給不同的組和類命名。之后可以針對用于導(dǎo)航標(biāo)簽、鏈接、標(biāo)題和搜索引擎優(yōu)化的單詞和同義詞,給出建議。
由于卡片分類不使用技術(shù),這些 1995 年的組卡方式,在當(dāng)今看來,也并未過時。
一、研究進(jìn)展
富達(dá)投資集團(tuán)擁有一支非常棒的可用性測試團(tuán)隊,由人機(jī)界面設(shè)計高級副總裁 Thomas S. Tullis 博士領(lǐng)導(dǎo)。Tullis 和合著者 Larry Wood 發(fā)布過一項研究結(jié)果,該研究測量了在卡片分類練習(xí)中測試各種用戶數(shù)量的權(quán)衡曲線。
首先,他們測試了 168 位用戶,有了非??煽康慕Y(jié)果。然后,他們通過分析總體樣本的隨機(jī)子集,使用較小用戶群對卡片分類研究的結(jié)果進(jìn)行模擬。例如,要模擬 20 個用戶的測試結(jié)果,他們從 168 個用戶中隨機(jī)抽取了 20 個用戶,并僅分析該小組的卡片分類數(shù)據(jù)。通過選擇多個類似的樣本,可以估計來自不同數(shù)量用戶測試的平均結(jié)果。
卡片分類研究中主要的定量數(shù)據(jù)是一組相似度分?jǐn)?shù),用于度量用戶對不同物品評分的相似度。如果所有用戶將兩張卡片分成同一組,那么由卡片代表的兩個項目將具有 100% 的相似度。如果有一半的用戶將兩張卡放在一起,一半放在不同的組中,那么這兩個項目的相似度為 50%。
我們可以通過研究的相似性得分與測試大量用戶群所得分?jǐn)?shù)的相關(guān)程度來評估較小的卡片分類研究的結(jié)果。(提醒:相關(guān)性從 -1 到 +1 ,相關(guān)性 1 表示完全一致;0 表示無關(guān);-1 表示相互對立。)
二、需要多少用戶?
對于大多數(shù)可用性研究來說,我建議測試 5 個用戶,因為這就能夠讓你獲得足夠的數(shù)據(jù)了,在測試中你能夠了解大部分可用性問題。但是,對于卡片分類,5 位用戶的結(jié)果與最終結(jié)果之間只有 0.75 的相關(guān)性。這個結(jié)果還不夠好。
測試 15 個用戶才能達(dá)到 0.90 的相關(guān)性,這是一個更加合適的范圍。在 15 個用戶之后,不但收益會遞減而相關(guān)性的增加也不明顯:測試 30 人相關(guān)性達(dá)到 0.95 ——這當(dāng)然更好,但通常不值雙倍的錢。超過 30 名用戶幾乎沒有任何改進(jìn):測試 60 人相關(guān)性達(dá)到 0.98,這么做無疑是一種浪費。
Tullis 和 Wood 建議使用 20-30 個用戶進(jìn)行卡片分類測試。根據(jù)他們的數(shù)據(jù),我的建議是測試 15 個用戶。
為什么我建議測試更少的用戶?我認(rèn)為,大多數(shù)情況下,0.90(15 個用戶)或 0.93(20 個用戶)的相關(guān)性已經(jīng)足夠好了。如果你有一個大型的、資金充足的項目(比如一個涉及 10 萬名員工的內(nèi)部網(wǎng)絡(luò),或者一個收入為 5 億美刀的電子商務(wù)網(wǎng)站),我當(dāng)然希望測試 30 人使相關(guān)性達(dá)到 0.95。但大多數(shù)用戶研究資源非常有限,在 3 個不同的定性可用性測試中,每個測試 5 個用戶——共 15 人進(jìn)行的測試更為合適。
三、讓用戶盡情表達(dá)
我不建議純粹基于以卡片排序的相似性組織的信息架構(gòu)進(jìn)行設(shè)計。在決定哪里有什么的具體細(xì)節(jié)時,應(yīng)該盡可能多地運用在測試階段獲得的定性數(shù)據(jù)??ㄆ诸惖拇蟛糠謨r值來自聽取用戶的評論,因為是他們對卡片進(jìn)行分類:你要知道,了解為什么人們將某些卡片放在一起,能夠更深入地了解他們的心理模型,而不是單純地將卡片分類到同一組中。
四、為什么需要更多的用戶進(jìn)行卡片分類?
我們知道對于大多數(shù)可用性研究,5 個用戶已經(jīng)足夠了,為什么卡片分類卻需要 3 倍的參與者才能達(dá)到相同的水平?因為它們在兩個關(guān)鍵點上有所不同:
- 用戶測試是一種評估方法:我們已經(jīng)有了一個設(shè)計,我們試圖找出它是否與人性和用戶需求相匹配。雖然人們在能力(領(lǐng)域知識,智能和計算機(jī)技能)方面存在很大差異,但如果某個設(shè)計因素產(chǎn)生問題,在測試一些用戶之后,就會發(fā)現(xiàn)這些問題。低端用戶可能會比高端用戶遇到更嚴(yán)重的問題,但除非你正在進(jìn)行測量研究(這需要更多用戶),否則難度的大小并不是問題所在。你需要知道的是,設(shè)計元素如果不適用于人,就應(yīng)該改變它。
- 卡片分類是一種生成方法:我們還沒有設(shè)計,我們的目標(biāo)是找出人們?nèi)绾嗡伎寄承﹩栴}。不同人的心智模式和他們用來描述相同概念的詞匯存在很大的差異。我們必須從一定數(shù)量的用戶那里收集數(shù)據(jù),才能獲得穩(wěn)定的用戶偏好畫像,并確定如何適應(yīng)用戶之間的差異。
如果你有一個現(xiàn)有的官網(wǎng)或內(nèi)部網(wǎng),測試一些用戶會告訴你信息架構(gòu)是否給人們帶來了問題。所以要從頭開始創(chuàng)建新的結(jié)構(gòu),必須抽取更多人進(jìn)行測試。
幸運的是,你可以將這兩種方法結(jié)合:首先,使用生成性研究為設(shè)計確定方向。其次,設(shè)計一份草稿,最好使用紙質(zhì)原型,并進(jìn)行評估研究以改進(jìn)設(shè)計。因為可用性評估速度快而且便宜,所以你可以做多次;并且還為你最初的創(chuàng)造性發(fā)現(xiàn)提供了質(zhì)量保證。這就是為什么你不應(yīng)該浪費資源來壓縮卡片分類那最后 0.02 相關(guān)性的原因。在隨后的用戶測試中,你會發(fā)現(xiàn)任何小的錯誤,這比卡片分類研究的規(guī)模增加一倍或三倍都要便宜得多。
五、研究的不足
富達(dá)研究有兩個明顯的不足:
- 這只是一項研究。有多家公司的數(shù)據(jù)會更好。
- 該分析純粹是定量的,側(cè)重于相似性的統(tǒng)計分析,忽略用戶評論和其他定性數(shù)據(jù)。
不過,這兩個不足卻不足以致命。我認(rèn)為這是一項開拓性的研究,對網(wǎng)絡(luò)可用性知識做出了巨大貢獻(xiàn)。但是,由于該研究存在缺點,如果用不同的信息空間復(fù)制它,并且同時分析定性數(shù)據(jù)與定量數(shù)據(jù),將會非常有用。聽起來像是一個很好的研究生論文的選題,這個選題研究的是與真實世界影響相關(guān)的事物。
盡管數(shù)據(jù)多會讓人感到欣慰,但我對富達(dá)研究的結(jié)論充滿信心,因為它們與我多年來從事卡片研究的觀察結(jié)果相符。我一直說,有必要為卡片分類測試更多的用戶,而不是傳統(tǒng)的可用性研究。我通常會推薦大約 15 位用戶進(jìn)行測試,不過在預(yù)算緊張或用戶特別難招募(只有 12 位用戶)的時候,也有不錯的結(jié)果。
有好多中方法,在定量研究過程中,會誤導(dǎo)你。因此,如果你看到一個單獨的定量研究與定性研究中已知的所有結(jié)論相矛盾,一個謹(jǐn)慎的做法是忽視新研究并假定它很可能是假。但是當(dāng)一項定量研究證實了已知的信息時,它很可能是對的,并且可以使用新的數(shù)據(jù)作為合理的預(yù)測值,即便這基于你現(xiàn)有的可憐的數(shù)據(jù)。
因此,當(dāng)前的建議是在大部分卡片分類中測試 15 位用戶,在有資金支持的大型項目中測試 30 位用戶。
參考:
- Tullis, Tom, and Wood, Larry. (2004) How Many Users Are Enough for a Card-Sorting Study?, Usability
- Professionals Association (UPA) 2004 Conference, Minneapolis, MN, June 7–11, 2004.
注釋:我希望擴(kuò)大網(wǎng)站的思考范圍到產(chǎn)品和服務(wù)層面
相關(guān)閱讀
Guerrilla 可用性測試:7 步 DIY 屬于你的可用性測試方法
有了這 10 個技巧,做好 Guerrilla 可用性測試不用愁
原文地址:https://www.nngroup.com/articles/card-sorting-how-many-users-to-test/
#專欄作家#
鄭幾塊,人人都是產(chǎn)品經(jīng)理專欄作家,前新浪微博產(chǎn)品經(jīng)理。
本文系作者@鄭幾塊 獨家翻譯授權(quán),未經(jīng)本站許可,不得轉(zhuǎn)載
題圖來自 Pixabay,基于 CC0 協(xié)議
- 目前還沒評論,等你發(fā)揮!