SUS(系統(tǒng)可用性量表)在用戶研究中的應用
本文是作者在做項目后的一點小結,將從what,when,why,how四個角度討論用戶研究中常用的SUS(系統(tǒng)可用性量表),對其他量表感興趣的可以自行深入研究。
我們在做產(chǎn)品或系統(tǒng)的可用性測試后,都想把結果更好地傳遞給相關方。除了定性的研究結果之外,還有定量的可用性問卷,這些可用性問卷是標準化的,不僅可以科學地量化用戶體驗,也方便相關方之間有效溝通。常見的標準化可用性問卷有整體評估問卷、任務評估問卷和網(wǎng)站感知可用性評估問卷,如下所示:
1. 整體評估問卷
用于完成一系列任務場景后,對產(chǎn)品或系統(tǒng)整體的感知可用性測量。目前使用較廣泛的有:QUIS(Questionnaire For User Interaction Satisfaction)、SUMI(Software Usability Measurement Inventory)、PSSUQ(Post-Study System Usability Questionnaire)、CSUQ(Computer System questionnaire)、SUS(System Usability Scale)。
2. 任務評估問卷
每完成一個場景任務,讓用戶對該任務進行感知可用性測量。目前使用較廣泛的有:ASQ(After-Scenario Questionnaire)、SEQ(Single Ease Question)、SMEQ(Subjective Mental Effort Questionnaire)、ER(Expectation Ratings)、UME(Usability Magnitude Estimation)。
3. 網(wǎng)站感知可用性評估問卷
大部分標準化可用性問卷最初在20世紀80年代中期到后期被開發(fā),在網(wǎng)絡開始流行時,出現(xiàn)了更有針對性的評估網(wǎng)站感知可用性的問卷,目前廣泛使用的有:WAMMI(Website Analysis and Measurement Inventory)、SUPRQ(Standardized Universal Percentile Rank Questionnaire)。
本文主要是自己做項目后的一點小結,將從what,when,why,how四個角度討論用戶研究中常用的SUS(系統(tǒng)可用性量表),對其他量表感興趣的可以自行深入研究。
SUS是什么?
SUS最初是Brooke于1986年編制,量表由10個題目組成,包括奇數(shù)項的正面陳述和偶數(shù)項的反面陳述,要求參與者在使用系統(tǒng)或產(chǎn)品后對每個題目進行5點評分。
經(jīng)過翻譯,我們可以看到中文版如下:
注意:在使用SUS的過程中,可以對題目的詞語進行替換,這些替換對最后的測量結果都沒有影響。比如“system”可替換成網(wǎng)站、產(chǎn)品或者自己產(chǎn)品的名稱等。
何時使用?
- 同一產(chǎn)品或系統(tǒng),新舊迭代版本的對比。比如:某App首頁改版后,新舊首頁的對比。
- 同一產(chǎn)品或系統(tǒng),不同終端之間的對比。比如:某產(chǎn)品的PC端、App端進行比較。
- 同類型競品之間的比較。比如:蘇寧,京東,當當三款App使用后進行比較。
為什么使用?
- 量表公開免費。
- 整個量表題目陳述簡單,只需參與者打分,實施起來很快。
- 測量結果是介于0-100之間的分數(shù),容易理解。
- 可測量多種用戶界面,比如網(wǎng)頁、手機、平板等。
- 多個實證研究表明SUS效果較佳。如Tullis等人研究表明,在樣本量有限時,SUS可以最快達到效果(如下圖)。也有大樣本的研究(Bangor,2008)得出SUS的信度系數(shù)為0.91。
如何使用?
計分
當參與者做完一系列任務后,就可以快速對SUS進行打分。然后就需要對每個題目的分值進行轉換,奇數(shù)項計分采用“原始得分-1”,偶數(shù)項計分采用“5-原始得分”。由于是5點量表,每個題目的得分范圍記為0~4(最大值為40),而SUS的范圍在0~100,故需要把所有項的轉換分相加,最終再乘以2.5,即可獲得SUS分數(shù)。
除了獲得SUS量表總分之外,還可以獲得分量表得分。SUS中,第4和第10項構成的子量表為“易學性”(Learnability),其他8項構成的子量表為“可用性”(Usability)。為了使易學性和可用性分數(shù)能夠與整體SUS分數(shù)兼容,范圍也是0~100,需要對原始分數(shù)進行轉換:易學性量表轉換分數(shù)的總和乘以12.5,可用性量表乘以3.125。
Tips:因為SUS記分時是用的0~4個距離,為了讓總分是100,所以計算SUS總分時要乘以2.5。但是可用性的題目為8個,總分值在0~32,所以應該是計算出8道題的總分,然后乘以100/32。易學性的計分類推。
為了方便計分,我編制了一個SUS計分器。如果有需要,可在我個人微信公眾號回復“SUS”獲取。
解釋
SUS分數(shù)反應的是總體可用性,當然,也包括兩個分量表的特性。對于總體可用性,已有研究者(Bangor,2009)得出了文字、字母、可接受范圍與SUS分數(shù)之間的關系,在圖中可以直觀地查看并解釋SUS分數(shù)的意義。
除此之外,也可以將SUS分數(shù)換算成百分等級來解釋,百分等級的意思是指測量的產(chǎn)品或系統(tǒng)相對于總數(shù)據(jù)庫里其他產(chǎn)品或系統(tǒng)的可用性程度。比如SUS得分是73分,其百分等級大約為67,意味著比大約66%的產(chǎn)品可用性更好。
注意,這里的總數(shù)據(jù)庫是Jeff Sauro(2011)通過446個研究,超過5000個用戶的SUS反饋的數(shù)據(jù)庫。如果從企業(yè)研究團隊的角度來看,可以沉淀以往的研究,建立企業(yè)自己產(chǎn)品或系統(tǒng)的SUS數(shù)據(jù)庫,從而獲得自身的基準數(shù)據(jù)。當然,這個基準數(shù)據(jù)也有可能是內(nèi)部團隊制定。
最后
在使用SUS的過程中遇到了兩個小問題:
- 10個題目中,個別題目對于參與者來說難以理解,比如第2題和第6題,這時需要和參與者進行解釋。
- 最終的SUS分數(shù)并不是一個百分數(shù),需要給受眾解釋清楚,當SUS分數(shù)為70時,其實是接近SUS總體的平均分,即對應的百分等級接近50,也就是說比大約一半的產(chǎn)品可用性更好。
對于第一個問題,我們需要靈活應變,在使用題目時注意措辭,避免歧義;對于第二個問題,需要查閱書籍文獻(建議閱讀文末的參考文獻),這些理論的根源還是需要有充分的了解,否則就是半瓶子醋。
SUS最初的目的是快速而粗糙地測量可用性,現(xiàn)在已經(jīng)被廣泛使用。在定性研究的基礎上,利用定量的結果來輔助會使研究結論更具有說服力,也是一種研究趨勢。然而,在使用過程中,會遇到一些問題,作為研究人員,我們需要不斷的在理論中思考實踐,在實踐中思考理論,以促進自身的成長。
更多閱讀
- Bangor, A., Kortum, P. T., & Miller, J. T. (2009). Determining what individual SUS scores mean:Adding an adjective rating scale. Journal of Usability Studies, 4(3), 114-123.
- Jeff Sauro.(2014). 用戶體驗度量. 機械工業(yè)出版社.
- John Brooke. (2013). SUS: A Retrospective. Journal of Usability Studies, 8(2), 29-40.
- Tullis, T. S., & Stetson, J. N. (2004). A comparison of questionnaires for assessing website usability. Proceedings of UPA 2004 Conference. Minneapolis, Minnesota.
作者:小釋界(微信公眾號:insightUX),用戶體驗研究從業(yè)者,擁有汽車和心理學教育背景,關注高科技和金融領域,致力于探索行為數(shù)據(jù)背后的心理過程。
本文由 @小釋界 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉載。
公眾號 的sus鏈接 失敗,沒法獲取
同上,想問一下第2題和第6題,復雜和一致性有沒有一個具體的描述標準呢?
請問第2題和第6題如何解釋呢