SUS(系統(tǒng)可用性量表)在用戶研究中的應(yīng)用
本文是作者在做項(xiàng)目后的一點(diǎn)小結(jié),將從what,when,why,how四個(gè)角度討論用戶研究中常用的SUS(系統(tǒng)可用性量表),對其他量表感興趣的可以自行深入研究。
我們在做產(chǎn)品或系統(tǒng)的可用性測試后,都想把結(jié)果更好地傳遞給相關(guān)方。除了定性的研究結(jié)果之外,還有定量的可用性問卷,這些可用性問卷是標(biāo)準(zhǔn)化的,不僅可以科學(xué)地量化用戶體驗(yàn),也方便相關(guān)方之間有效溝通。常見的標(biāo)準(zhǔn)化可用性問卷有整體評估問卷、任務(wù)評估問卷和網(wǎng)站感知可用性評估問卷,如下所示:
1. 整體評估問卷
用于完成一系列任務(wù)場景后,對產(chǎn)品或系統(tǒng)整體的感知可用性測量。目前使用較廣泛的有:QUIS(Questionnaire For User Interaction Satisfaction)、SUMI(Software Usability Measurement Inventory)、PSSUQ(Post-Study System Usability Questionnaire)、CSUQ(Computer System questionnaire)、SUS(System Usability Scale)。
2. 任務(wù)評估問卷
每完成一個(gè)場景任務(wù),讓用戶對該任務(wù)進(jìn)行感知可用性測量。目前使用較廣泛的有:ASQ(After-Scenario Questionnaire)、SEQ(Single Ease Question)、SMEQ(Subjective Mental Effort Questionnaire)、ER(Expectation Ratings)、UME(Usability Magnitude Estimation)。
3. 網(wǎng)站感知可用性評估問卷
大部分標(biāo)準(zhǔn)化可用性問卷最初在20世紀(jì)80年代中期到后期被開發(fā),在網(wǎng)絡(luò)開始流行時(shí),出現(xiàn)了更有針對性的評估網(wǎng)站感知可用性的問卷,目前廣泛使用的有:WAMMI(Website Analysis and Measurement Inventory)、SUPRQ(Standardized Universal Percentile Rank Questionnaire)。
本文主要是自己做項(xiàng)目后的一點(diǎn)小結(jié),將從what,when,why,how四個(gè)角度討論用戶研究中常用的SUS(系統(tǒng)可用性量表),對其他量表感興趣的可以自行深入研究。
SUS是什么?
SUS最初是Brooke于1986年編制,量表由10個(gè)題目組成,包括奇數(shù)項(xiàng)的正面陳述和偶數(shù)項(xiàng)的反面陳述,要求參與者在使用系統(tǒng)或產(chǎn)品后對每個(gè)題目進(jìn)行5點(diǎn)評分。
經(jīng)過翻譯,我們可以看到中文版如下:
注意:在使用SUS的過程中,可以對題目的詞語進(jìn)行替換,這些替換對最后的測量結(jié)果都沒有影響。比如“system”可替換成網(wǎng)站、產(chǎn)品或者自己產(chǎn)品的名稱等。
何時(shí)使用?
- 同一產(chǎn)品或系統(tǒng),新舊迭代版本的對比。比如:某App首頁改版后,新舊首頁的對比。
- 同一產(chǎn)品或系統(tǒng),不同終端之間的對比。比如:某產(chǎn)品的PC端、App端進(jìn)行比較。
- 同類型競品之間的比較。比如:蘇寧,京東,當(dāng)當(dāng)三款A(yù)pp使用后進(jìn)行比較。
為什么使用?
- 量表公開免費(fèi)。
- 整個(gè)量表題目陳述簡單,只需參與者打分,實(shí)施起來很快。
- 測量結(jié)果是介于0-100之間的分?jǐn)?shù),容易理解。
- 可測量多種用戶界面,比如網(wǎng)頁、手機(jī)、平板等。
- 多個(gè)實(shí)證研究表明SUS效果較佳。如Tullis等人研究表明,在樣本量有限時(shí),SUS可以最快達(dá)到效果(如下圖)。也有大樣本的研究(Bangor,2008)得出SUS的信度系數(shù)為0.91。
如何使用?
計(jì)分
當(dāng)參與者做完一系列任務(wù)后,就可以快速對SUS進(jìn)行打分。然后就需要對每個(gè)題目的分值進(jìn)行轉(zhuǎn)換,奇數(shù)項(xiàng)計(jì)分采用“原始得分-1”,偶數(shù)項(xiàng)計(jì)分采用“5-原始得分”。由于是5點(diǎn)量表,每個(gè)題目的得分范圍記為0~4(最大值為40),而SUS的范圍在0~100,故需要把所有項(xiàng)的轉(zhuǎn)換分相加,最終再乘以2.5,即可獲得SUS分?jǐn)?shù)。
除了獲得SUS量表總分之外,還可以獲得分量表得分。SUS中,第4和第10項(xiàng)構(gòu)成的子量表為“易學(xué)性”(Learnability),其他8項(xiàng)構(gòu)成的子量表為“可用性”(Usability)。為了使易學(xué)性和可用性分?jǐn)?shù)能夠與整體SUS分?jǐn)?shù)兼容,范圍也是0~100,需要對原始分?jǐn)?shù)進(jìn)行轉(zhuǎn)換:易學(xué)性量表轉(zhuǎn)換分?jǐn)?shù)的總和乘以12.5,可用性量表乘以3.125。
Tips:因?yàn)镾US記分時(shí)是用的0~4個(gè)距離,為了讓總分是100,所以計(jì)算SUS總分時(shí)要乘以2.5。但是可用性的題目為8個(gè),總分值在0~32,所以應(yīng)該是計(jì)算出8道題的總分,然后乘以100/32。易學(xué)性的計(jì)分類推。
為了方便計(jì)分,我編制了一個(gè)SUS計(jì)分器。如果有需要,可在我個(gè)人微信公眾號回復(fù)“SUS”獲取。
解釋
SUS分?jǐn)?shù)反應(yīng)的是總體可用性,當(dāng)然,也包括兩個(gè)分量表的特性。對于總體可用性,已有研究者(Bangor,2009)得出了文字、字母、可接受范圍與SUS分?jǐn)?shù)之間的關(guān)系,在圖中可以直觀地查看并解釋SUS分?jǐn)?shù)的意義。
除此之外,也可以將SUS分?jǐn)?shù)換算成百分等級來解釋,百分等級的意思是指測量的產(chǎn)品或系統(tǒng)相對于總數(shù)據(jù)庫里其他產(chǎn)品或系統(tǒng)的可用性程度。比如SUS得分是73分,其百分等級大約為67,意味著比大約66%的產(chǎn)品可用性更好。
注意,這里的總數(shù)據(jù)庫是Jeff Sauro(2011)通過446個(gè)研究,超過5000個(gè)用戶的SUS反饋的數(shù)據(jù)庫。如果從企業(yè)研究團(tuán)隊(duì)的角度來看,可以沉淀以往的研究,建立企業(yè)自己產(chǎn)品或系統(tǒng)的SUS數(shù)據(jù)庫,從而獲得自身的基準(zhǔn)數(shù)據(jù)。當(dāng)然,這個(gè)基準(zhǔn)數(shù)據(jù)也有可能是內(nèi)部團(tuán)隊(duì)制定。
最后
在使用SUS的過程中遇到了兩個(gè)小問題:
- 10個(gè)題目中,個(gè)別題目對于參與者來說難以理解,比如第2題和第6題,這時(shí)需要和參與者進(jìn)行解釋。
- 最終的SUS分?jǐn)?shù)并不是一個(gè)百分?jǐn)?shù),需要給受眾解釋清楚,當(dāng)SUS分?jǐn)?shù)為70時(shí),其實(shí)是接近SUS總體的平均分,即對應(yīng)的百分等級接近50,也就是說比大約一半的產(chǎn)品可用性更好。
對于第一個(gè)問題,我們需要靈活應(yīng)變,在使用題目時(shí)注意措辭,避免歧義;對于第二個(gè)問題,需要查閱書籍文獻(xiàn)(建議閱讀文末的參考文獻(xiàn)),這些理論的根源還是需要有充分的了解,否則就是半瓶子醋。
SUS最初的目的是快速而粗糙地測量可用性,現(xiàn)在已經(jīng)被廣泛使用。在定性研究的基礎(chǔ)上,利用定量的結(jié)果來輔助會(huì)使研究結(jié)論更具有說服力,也是一種研究趨勢。然而,在使用過程中,會(huì)遇到一些問題,作為研究人員,我們需要不斷的在理論中思考實(shí)踐,在實(shí)踐中思考理論,以促進(jìn)自身的成長。
更多閱讀
- Bangor, A., Kortum, P. T., & Miller, J. T. (2009). Determining what individual SUS scores mean:Adding an adjective rating scale. Journal of Usability Studies, 4(3), 114-123.
- Jeff Sauro.(2014). 用戶體驗(yàn)度量. 機(jī)械工業(yè)出版社.
- John Brooke. (2013). SUS: A Retrospective. Journal of Usability Studies, 8(2), 29-40.
- Tullis, T. S., & Stetson, J. N. (2004). A comparison of questionnaires for assessing website usability. Proceedings of UPA 2004 Conference. Minneapolis, Minnesota.
作者:小釋界(微信公眾號:insightUX),用戶體驗(yàn)研究從業(yè)者,擁有汽車和心理學(xué)教育背景,關(guān)注高科技和金融領(lǐng)域,致力于探索行為數(shù)據(jù)背后的心理過程。
本文由 @小釋界 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
公眾號 的sus鏈接 失敗,沒法獲取
同上,想問一下第2題和第6題,復(fù)雜和一致性有沒有一個(gè)具體的描述標(biāo)準(zhǔn)呢?
請問第2題和第6題如何解釋呢