移動(dòng)APP可用性測試:實(shí)驗(yàn)室測試和現(xiàn)場測試的比較(上)

當(dāng)測試一款移動(dòng)APP的用戶界面時(shí),現(xiàn)場測試可能不是最好的選擇;多數(shù)還是因?yàn)樗葘?shí)驗(yàn)室測試更加耗時(shí)。
可用性測試的重點(diǎn)
可用性測試是在移動(dòng)APP在設(shè)計(jì)、投入市場后用來評(píng)估可用性的一種常用工具??捎眯詼y試實(shí)施時(shí)一般是使用發(fā)聲思考,即用戶在一個(gè)測試環(huán)境中被給予任務(wù),并鼓勵(lì)他們在嘗試完成任務(wù)時(shí)出聲思考。這能夠幫助可用性測試的主試即實(shí)驗(yàn)者知道用戶界面(APP設(shè)計(jì))是如何幫助用戶自然地思考和執(zhí)行操作,強(qiáng)調(diào)對于產(chǎn)品的特色和改善方法的認(rèn)知。
如何去定義一個(gè)可用性問題修改的緊迫性?
可用性問題的嚴(yán)重等級(jí)是一個(gè)重要的因素。當(dāng)這個(gè)問題阻止用戶任務(wù)完成時(shí),就需要最緊急的修復(fù)行動(dòng)了。Dumas和Redish(1993)使用了4個(gè)關(guān)鍵等級(jí),至今仍被用戶研究員引用的較多:第一個(gè)等級(jí)為最嚴(yán)重的等級(jí),表示最嚴(yán)重的問題,第四個(gè)等級(jí)為表示最輕的嚴(yán)重性。Kallio等人(2004)也將問題按嚴(yán)重性進(jìn)行分類:高(導(dǎo)致任務(wù)執(zhí)行失?。?,中等(不是那么嚴(yán)重,任務(wù)可以完成)和低(小問題)。
實(shí)驗(yàn)室 VS 現(xiàn)場
傳統(tǒng)的實(shí)驗(yàn)室測試
傳統(tǒng)的可用性測試一般是在可用性測試實(shí)驗(yàn)室實(shí)施完成,如阿里、網(wǎng)易游戲都有專業(yè)的實(shí)驗(yàn)室,一般是由一間類似于辦公室的區(qū)域和一面單向玻璃的可監(jiān)視房間組成。必須保障實(shí)驗(yàn)室環(huán)境是一個(gè)安靜的空間,測試的用戶能夠全神貫注于任務(wù)的執(zhí)行。
實(shí)驗(yàn)室測試的擔(dān)憂
經(jīng)常在實(shí)驗(yàn)室進(jìn)行測試的用戶研究員都會(huì)擔(dān)心在實(shí)驗(yàn)室進(jìn)行的評(píng)估會(huì)由于沒有模仿用戶的使用情境而缺少生態(tài)效度。因?yàn)樵诂F(xiàn)實(shí)的使用場景中,打斷、移動(dòng)、聲音和多重任務(wù)操作等,這些沒有出現(xiàn)在實(shí)驗(yàn)室測試中的因素,都可能在現(xiàn)實(shí)情景中影響到用戶的操作。
現(xiàn)場測試
然而現(xiàn)場的可用性測試是非常罕見的,大部分(70%以上)的移動(dòng)APP評(píng)估是在實(shí)驗(yàn)室設(shè)備中做的。這可能是因?yàn)閿?shù)據(jù)的收集,如出聲思考、視頻記錄或者觀察記錄,這些在現(xiàn)場做比較困難。
幸好由于便攜式錄像設(shè)備在近兩年快速發(fā)展,使得在現(xiàn)場進(jìn)行用戶測試變得容易些。這些發(fā)展允許用戶研究員像在實(shí)驗(yàn)室那樣,可以在現(xiàn)場做一些小測試了;也使得他們能夠有意識(shí)的去跟蹤屏幕上發(fā)生的事情,去傾聽用戶的評(píng)論。同時(shí)也允許在現(xiàn)場的可用性測試中使用出聲思考的方法。盡管發(fā)展了合適的工具,現(xiàn)場測試仍然比實(shí)驗(yàn)室更加耗時(shí),也可能需要測試的用戶和主持人付出更大的努力。
研究目的
敏捷用研在APP快速迭代開發(fā)的環(huán)境下被提出和倡導(dǎo),以用戶為中心的設(shè)計(jì)和可用性測試一定要非常高效。敏捷測試需要用戶研究員在產(chǎn)品開發(fā)時(shí)間被嚴(yán)格限制的期間內(nèi),發(fā)現(xiàn)最重大的可用性問題在上線前進(jìn)行修復(fù)。所以,可用性測試的焦點(diǎn)絕不是發(fā)現(xiàn)每個(gè)可能的細(xì)小問題。
如何使測試的結(jié)果最優(yōu)化,選擇正確的評(píng)估方法尤為重要。對可用性測試者來說,經(jīng)過科學(xué)驗(yàn)證的合適的測試方法是非常寶貴的。在我們的研究中,主要的目的是了解清楚,當(dāng)評(píng)估移動(dòng)APP可用性時(shí),現(xiàn)場測試是否有風(fēng)險(xiǎn),或者實(shí)驗(yàn)室環(huán)境是否可以模擬出足夠的生態(tài)效度。
對比研究
為了解清楚可用性測試中環(huán)境的影響,我們實(shí)施了一個(gè)對比研究,即同時(shí)在現(xiàn)場和實(shí)驗(yàn)室兩種環(huán)境下開展可用性測試,并且保證其他因素(執(zhí)行的任務(wù),發(fā)聲思考的方法等)都是一樣的,只有測試的環(huán)境不同。
兩種測試環(huán)境分別是:
- 實(shí)驗(yàn)室:一般用戶研究員進(jìn)行可用性測試的地方,預(yù)算較低;
- 現(xiàn)場:一個(gè)用戶會(huì)真正使用移動(dòng)APP的地方。
研究問題和假設(shè)
(1)問題:在實(shí)驗(yàn)室和現(xiàn)場會(huì)發(fā)現(xiàn)同樣數(shù)量的問題和現(xiàn)象嗎?
假設(shè):如果進(jìn)行對比的兩組測試都是在足夠多的用戶中進(jìn)行,那么現(xiàn)場測試發(fā)現(xiàn)的問題數(shù)量會(huì)更多。
(2)問題:在兩個(gè)測試環(huán)境中發(fā)現(xiàn)的問題和現(xiàn)象會(huì)是一樣的嗎?如果不是,有什么差異?
假設(shè):兩種環(huán)境中的問題將會(huì)是不同的。例如最常下載時(shí)間在現(xiàn)場可能更能被容忍。
(3)問題:如果發(fā)現(xiàn)的問題有不同,那么是因?yàn)閷?shí)驗(yàn)室或現(xiàn)場發(fā)生問題的嚴(yán)重性不同嗎?
假設(shè):現(xiàn)場的問題會(huì)因?yàn)樵谌蝿?wù)執(zhí)行過程中被打斷而更加嚴(yán)重。
(4)問題:任務(wù)執(zhí)行時(shí)間會(huì)不同嗎?由此我們可以從測試中推斷出什么?
假設(shè):任務(wù)執(zhí)行時(shí)間在現(xiàn)場將會(huì)更長。
(5)問題:環(huán)境會(huì)影響測試用戶的執(zhí)行嗎?
假設(shè):現(xiàn)場測試的任務(wù)在執(zhí)行過程中將會(huì)有更多的被打斷機(jī)會(huì),而打斷行為的發(fā)生次數(shù)會(huì)影響用戶操作。
(6)問題:當(dāng)評(píng)估移動(dòng)APP的可用性時(shí),是實(shí)驗(yàn)室更適合還是現(xiàn)場測試更合適?
假設(shè):當(dāng)評(píng)估移動(dòng)APP的可用性時(shí),現(xiàn)場測試將會(huì)更適合,因?yàn)榍榫秤绊懯褂煤筒僮鳌?/p>
研究結(jié)果
然而對比研究的結(jié)果使我們驚訝,因?yàn)榻Y(jié)果并沒有支持大部分我們之前的假設(shè)。
(1)問題:在實(shí)驗(yàn)室和現(xiàn)場會(huì)發(fā)現(xiàn)同樣數(shù)量的問題和現(xiàn)象嗎?
根據(jù)我們的研究:現(xiàn)場測試發(fā)現(xiàn)的問題會(huì)比實(shí)驗(yàn)室多,但并未達(dá)到顯著差異。
我們的假設(shè)是在現(xiàn)場測試會(huì)發(fā)現(xiàn)更多的問題,但是沒有被實(shí)驗(yàn)結(jié)果支持。
(2)問題:在兩個(gè)測試環(huán)境中發(fā)現(xiàn)的問題和現(xiàn)象是一樣的嗎?如果不是,有什么差異?
盡管觀察到了同樣的問題,但是同一問題在現(xiàn)場測試中發(fā)生的頻率更高。
(3)問題:如果發(fā)現(xiàn)的問題有不同,那么是因?yàn)閷?shí)驗(yàn)室或現(xiàn)場發(fā)生問題的嚴(yán)重性不同嗎?
假設(shè)是在現(xiàn)場會(huì)發(fā)現(xiàn)更多嚴(yán)重的問題,但是沒有被證實(shí)。有關(guān)問題的嚴(yán)重性,在兩種測試環(huán)境中沒有差異。
(4)問題:任務(wù)執(zhí)行時(shí)間會(huì)不同嗎?由此我們可以從測試中推斷出什么?
個(gè)人任務(wù)完成的時(shí)間,現(xiàn)場測試的用戶沒有比實(shí)驗(yàn)室測試的用戶更長。當(dāng)然在測試所需要的總時(shí)間上,現(xiàn)場的確要比實(shí)驗(yàn)室長,這說明現(xiàn)場測試是一個(gè)更消耗時(shí)間的方法。
(5)問題:環(huán)境會(huì)影響測試用戶的執(zhí)行嗎?
在現(xiàn)場,測試有潛在的干擾,但是對于用戶的操作似乎沒有太大的影響。因?yàn)楫?dāng)執(zhí)行復(fù)雜任務(wù)時(shí),用戶會(huì)尋找一個(gè)安全的地方(方位/角度)去執(zhí)行,只有一小部分用戶會(huì)一邊執(zhí)行一邊踱步。在現(xiàn)場,用戶的注意力會(huì)非常集中在測試上,例如在進(jìn)出地鐵時(shí)也會(huì)持續(xù)工作,在地鐵上他們似乎也沒有被其他地鐵乘客打擾到,即使其他乘客會(huì)來和主持人說話。
盡管主持人的行為在兩場測試中是一樣的,但是現(xiàn)場測試中用戶的表現(xiàn)似乎更加放松、隨便,表現(xiàn)在他們更頻繁的去發(fā)表關(guān)于APP的評(píng)論。
(6)問題:當(dāng)評(píng)估移動(dòng)APP的可用性時(shí),是實(shí)驗(yàn)室更適合還是現(xiàn)場測試更合適?
當(dāng)做一款移動(dòng)APP的用戶界面評(píng)估時(shí),現(xiàn)場測試可能沒法顯著增加測試的有效性和完全性。不是因?yàn)橐恍﹩栴}沒有被發(fā)現(xiàn),而是因?yàn)楝F(xiàn)場測試所需要的時(shí)間更長,需要付出的努力更多?;谖覀兊膶?shí)驗(yàn),實(shí)驗(yàn)室測試似乎已經(jīng)能夠在提高用戶界面和系統(tǒng)交互方面給予充足的信息。
現(xiàn)場測試完成后,主持人和用戶交談的更隨意,似乎用戶更容易說出自己關(guān)于產(chǎn)品觀念的想法。現(xiàn)場測試的方法適合于不僅和一個(gè)系統(tǒng)交互進(jìn)行測試,還包括測試用戶行為和環(huán)境。另外,APP或設(shè)備如有一定的機(jī)密性那么測試通常是在實(shí)驗(yàn)室進(jìn)行的,特別是在還在開發(fā)周期的產(chǎn)品。
在現(xiàn)場環(huán)境中,用戶似乎在尋找一個(gè)安靜的角落來和APP進(jìn)行交互。個(gè)人空間似乎并不只在與別人交流時(shí)才被需要;在公共場合,當(dāng)人們在做自己的事情時(shí)同樣需要隱私。
研究的影響和將來的研究
正如用戶研究員的目標(biāo)是在嚴(yán)格的項(xiàng)目經(jīng)費(fèi)和時(shí)間的限制下,找到最大和最致命的可用性問題,那么這項(xiàng)研究幫助用戶研究員在測試地點(diǎn)上做了決策。當(dāng)測試一個(gè)移動(dòng)APP的可用性時(shí),實(shí)驗(yàn)室測試能夠給予充足的信息。
給予用戶研究從業(yè)者的啟示
當(dāng)測試一款移動(dòng)APP的用戶界面時(shí),現(xiàn)場測試可能不是最好的選擇;多數(shù)還是因?yàn)樗葘?shí)驗(yàn)室測試更加耗時(shí)。
如果需要進(jìn)行現(xiàn)場測試,則需要準(zhǔn)備好比實(shí)驗(yàn)室雙倍的時(shí)間來進(jìn)行;因?yàn)樵诂F(xiàn)場,你可能一天下來只能測試實(shí)驗(yàn)室的一半被試,且你需要做好事情不按計(jì)劃走的準(zhǔn)備,因?yàn)槌藴y試還會(huì)有更多的干擾和意想不到的事情。
在做現(xiàn)場測試前,先做一個(gè)嚴(yán)格的預(yù)測試是必要的;因?yàn)樵S多細(xì)節(jié)都會(huì)很容易出錯(cuò),你真的需要檢查所有的準(zhǔn)備來確保萬無一失。
作者:媛媛大王(微信公眾號(hào):用戶研究社?),資深用戶研究員
本文由 @媛媛大王 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
這都可以沙發(fā)?