定性研究:我們到底應該訪談多少用戶?

0 評論 2147 瀏覽 6 收藏 15 分鐘
🔗 B端产品经理需要更多地关注客户的商业需求、痛点、预算、决策流程等,而C端产品经理需要更多地关注用户的个人需求

在用戶研究和市場調研領域,定性研究是一種不可或缺的方法,然而,一個常見的困惑是:在定性研究中,究竟需要訪談多少用戶才能獲得有價值且具有代表性的數據?本文將深入探討這一問題,從定性研究與定量研究的區(qū)別出發(fā),結合實際案例和專家建議,為你提供科學的指導和實用的計算公式,幫助你在成本和收益之間找到最佳平衡點。

你是不是經常遇到這樣的問題:當開展一項定性研究時,訪談多少個用戶才是最佳的?這個問題背后是成本和收益的最佳平衡點問題。

01?定性研究VS定量研究的樣本量

在回答這個問題前,我們首先要知道樣本量的本質是用“小數據”推測“大真相”。

無論是調查一個城市的消費者偏好,還是研究全國用戶的產品使用習慣,我們幾乎不可能調查所有人。因此,需要通過抽樣(從總體中選取一部分樣本)來推測總體情況。

而這種“推測”,在定性研究和定量研究中的邏輯是不同的。

1.定量研究

定量研究(如問卷):追求“數字的廣度”,目標是統(tǒng)計代表性。

定量研究樣本量的確定受到很多因素的影響,具體包括:

(1)總體大小當總體規(guī)模較小時,樣本量會隨著總體的增加而相對較多地增加。但是當總體規(guī)模達到一定程度后(通常是10000),總體的大小對樣本量的影響就變得相對較小了。無限總體假設下的樣本量和有限總體校正(Finite Population Correction, FPC)樣本量計算公式不同,本文不做詳細展開。

(2)期望的置信水平和置信區(qū)間常用的置信水平為95%(Z值為1.96)或99%(Z值為2.58)。置信區(qū)間(或誤差范圍)越小,所需樣本量越大。

(3)變異性越高的群體變異性(多樣性)通常需要更大樣本量來捕捉不同群體特征。

(4)研究目的描述性研究一般需要較少樣本,而要進行推斷或預測的研究可能需要更多樣本以確保結果的穩(wěn)健性。

【常見的經驗法則】

  • 描述性研究:通常至少30個樣本
  • 相關性研究:一般至少30-50個樣本
  • 實驗研究:每組至少15-30個樣本
  • 回歸分析:每個預測變量10-15個樣本(有些學者建議更高)
  • 因子分析:變量數的5-10倍,且不少于100個樣本
  • 結構方程模型(SEM) :至少200個樣本,復雜模型可能需要更多

(5)設計效應

在定量研究中,設計效應(Design Effect, DEFF)反映了復雜抽樣方法(如分層、整群或多階段抽樣)相較于簡單隨機抽樣(SRS)對樣本量需求的影響。某些抽樣方法,比如集群抽樣,因為同一個集群內的個體可能很相似,所以結果可能偏向某個方向,導致需要更多樣本來糾正這個偏差。

設計效應越大,所需樣本量越多,以維持相同的統(tǒng)計精度。

Tips:定量研究樣本量問題本文不做展開,感興趣可到“用戶研究成長圈”知識星球學習。

2.定性研究

定性研究(如訪談)追求“信息的深度”,目標是達到飽和(Saturation)

關于“飽和”的概念,尼爾森諾曼集團(Nielsen Norman Group)的 Maria Rosala(2021 年)提出以下定義:

“在定性研究中達到飽和是指從研究中浮現的主題已經足夠詳盡,再進行更多的訪談也不會提供能夠改變這些主題的新見解?!崩?,某App團隊想了解用戶卸載原因。前10次訪談中,發(fā)現了“功能復雜”“廣告太多”等6個原因;第11~15次訪談中,新增了“耗電量高”這一原因;第16~20次訪談無新發(fā)現。此時可認為達到飽和,樣本量定為20人。?2017年,Hennick 等人進一步定義了兩種形式的飽和度:

代碼飽和(Code saturation)——“當不再發(fā)現新問題,且代碼本開始趨于穩(wěn)定時的節(jié)點?!?/p>

意義飽和(Meaning saturation)——“當我們完全理解問題,且無法再發(fā)現任何新的維度、細微差別或問題的見解時的節(jié)點。”

根據 Hennick 等人(2017)的說法,代碼飽和“可能表明研究人員已經‘聽到了所有內容’”,而意義飽和則發(fā)生在研究人員“理解了所有內容”時。那么問題來了,訪談的樣本量達到多少才能達到代碼飽和以及意義飽和?

02?定性研究樣本量問題

來自海外的一名專家Katryna Balboni在Victor Yocco等人基礎上,提供了一個計算定性研究樣本量的公式:

所需樣本量 = 被訪者未出席率 x ((研究范圍 x 人群多樣性 x研究方法)/研究人員專業(yè)程度)

Participants = No-show rate x ((scope x diversity x method)/expertise)

1.研究范圍(Scope)

國外的Rolf Molich基于比較可用性評估研究和個人研究經驗,在2010年提出了一個有趣的框架:

Slater Berry在2023年從戰(zhàn)術性與戰(zhàn)略性研究的角度討論了不同研究范圍所需的樣本量問題:

咨詢公司 Blink UX 的 Brittany Schiessel同樣在2023年提出:

  • 基礎性研究(10-12 名參與者)——以更深入地了解您的主題或感興趣領域
  • 形成性研究(6-8 名參與者)——在開發(fā)開始之前,識別問題和考慮因素以指導設計
  • 總結性研究(15+ Ps)—— 用于衡量用戶體驗

在這些人的基礎上,Katryna Balboni做如下收斂:

  • 狹窄 —— 針對現有產品或非常具體問題的研究(最少未知數、戰(zhàn)術性、形成性)。范圍 = 1
  • 專注型 —— 創(chuàng)建新產品或探索已定義的問題(存在一些未知因素,戰(zhàn)術性或戰(zhàn)略性,形成性)。   范圍 = 1.25
  • 廣泛 —— 發(fā)現新問題/洞察(許多未知因素,戰(zhàn)略性,基礎性)。范圍 = 1.5

2.樣本群體多樣性(Diversity)

通常來說,群體越多樣化,達到飽和狀態(tài)所需的參與者就越多(Hennick & Kaiser, 2022)。

Katryna Balboni的公式中,多樣性由一個值表示:

  • 非常相似:我使用多個標準來招募具有共同特征和/或習慣的特定人群(例如“擁有 5-10 年經驗且使用過 AWS 的英國軟件工程師”)多樣性 = 1
  • 有些類似:我正在招募特定的一群人(例如“具有 5-10 年經驗的軟件工程師”)多樣性 = 1.3
  • 有些不同:我正在招募一些不同的參與者或者幾組不同的群體。雖然有一些限制,但相當多的人可能符合資格(例如,“在過去 12 個月中在線購物 2 次以上的女性。”)多樣性 = 1.5
  • 非常不同:我正在招募一組非常多樣化的參與者或幾個不同的群體。資格標準更寬泛,許多人可能符合條件。(例如,“過去 12 個月內在網絡上購物過的人?!保┒鄻有?= 1.7

從“非常相似”到“有些相似”的跳躍,其值增加了 30%。在此之后,每增加一個多樣性程度,數值就增加 15%。

這是基于一個假設,即樣本群體之間會存在一些相似之處,并且隨著樣本量的增加,總體重疊量也會增加。

3.研究人員的專業(yè)知識(Expertise)

研究人員的專業(yè)知識越豐富,對所研究現象越熟悉,他們作為研究工具的表現就越有效。

換句話說,熟練的研究人員可以用更少的參與者揭示見解。

Katryna Balboni的公式中,專業(yè)水平是一個介于 1 至 1.3 之間的值,具體取決于你對以下問題的回答:“參與該項目的研究人員平均有多少年從事這類研究的經驗?”

  • 0-4 年。 專業(yè)水平 = 1
  • 5-9 年。 專業(yè)度 = 1.1
  • 10-14 年。 專業(yè)水平 = 1.15
  • 15-19 年。 專業(yè)度 = 1.2
  • 20-24 歲。 專業(yè)水平 = 1.25
  • 25 年以上。 專業(yè)水平 = 1.3

Yocco (2017) 建議這個變量對于初學者研究者應從 1 開始,并且每增加 5 年經驗,以 0.10 的速率遞增。Katryna BalboniH計算后,發(fā)現以這種速率增加專業(yè)分母會產生過于顯著的影響。

Katryna BalboniH仍然將這個值增加了 0.10,以實現從 0-4 年到 5-9 年經驗的首次跳躍,但之后每 5 年區(qū)間的增幅減少到 0.05。

4.被訪者未出席率(No-show rate)

缺席者是指那些接受了研究邀請但從未出現在訪談中的人。

在對 201 名可用性專業(yè)人士的調查中,尼爾森諾曼集團的團隊發(fā)現人們報告的平均未出席率為 11%(Nielsen, 2003)。同時,Jeff Sauro (2018) 指出典型范圍在 10%到 20%之間。

這意味著,每需要 10 名參與者,實際上應該招募 11 或 12 人。

Katryna BalboniH堅持使用 10%的比例——因為這是一個整齊的數字。

5.研究方法

Katryna BalboniH在前人的研究基礎上,給出了一張表:

根據這張表:

  • 一對一訪談的基準樣本量是12個
  • 焦點小組的基礎樣本量是18個(3組,每組6名)
  • 日記研究的基準樣本量是10個
  • 共同設計或參與式設計的基線樣本量是10個
  • 卡片分類研究的基準樣本量是20個
  • 可用性測試的基線是9個
  • 概念測試(通常在項目的早期階段進行,以評估用戶對想法或簡單原型的反應)基礎樣本量是5個

6.綜合起來

現在,我們有了影響飽和的所有變量,根據公式代入計算所需樣本量 = 被訪者未出席率 x ((研究范圍 x 人群多樣性 x研究方法)/研究人員專業(yè)程度)

場景 1:探索性訪談

你希望在開發(fā)新產品時進行一些探索性訪談——假設這個產品是一個面向銷售運營的工具。

你的目標用戶是銷售運營專家,但你也希望與那些在工作中涉及銷售運營的其他人員交流。

換句話說,你的被訪者可能有某種程度上相似的使用場景和需求。你有10 年的研究經驗,并且與一位擁有 4 年客戶訪談經驗的產品經理共同進行這些訪談——你計劃平分這項工作。

  • 范圍 = 廣泛 = 1.5
  • 多樣性 = 有些相似 = 1.3
  • 方法 = 訪談 = 12
  • 專業(yè)知識 = 5-9 年 [平均] = 1.1
  • 未出席率=1.10

因此:樣本量 = 1.1 x ((1.5 x 1.3 x 12)/1.1) = 23.4

人不能分成小數,所以我們把樣本量四舍五入到 24。

場景 2:概念測試

你是一位用戶體驗設計師,正在為英國市場開發(fā)一款旅行產品。

在對目標受眾(假設他們是高收入、對奢華、環(huán)保/文化意識強的旅行感興趣的成年人)進行了一些探索性研究后,你已經有了一個清晰的概念和低保真原型。

現在,你想了解自己是否走在正確的道路上——這些想法能否引起共鳴?你有三年從事這類研究的經驗。

  • 范圍 = 聚焦 = 1.25
  • 多樣性 = 非常相似 = 1
  • 方法 = 概念測試 = 5
  • 專長 = 0-4 年 = 1

所需樣本量 = 1.1 x (( 1.25 x 1 x 5)/1) = 6.9

所以在這個情況下,你需要招募 7 名參與者。

總之,定性研究的樣本量需要根據研究范圍、數據收集方法、資源限制以及信息飽和的原則來綜合考慮。

研究者需要在數據收集過程中不斷評估是否達到了信息飽和,并根據研究進展動態(tài)調整樣本量。

本文由人人都是產品經理作者【Peron用戶研究】,微信公眾號:【Peron用戶研究】,原創(chuàng)/授權 發(fā)布于人人都是產品經理,未經許可,禁止轉載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!
专题
13598人已学习12篇文章
本专题的文章分享了CRM的入门知识,分享了CRM是什么。
专题
19923人已学习13篇文章
本专题的文章分享了TO G产品的入门指南,包括什么是G端产品、产品的特点...
专题
14403人已学习12篇文章
在职场中,跨部门沟通是一个非常重要的软技能,不管是要完成日常项目,还是接手新的业务,都需要有良好的跨部门沟通能力。本专题的文章分享了如何做好跨部门沟通。
专题
15691人已学习12篇文章
CDP,即客户数据平台,是企业用来集中管理和整合客户数据的工具。本专题的文章分享了什么是CDP和如何搭建CDP平台。
专题
31214人已学习16篇文章
在线教育的现状、趋势和未来。
专题
44991人已学习22篇文章
可用又易用,产品逻辑和情感化体验两手抓,用户才会爱上你的产品。