問卷調研結果的可信度:隨機抽樣與調研樣本量
編輯導語:問卷因為有著低成本、高匿名、高效率的特點,所以在用戶研究中被廣泛地使用。那么如何做好問卷調查呢?本文從調查方式以及調查數(shù)據(jù)等幾方面出發(fā)深入剖析了如何做好問卷調研。推薦想要了解問卷調研的童鞋閱讀。
在以往的問卷調研中,有的同學總會問到兩個關鍵性問題:
Q1.“做問卷調研,需要多少的目標用戶?”
Q2.“調研的目標用戶難以觸達,只有X份問卷數(shù)量夠嗎?”(問卷數(shù)量少,不足百份)
通常來說,用戶研究員的建議是根據(jù)調研要回答的問題,至少能回收384份有效問卷,有條件的話可以在此基礎上提高回收量。那么“384”這個數(shù)字是怎么得出來的?問卷調研的回收量一定要達到這個標準嗎?如果達不到這個標準,對調研的結果有什么影響?要回答這些問題,我們首先需要了解問卷調研是什么。
一、問卷調研
1. 問卷調研適用場景
問卷調研指的是調查者運用統(tǒng)一設計的問卷向被選取的調查對象了解情況或征詢意見的調查方法(源自百度詞條“問卷調查”)。與其他的用戶研究方法相比,問卷具有低成本、高匿名、高效率的特點,因此在調研中被廣泛使用。
問卷調研的適用場景包括收集被調查者的個人信息、了解被調查者的觀點態(tài)度、行為習慣等。問卷可以通過一系列精心設計的問題,幫助研究者達成摸底、評估、預測的研究目的。
圖1 問卷調研的適用場景
2. 普查與抽樣調查
根據(jù)抽樣原則的不同,問卷調研可分為普查和抽查。
普查是指對所有的目標群體進行調查。例如我們想要了解北京居民的收入水平,采用普查的方式就需要對北京市的所有居民做調查。對,你沒有看錯,是“北京市的所有居民”,嚴格地說不能有遺漏。
這樣做的好處是所有人都能被調查到,收集到的資料非常全面不會有偏差性。但缺點也顯而易見,龐大的工作量需要投入大量的人力物力,調研周期也很長。目前我國的人口普查采用的就是這種方式,由全國各地的調查人員,深入到每家每戶進行核查。受制于普查耗時耗力的特點,實際的調研中幾乎不會采用這種方法,使用更普遍的方法是抽樣調查。
抽樣調查是從調研的全部目標群體中抽取一部分人,根據(jù)這部分人的調研結果對整個群體的狀況做估計和推斷。其中全部的目標群體稱為總體,抽取的一部分人稱為樣本。延續(xù)上面的例子,我們想要了解北京居民的收入水平,用抽樣調查的方法僅需要從北京市的居民中選取一部分人做調查。在這里,全體北京居民是總體,抽取的部分居民就是樣本。根據(jù)抽取居民的調研結果,可以推論整個北京市的居民收入水平。
這樣做的好處是方便快捷,僅需要調研一部分人就能推測整個群體的狀況。而它的缺點也非常明顯,由于無法覆蓋所有的調研對象,調研結果會存在一定的偏差性。
圖2普查與抽樣調查的區(qū)別
如何保障抽樣調研的可靠性,減少結果的偏差呢?這就需要降低樣本的代表性誤差。
二、代表性誤差
在上一部分我們已經(jīng)知道,抽樣調查的目的是“窺一斑而知全豹”,即從調研的目標總體中抽取樣本,用樣本的調查結果推論總體的狀況。而推論結果的可靠性取決于樣本是否具有代表性,是否可以將樣本的調研結果推論到總體。因此代表性誤差指的就是由樣本數(shù)據(jù)向總體數(shù)據(jù)做推論時產(chǎn)生的誤差。代表性誤差主要受抽樣方式和樣本數(shù)量的影響。
1. 抽樣方式的隨機性
抽樣的隨機性要求總體中的每個個體都有均等的機會被抽取到,沒有傾向性或主觀性。如果抽樣方法的隨機性無法保證,就會導致抽取的樣本有偏差,從而得出錯誤的調研結論。
典型案例就是火車票購買難度的調查:記者想要了解春運的火車票是否難買,于是隨機選擇了一列春運火車做采訪。采訪結束后,記者發(fā)現(xiàn)火車上的乘客都買到了票,于是得出結論春運火車票很好買。這個調查的紕漏在于記者選取的調研樣本有問題,存在很大的偏差。記者只調查了購買到車票的群體,遺漏了沒有買到車票的群體,因此得出的結論是錯誤的。
圖3抽樣偏差推論出錯誤的調研結論
隨機抽樣主要有四種方式:簡單隨機抽樣、整群抽樣、分層抽樣、系統(tǒng)抽樣。目前平臺使用的調研大多采用簡單隨機抽樣,確定調研的目標人群后,向這部分用戶定向推送調研問卷。圖4簡單總結了四種方式的操作流程和各自的優(yōu)缺點,具體內容不在此做詳述,感興趣的同學可以自行深入學習。
圖4 隨機抽樣的四種方式
2. 調研樣本的數(shù)量
除了抽樣方法的隨機性外,調研的樣本數(shù)量也會影響代表性誤差。樣本量越大,代表性誤差越小,樣本的調研結果也就越接近總體結果。
為了更好的理解樣本量對結果的影響,我們用一個案例來做說明:
某校共有5000名學生,在一次英語考試中5000名學生的平均成績?yōu)?6.4分(百分制)。按照抽樣調查的思路,可以從5000名學生中隨機抽取一部分學生,用他們的考試成績推測總體情況。結果如圖5所示,抽取的樣本量越大,結果越接近總體均分76.4。
圖5 樣本量與調研結果
因此,問卷調研對于樣本量的要求實質上是為了保證結果的可靠性,即讓調研結果更接近總體的真實情況。雖然樣本量越高,調研結果會越趨近于真實狀況,但出于回收成本的考慮,也需要控制樣本量的上限,減少不必要的人力物力浪費。
三、確定樣本量的方法
說了這么多理論性的內容,最關鍵的問題還沒有回答,用研建議的384份樣本量到底是怎么得來的?在這一部分,我們將回答這個問題,通過了解三種確定樣本量的方法,進一步明確如何確定問卷調研所需要的樣本量。
1. 經(jīng)驗值估計
這種方法最為簡單粗暴,完全依照研究者個人的過往經(jīng)驗決定,樣本量的數(shù)字也大相徑庭。有的人用30作為標準,有的人用50作為標準,也有的人用100甚至是300作為標準……你看,這樣拍腦袋式的估算不僅無法達成統(tǒng)一,更重要的是缺乏理論依據(jù),科學性難以保證。
2. 公式推算
利用計算公式(公式見圖6)可以求出問卷調研所需要的樣本量。其中n代表樣本量;Z代表置信水平的統(tǒng)計量,統(tǒng)計檢驗中一般設置95%的置信水平,對應的統(tǒng)計量是1.96,置信水平越高,得出的結論可信度越高;p代表的是選項的可能性,調研中可取0.5;e代表抽樣誤差,一般取5%,抽樣誤差越小,得出的結論可信度越高。
計算后得到的結果是384,所以用研一般建議根據(jù)調研要回答的問題,至少能有384份有效問卷,這是保證調研結果可信的最低要求。需要注意的是,有時調研會有精確的細致需求,例如在全國的數(shù)據(jù)中看某個城市或某個區(qū)域的調研結果。如果要回答這類細致的問題,該類樣本的數(shù)量也需要達到384的要求。
當然,如果我們想要進一步提高調研結果的信度,也可以通過提高置信水平或是降低抽樣誤差來實現(xiàn),但這也意味著需要更多數(shù)量的調研問卷(見圖6)。
圖6 不同置信水平和抽樣誤差所需要的樣本量
3. 檢驗效力分析
隨著統(tǒng)計學的發(fā)展,嚴謹?shù)膶W術研究對于樣本量的計算提出了更加精確的要求。通過檢驗力分析,研究人員能計算出更加精確的計算出需要的樣本量。簡單來說,在樣本量(sample size)、效應量(effect size)、顯著水平(Alpha)、檢驗力(test power)四個統(tǒng)計量之間,知其三可推斷另一個。
具體的使用場景主要是兩個,一個是在研究前計算所需要的樣本量;另一個是在研究結束后,計算研究的效應量。一些軟件已經(jīng)能夠提供相應的計算功能(如G*Power),并有較好的可視化展示。
圖7G*Power繪制的所需樣本量曲線
四、結語
得益于低成本、高匿名、高效率的特點,問卷在用戶研究中被廣泛地使用。樣本的代表性是問卷調研結果是否可信的關鍵因素,通過隨機抽樣、增加樣本量可以提高樣本的代表性,從而得出更接近真實總體狀況的調研結論。384份有效問卷是保證調研結果可信的最低樣本量要求,如果回收量無法保證,在推導結論時就需要考慮與真實情況存在偏差的風險。條條大路通羅馬,能夠達成目的、解決問題的就是好的調研方法。
作者:艾露尼,公眾號:貝殼KEDC
本文由 @貝殼KEDC? 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉載
題圖來自 Unsplash,基于CC0協(xié)議。
我這個做B端的,來做C端了
其實很多時候我覺得問卷調查是不管用的,因為很多人都是草草了事。
確實,所以需要在問卷里設置一些陷阱題,甄別掉一些敷衍了事影響結果的數(shù)據(jù)
是的 一些人的回答不是自己真心話
但是能否集齊這384份有效數(shù)據(jù),來進行用戶行為分析,這就看本事了哈哈。
很好奇是個384數(shù)據(jù)的來源,有時間做調差報告,真的收不到那么多人
問卷調查出來后的結果還是要經(jīng)過重重檢驗才能知道可信度如何,文章很有幫助!