生活随笔
收集整理的這篇文章主要介紹了
数据的搜集
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
一、數據的來源
1、間接來源
定義:數據由別人通過調查或實驗的方式搜集,使用者只是找到它們并加以使用
優點:二手資料搜集容易,采集數據成本低,很快得到
局限:二手資料不是為特定的研究問題而產生的,所以在回答所研究的問題方面有欠缺
對二手資料評估:
- 資料是誰搜集的?考察數據搜集者的實力和社會信譽度。政府或機構
- 為什么目的而搜集?為了某個集團利益而搜集數據是值的懷疑的
- 數據是怎樣搜集的?搜集數據方法多樣,不同方法搜集的數據其解釋力和說服力不同。若不了解搜集數據所使用的方法,很難對數據的質量做出客觀的評價。數據的質量來源于數據的產生過程。
- 什么時候搜集的?過時的數據,其說服力自然受到質疑。
- 使用二手數據,要注意數據的定義、含義、計算口徑和計算方法,避免錯用、誤用、濫用。在引用二手數據時,應注明數據來源。
2、直接來源
定義:通過自己調查(調查數據)或實驗(實驗數據)活動,直接獲得第一手數據
調查是對社會現象而言。調查數據通常取自有限總體,即總體所包含的個體單位是有限的。如果調查針對總體中的所有個體單位進行,這種調查稱為普查。普查數據具有信息全面、完整的特點,對普查數據的全面分析和深入挖掘是統計分析的重要內容。當總體很大時,普查涉及范圍廣,接受調查單位多,耗時、費力,調查成本高,普查不可正常進行。
實驗大多是對自然現象而言。
二、調查數據
數據采集階段,關鍵問題是如何抽選出一個好的樣本。好的樣本是相對而言的,包括兩方面:針對研究問題,不同的研究問題,對樣本要求會有所差別,對某一個研究問題,這可能是一個不錯樣本,對另一個問題,這個樣本可能就是糟糕的,所以進行什么樣的抽樣設計首先取決于研究目的;針對調查費用與估計精度的關系而言。
抽樣采集數據的方式:
1、概率抽樣(probability sampling )
定義:也稱隨機抽樣,是指遵循隨機原則進行額抽樣,總體中每個單位都有一定的機會被選入樣本。
(1)特點:
- 抽樣時是按一定的概率以隨機原則抽取樣本。隨機原則:抽取樣本時排除主觀上有意識地抽取調查單位,使每個單位都有一定的機會被抽中。隨機不等于隨便,隨機有嚴格的科學含義,可用概率描述,隨便帶有人為的主觀因素。隨機與隨便的本質區別在于,是否按照給定的入樣概率,通過一定的隨機化程序抽取樣本單元。
- 每個單位被抽中的概率是已知的,或是可以計算出來的。
- 當用樣本對總體目標量進行估計時,要考慮到每個樣本單位被抽中的概率。估計量不僅與樣本單位的觀測值有關,也與其入樣概率有關。
- 概率抽樣與等概率抽樣:指總體中的每個單位都有一定的非零概率被抽中,單位之間被抽中的概率可以相等,也可以不等,前者等概率抽樣,后者不等概率抽樣。
(2)概率抽樣方式
| 簡單隨機抽樣(simple random sampling) | - 定義:從總體N個單位的抽樣框中隨機地、一個個地抽取n個單位作為樣本,實施隨機化程序可以使用隨機數字表,也可使用能產生符合要求的隨機數序列的計算機程序。 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? 進行概率抽樣需要抽樣框,抽樣框包括所有總體單位信息。作用不僅在于提供備選單位的名單以供抽選,還是計算各單位入樣概率的依據。
- 簡單隨機抽樣是一種最基本的抽樣方法,使其它抽樣方法的基礎。簡單直觀,在抽樣框完整時,可直接從中抽取樣本,由于抽選的概率相同,用樣本統計量對目標量進行估計及計算估計量誤差都比較方便。
- 局限:要求包含所有總體單位的名單作為抽樣框,當N很大時,構造這樣的抽樣框并不容易;其次,根據這種方法抽出的單位很分散,給實施調查增加了困難;最后,這種方法沒有利用其它輔助信息以提高估計的效率。在規模較大的調查中,很少直接采用簡單隨機抽樣,一般把這種方法和其他抽樣方法結合起來使用。
|
| 分層抽樣(stratified sampling) | - 定義:是將抽樣單位按某種特征或某種規則劃分為不同的層,然后從不同的層中獨立、隨機地抽取樣本。將各層的樣本結合起來,對總體目標量進行估計。
- 優點:保證了樣本中包含有各種特征的抽樣單位,樣本的結構與總體的結構比較相近,從而提高估計的精度;分層抽樣在一定條件下為組織實施調查提供可方便(當層是按行業或行政區劃分);分層抽樣既可以對總體參數進行估計,也可以對各層的目標量進行估計。
|
| 整群抽樣(cluster sampling) | - ?定義:將總體中若干個單位合并為組,這樣的組稱為群。抽樣時直接抽取群,然后對中選群中的所有單位全部實施調查。
- 特點:抽取樣本時只需要群的抽樣框,不必要求包括所有單位的抽樣框,簡化了編制抽樣框的工作量。由于群通常是由哪些地理位置鄰近的或隸屬于同一系統的單位所構成,因此調查的地點相對集中,從而節省調查費用,方便實施調查。
- 弱點:估計的精度較差,因為同一群內的單位或多或少有些相似,在樣本量相同的條件下,整群抽樣的抽樣誤差較大。要得到與簡單隨機抽樣相同的精度,采用整群抽樣需要增加基本調查單位。
|
| 系統抽樣(systematic sampling) | - 定義:將總體中的所有單位(抽樣單位)按一定順序排列,在規定的范圍內隨機抽取一個單位作為初始單位,然后按事先規定好的規則確定其他樣本單位。
- 典型系統抽樣:先從數字1~k之間隨機抽取一個數字r作為初始單位,以后依次取r+k,r+2k...。所以把系統抽樣看成是將總體內的單位按順序分成k群,用相同的概率抽取出一群的方法。
- 優點:操作簡便,如果有輔助信息,對總體內的單位進行有組織的排列,可有效提高估計的精度。
- 缺點:對估計量方差的估計比較困難。
|
| 多階段抽樣(multi-stage sampling) | - 定義:采用類似整群抽樣的方法,首先抽取群,但并不是調查群內所有單位,而是再進一步抽樣,從選中的群中抽取出若干個單位進行調查。因為取得這些接受調查的單位需要兩個步驟,所以稱為二階段抽樣。群是初級抽樣單位,第二階段抽取的是最終抽樣單位。這種方法推廣,使抽樣的段數增多,就稱為多階段抽樣。抽取樣本的階段應盡量少。因為每增加一個抽樣階段。就會增加一份估計誤差,用樣本對總體進行估計就更復雜。
- 優點:具有整群抽樣的優點,保證了樣本相對集中,節約調查費用;不需要包含所有低階段抽樣單位的抽樣框;同時由于實行了再抽樣,使調查單位在更廣的范圍內展開。在較大規模的抽樣調查中,多階段抽樣經常用。
|
?(3)概率抽樣優點
可以依靠調查結果,計算估計量誤差,從而得到對總體目標量進行推斷的可靠程度。也可以按照要求的精確度,計算必要的樣本單位數目。所有這些都為統計估計結果的評估提供了有力證據。所以,統計分析的樣本主要是概率樣本,即樣本是采用概率抽樣方式得到的。
2、非概率抽樣(non-probability sampling )
定義:是相對于概率抽樣而言,指抽取樣本時不是依據隨機原則,而是根據研究目的對數據的要求,采用某種方式從總體中抽出部分單位對其實施調查。
類型:
| 方便抽樣 | - 調查過程中調查員依據方便的原則,自信確定入抽樣本的單位。如調查員在街頭、公園、商店等公共場所進行攔截式的調查;廠家在出售產品的柜臺前對路過的顧客進行調查等。
- 特點:容易實施,調查的成本低
- 弱點:樣本單位的確定帶有隨意性,因此,方便樣本無法代表有明確意義的總體,將方便樣本的調查結果推廣到總體是沒有意義的。如果研究的目的是對總體有關的參數進行推斷,使用方便樣本是不合適的。但在科研中,使用方便樣本可產生一些想法以及對研究內容的初步認識,或建立假設。
|
| 判斷抽樣 | - 定義:是另一種比較方便的抽樣方式,是指研究人員根據經驗、判斷和對研究對象的了解,有目的地選擇一些單位作為樣本,實施時根據不同的目的有重點抽樣、典型抽樣、代表抽樣等方式。
- 重點抽樣:從調查對象的全部單位中選擇少數重點單位,對其實施調查。這些重點單位數量不多,但在總體中占重要地位。如了解全國鋼鐵企業生產狀況,可選擇產量較大的幾個鋼鐵企業,對重點單位調查,可了解鋼鐵產量大致情況及產量變化基本走勢。
- 典型抽樣:從總體中選擇若干個典型的單位進行深入的調研,目的是通過典型單位來描述或揭示所研究問題的本質和規律。因此,選擇的典型單位應該具有研究問題的本質或特征。青少年犯罪,選取典型犯人,分析青少年犯罪規律。
- 代表抽樣:通過分析,選擇具有代表性的單位作為樣本,在某種程度上,也具有典型抽樣的含義。某奶粉生產企業欲了解消費者對奶粉成分的需求,可調查一些年輕母親,通過他們了解消費者購買奶粉時的選擇意向。
- 判斷抽樣是主觀的,樣本選擇的好壞取決于調研者的判斷、經驗、專業程度和創造性。成本較低,容易操作,但由于樣本是人為確定的,沒有依據隨機的原則,因而調查結果不能用于對總體有關參數進行估計。
|
| 自愿樣本 | - 定義:指被調查者自愿參加,成為樣本中的一份子,向調查人員提供有關信息。參與報刊上和互聯網上刊登的調查問卷活動,向某類節目撥打熱線電話等。
- 自愿樣本與抽樣的隨機性無關,樣本的組成往往集中于某類特定的人群,尤其集中于對該調查活動感興趣的人群,因此這種樣本是有偏的。不能依據樣本的信息對總體的狀況進行估計,但自愿樣本仍可給研究人員提供有價值的信息,可以反映某類群體的一般看法。
|
| 滾雪球抽樣 | - 定義:往往用于對稀少群體的調查。在滾雪球抽樣中,首先選擇一組調查單位,對其實施調查之后,再請他們提供另外一些屬于研究總體的調查對象,調查人員根據所提供的線索,進行此后的調查。這個過程持續下去,就會形成滾雪球效應
- 滾雪球抽樣屬于非概率抽樣,因為與隨機抽取的被調者相比,被推薦的被調查者在許多方面與推薦他們的那些人更為相似。
- 優點:容易找到那些屬于特定群體的被調查者,調查的成本較低。適合對特定群體進行研究的資料搜集。
|
| 配額抽樣 | - 定義:類似于概率抽樣中的分層抽樣,在市場調查中應用廣泛。首先將總體中的所有單位按一定的標志(變量)分為若干類,然后在每個類中采用方便抽樣或判斷抽樣的方式選取樣本單位。
- 操作簡單,可以保證總體中不同類別的單位都能包括在所抽的樣本中,使得樣本的結構和總體結構類似。
- 抽取具體單位時不是依據隨機原則,所以屬于非概率抽樣
- 配額抽樣中,可以按單一變量控制,也可按交叉變量控制。單一變量控制操作簡單,但可能出現偏斜。交叉變量配額控制可以保證樣本的分布更均勻,但現場調查中為了保證配額的實現,尤其是在調查接近結束時,所選的樣本單位要同時滿足特定的配額、調查對象的特征、調查費用、時間等。
|
3、概率抽樣和非概率抽樣的比較
(1)性質不同,在調查中采用何種抽樣類型,取決于多種因素,包括研究問題的性質、使用數據要說明的問題、調查對象的特征、調查費用、時間等。
(2)非概率抽樣不是依據隨機原則抽選樣本,樣本統計量的分布是不確切的,因而無法使用樣本的結果對總體相應參數進行推斷。若調查的目標是用樣本的調查結果對總體相應參數進行估計,并計算估計的誤差,得到總體參數的置信區間,不適合采用非概率抽樣。非概率抽樣特點:操作簡便、時效快、成本低。且對于抽樣中的統計學專業技術要求不是很高。適合探索性研究,調查結果用于發現問題,為更深入的數量分析做準備。也適合市場調查中的概念測試,如產品包裝測試、廣告測試等。
(3)概率抽樣是依據隨機原則抽取樣本,這是樣本統計量的理論分布是存在的,可根據調查結果對總體有關參數進行估計,計算估計誤差,得到總體參數的置信區間,且進行抽樣設計時,對估計的精度提出要求,計算滿足特定精度要求所需要的樣本量。如果調查的目的在于掌握研究對象總體的數量特征,得到總體參數的置信區間,應該使用概率抽樣的方法。概率抽樣的技術含量更高,無論是抽選樣本還是對調查數據進行分析,都要求有較高的統計學專業知識,調查的成本比非概率抽樣高。
4、搜集數據的基本方法
樣本單位確定后,對這些單位實施調查,即從樣本單位那里得到所需要的數據,可采用不同方法。
| 自填式 | 定義 | 指在沒有調查員協助的情況下由被調查者自己填寫,完成調查問卷。 |
| 問卷要求 ? ? & 對比 | - 把問卷送給被調查者方法如調查員分發,郵寄,網絡或把問卷刊登在網上。由于被調查者在填答問卷時調查員一般不在現場,對于問卷中的疑問無人解答,所以這種方法要求調查問卷結構嚴謹,有清楚的說明,讓被調查者一看就知道如何完成問卷。要求被調查者具一定文化素養,可讀懂問卷,正確理解調查問卷中的問題并進行回答。
- 與其他調查方式比,自填式問卷應有制作詳細、形象友好的說明,必要時可在問卷上提供調查人員的聯系電話,以便被調查者遇到疑問時與調查員聯絡。與其他搜集數據方式相比,調查組織者對自填式方式的管理相對容易,只要把問卷正確地送到被調查者手中即可。
|
| 優點 | - 成本低,增大樣本量對調查費用的影響很小,可進行大范圍調查。利于被調查者,他們可以選擇方便的時間填答問卷,可參考有關記錄而不必依靠記憶進行回答。
- 由于填寫問卷時調查員不在場,因而自填式方法可以在一定程度上減少被調查者回答敏感問題的壓力。
|
| 缺點 | - 問卷的回收率比較低,被調查者不夠重視,在完成問卷方面沒有壓力,所以放棄不答。由于不重視,被調查者易把問卷丟失和遺忘,所以需要做很多跟蹤回訪工作取得較高的回收率。
- 不適合結構復雜的問卷,許多被調查者不會認真閱讀填寫問卷指南。對調查內容有所局限。
- 調查周期比較長,調查人員需要對問卷的遞送和回收方法進行仔細研究和選擇
- 對于數據搜集過程中出現的問題,一般難以及時采取調改措施
|
| 面訪式 | 定義 | 是指現場調查中調查員與被調查者面對面,調查員提問、被調查者回答這種調查方式。 |
| 優點 | - 由于是面對面交流,調查員可以激發被調查者的參與意識,對不愿意參與的被訪者進行說服工作,提高調查的回答率。
- 調查員可在現場解釋問卷,回答被調查者的問題,對被調查者的回答進行鑒別和澄清,提高調查數據的質量,且可以對識字率低的群體實施調查。
- 由于調查問卷是由經過培訓的調查員所控制,在問卷設計中可采用更多 的技術手段,使得調查問題的組合更為科學、合理。
- 在面訪調查中,可借助其他調查工具(圖片、照片、卡片、實物等)以豐富調查內容。
- 能對數據搜集所花費的時間進行調節,如果數據搜集進展太慢,需要加快速度,就可雇更多的調查員,但使用自填式方式時是不可能的。
|
| 弱點 | - 調查的成本較高,要有調查員的培訓費用、調查員的工資、面訪調查中送給被調查者的小禮品和調查員的交通費用等,且調查費用與樣本量關系十分密切。在大樣本調查中,研究人員面臨著調查成本的巨大壓力。
- 面訪這種搜集數據的方式在對調查過程的質量控制方面有一定難度,調查的數據質量與調查員的工作態度、責任心有直接關系,當大量調查員參與調查時,如何保證高質量的現場操作是一個重要問題。
- 對于敏感問題,除非對調查員進行角色篩選,對調查員的訪談技巧進行專門的技術培訓,否則,在面對面的條件下,被調查者通常不會像在自填式方法下那樣放松
|
| 電話式 | 定義 | 是指調查人員通過打電話的方式向被調查者實施調查。 |
| 特點 | - 速度快,能夠在最短的時間內完成調查,適合樣本單位十分分散的情況,由于不需要支付調查員的交通費,數據搜集的成本不大。
- 對調查員也是安全的,他們不必在晚上走訪偏僻的居民區,在面訪調查中,這些不可避免的
- 對訪問過程的控制比較容易,因為調查員的工作地點都是在一起,調查中遇到的問題可得到及時處理和解決,調查監督對訪問實施監聽也容易。計算機輔助電話調查(CATI)
|
| 局限性 | - 電話調查的工具是電話,如果被調查者沒有電話,調查將無法實施,所以在電話擁有率不高的地方,電話調查收到限制
- 使用電話進行訪問的時間不能太長,人們不愿意通過電話進行冗長的交談,被訪者對調查的內容不感興趣時更是如此。
- 電話調查所使用的問卷要簡單,如果問卷答案的選項過長、過多,被調查者聽了后面,忘記前面,不僅造成調查進度的延緩,被調查者容易掛斷電話。
- 與面訪相比,電話調查由于不是面對面的交流,在被訪者不愿意接受調查時,要說服他們更為困難
|
| 觀察式 | 定義 | 調查人員通過直接觀測方法獲取信息,如利用安置在超市中的錄像設備觀察顧客挑選商品時的表情,在十字路口通過計數方法估計車流量 |
| 數據搜集方法的選擇:搜集數據的不同方法各有特點,選擇方法時,需要考慮幾點 | 1、抽樣框中的有關信息 | 如果抽樣框中沒有同學地址,就不能將自填式問卷寄給被調查者;如果沒有計算機隨機數字撥號系統,有沒有電話號碼的抽樣框,電話調查的概率樣本就難以產生,電話訪問方式無法使用 |
| 2、目標總體的特征 | 如果總體的識字率很低,對問卷的理解有困難,就不宜使用自填式方法。樣本的地理分布也很重要,如果樣本單位分布很廣,地域跨度大,進行面訪調查的交通費用就會很高,且調查過程的管理和質量監控實施起來不容易。 |
| 3、調查問題的內容 | 對于比較復雜的問題,面訪調查比較適合,因為調查員可以在現場對模糊的問題進行解釋和澄清,并判斷被訪者對問題是否真正理解,調查問卷的設計也可以采用更多技術,如跳答、轉答等,使搜集的數據滿足研究的要求。如果調查的問題涉及一些敏感問題,使用匿名的數據搜集方法,如自填式或電話調查可能更適合。 |
| 4、有形輔助物的使用 | 對調查是有幫助和必要的。在調查期間顯示產品、產品樣本、廣告等,在一些市場調查中,有時需要被調查者試用產品,然后接受調查。在這些情況下,面訪是最合適的方法。采用郵寄問卷的自填式調查方法也可以有一些效果,因為可以隨問卷同時郵寄有關調查內容的圖片,但電話調查對有形輔助物的使用就受到限制。 |
| 5、實施調查的資源 | 這些資源包括經費預算、人員、調查設備和調查所需時間。面訪調查費用最高,需要支付調查員的勞務費、調查交通費、被訪者的禮品費等,還要找到能夠滿足調查需要的一定數量的調查員。如果使用計算機輔助電話調查,就需要有計算機設備和CATI操作系統。 |
| 6、管理與控制 | 在電話調查中,調查員通常集中在調查中心一起工作,因此,管理和控制相對簡單。面訪調查中調查員是分散、獨立地進行工作,對他們的管理與控制有一定難度。 |
| 7、質量要求 | 如果調查員是經過考核選撥進來的,有較好的素質和責任心,并經過專門的培訓,這時面訪調查就能夠有效地減少被訪者的回答誤差。如,對于調查中所使用的概念,調查員能夠給出清晰無誤的解釋;有經驗的調查員還可對被訪者回答的真實性做出判斷,并使用調查詢問中的相關技術進行澄清,以保證高質量數據。回答率也是影響數據質量一個因素,由于面訪具有面對面交流的有利條件,所以面訪式回答率最高,而自填式回答率低。但面訪式調查成本最高,自填式調查成本最低。 |
搜集數據不同方法的特點| 項目 | 自填式 | 面訪式 | 電話式 | | 調查時間 | 慢 | 中等 | 快 | | 調查費用 | 低 | 高 | 低 | | 問卷難度 | 要求容易 | 高 | 低 | | 有形輔助物的使用 | 中等利用 | 充分利用 | 無法利用 | | 調查過程控制 | 簡單 | 復雜 | 容易 | | 調查員作用的發揮 | 無法發揮 | 充分發揮 | 一般發揮 | | 回答率 | 最低 | 較高 | 一般 | |
| 在數據搜集使用方法的選擇中要根據調查所需信息的性質、調查對象的特點、對數據質量和回答率的要求,以及預算費用和時間要求等多方面因素綜合而定。如對被選中的調查單位首先采用郵寄問卷,讓受訪者自填的方式,對沒有返回問卷的受訪者,再進行電話追訪或面訪。 |
三、實驗數據(experiment data)
定義:是指在實驗中控制實驗對象而搜集到的變量的數據,在實驗中控制一個或多個變量,在有控制的條件下得到觀測結果。實驗是檢驗變量間因果關系的一種方法。在實驗中,研究人員要控制某一情形的所有相關方面,操縱少數感興趣的變量,然后觀察實驗結果。
1、實驗組和對照組
- 實驗法基本邏輯:有意識地改變某個變量的情況(A),然后看另一個變量變化情況(B)。如果B隨著A的變化而變化,說明A對B有影響。需要將研究對象分為兩組,一組實驗組,一組對照組。
- 實驗組(experiment group):指隨機抽選的實驗對象的子集。在這個子集中,每個單位接受某種特別的處理。
- 對照組(control group):每個單位不接受實驗組成員所接受的某種特別處理。
- 一個好的實驗設計都有一個實驗組和一個或多個對照組。
- 一個好的實驗,對照組和實驗組的產生不僅應該是隨機的,而且應該是匹配的。匹配,是指對實驗單位的背景材料進行分析比較,將情況類似的每對單位分別隨機地分配到實驗組和對照組。
- 雙盲法在實驗設計中應采用。
2、實驗中的若干問題
| 人的意愿 | 在劃分實驗組和對照組時,應該采用隨機原則,但研究對象是人,就不好控制 |
| 心理問題 | 在實驗研究中,人們對被研究非常敏感,使得他們更加注意自我,從而走向極端 |
| 道德問題 | 道德問題使得對人和動物做的實驗復雜化了。當某種實驗設計道德問題,人們會處于進退兩難的尷尬境地。 |
3、實驗中的統計
統計在實驗中的作用:確定進行實驗所需要的單位個數,以保證實驗可以達到統計顯著的結果;將統計的思想融入實驗設計,使實驗設計符合統計分析的標準;提供盡可能最有效地同時研究幾個變量影響的方法。
?通過實驗得到的數據稱為實驗數據,實驗數據可以作為研究者判斷假設的依據。
4、數據的誤差
(1)定義:是指通過調查搜集到的數據與研究對象真實結果之間的差異。數據誤差分為兩類:抽樣誤差和非抽樣誤差。
| 抽樣誤差(sampling error) | - 定義:是由抽樣的隨機性引起的樣本結果與總體真值之間的誤差。
- 在概率抽樣中,依據隨機原則抽取樣本,可能抽中由這樣一些單位組成的樣本,也可能抽中由另外一些單位組成的樣本。根據不同的樣本,可以得到不同的觀測結果。但總體真實結果只能有一個,盡管這個真實值我們不知道。不過可以推測,雖然不同的樣本會帶來不同的答案,但這些不同的答案應該總在真值附近。如果不斷增大樣本量,不同的答案也會向總體真值逼近。
- 抽樣誤差并不是針對某個具體樣本的檢測結果與總體真實結果的差異而言的,抽樣誤差描述的是所有樣本可能的結果與總體真值之間的平均差異。
- 抽樣誤差的大小與多方面因素有關。樣本量的大小,樣本量越大,抽樣誤差越小。當樣本量大到與總體單位相同時,抽樣調查變成普查,誤差減小到0,這時不存在樣本選擇的隨機性問題。
- 還與總體的變異性有關。總體的變異性越大,即各單位之間的差異越大,抽樣誤差越大,因為有可能抽中特別大或特別小的樣本單位,使樣本結果偏大或偏小;總體的變異度越小,各單位之間越相似,抽樣誤差越小。如果所有單位完全一樣,調查一個就可以精確無誤地推斷總體,抽樣誤差就不存在。
|
| 非抽樣誤差(non-sampling error) | 定義:是相對抽樣誤差而言的,是指抽樣誤差之外的,由其他原因引起的樣本觀察結果與總體真值之間的差異。抽樣誤差是一種隨機性誤差,只是存在于概率抽樣中;非抽樣誤差則不同,無論是概率抽樣、非概率抽樣或是全面調查中,都有可能產生非抽樣誤差。 非抽樣誤差類型| 抽樣框誤差 | 在概率抽樣中需要根據抽樣框抽取樣本。抽樣框是有關總體全部單位的名錄,在地域抽樣中,抽樣框可以是地圖。一個好的抽樣框應該是,抽樣框中的單位和研究總體的單位有一一對應的關系。 | | 回答誤差 | 是指被調查者在接受調查時給出的回答與真實情況不符。導致回答誤差的原因有多種,主要有理解誤差、記憶誤差和有意識誤差。 | | 無回答誤差 | - 是指被調查者拒絕接受調查,調查人員得到的是一份空白答卷。無回答也包括那些調查進行時被訪者不在家的情況。電話調查中,撥通后沒有人接;郵寄問卷調查中,地址寫錯,被調查者搬家,或者被調查者雖然受到問卷,卻把問卷遺失或丟失,這些都可視為調查中的無回答。
- 無回答誤差有時是隨機的,有時是系統性的。如果無回答的產生與調查的內容無關,如郵寄問卷的丟失,調查時被訪者正在生病,無法接受調查,在隨機狀態下,被訪者如果回答,其結果可能高于平均值,也可能低于平均值,高低互相抵消,不會產生有偏估計。但當無回答的產生與調查內容有關時,就可能產生系統性誤差。如調查收入時的拒絕回答者通常是收入比較高的人群,僅僅用收入低的回答結果進行推算,偏差就不可避免。
- 無回答誤差是隨機的,可通過增大樣本量。多次回訪。
- 無回答系統性誤差解決途徑:預防,在調查前做好各方面的準備工作,盡量把無回答降到最低程度;當無回答出現后,分析無回答產生的原因,采用一些補救措施。如在無回答單位中再抽取一個樣本,實施更有力的調查,并以此作為無回答層的代表。
| | 調查員誤差 | 指由于調查員的原因而產生的調查誤差。 | | 測量誤差 | 如果調查與測量工具有關,很有可能產生測量誤差。 | |
(2)誤差的控制
抽樣誤差是由抽樣的隨機性帶來的,只要采用概率抽樣,抽樣誤差就不可避免。抽樣誤差是可以計算的。在一個特定問題的研究中,研究人員對抽樣誤差有一個可以容忍的限度。允許的抽樣誤差是多大,取決于對數據精度的要求。一旦誤差確定下來,就可采用相應措施進行控制。進行控制的主要方法是改變樣本量。要求的抽樣誤差越小,所需要的樣本量就越大。
非抽樣誤差與抽取樣本的隨機性無關,因而在概率抽樣和非概率抽樣中都會存在(但抽樣框誤差僅在概率抽樣中存在)。很多原因會造成非抽樣誤差。做好問卷設計是減少非抽樣誤差的一個方法。非抽樣誤差的控制主要是在調查過程的質量控制。包括:調查員的挑選,調查員的培訓,督導員的調查專業水平,對調查過程進行控制的具體措施,對調查結果進行的檢驗、評估,對現場調查人員進行獎懲的制度。目前在規范的專業性市場調查咨詢公司,都有一些進行質量控制的規章制度和經驗。
總結
以上是生活随笔為你收集整理的数据的搜集的全部內容,希望文章能夠幫你解決所遇到的問題。
如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。