모집단을 층으로 나눠고 각 층별로 단순 무작위 추출법을 적용하여 표집 확률표본추출 방법이다.

https://whatilearned.tistory.com/57?category=922487


층으로 나눈다?

모집단이라 하더라도 다 똑같은 애들로 구성되어 있진 않다.

하다못해 중고등학교에서도 학교마다 그리고 반마다 다 다르다는 걸 알 수 있다.

층으로 나눈다는 것은 이러한 모집단을 서로 상이한 소집단으로 나눈다는 것이다. 그리고 이런 소집단에서 각각 무작위로 추출하는 것이다.

그리고 일정 기준에 따라 분류하고 분류별로 표본을 추출한다는 점에서 할당 표본추출방법과 유사하다.

아무튼 층화란 쉽게 말해 끼리끼리 묶는 것이다.


왜?

기본 논리는

모집단이 동질적이라면, 이질적인 경우보다 표본오차가 더 적은 표본을 추출할 수 있다는 것이다.

모집단의 다양성을 다 반영하려면 그만큼 표본의 크기를 키워야 한다. 누가 나올 지 모르기 때문이다.

그러나 끼리끼리 묶어놓고 이 속에서 추출한다면 적게 뽑아도 집단의 특성을 충분하게 반영할 수 있다.

따라서 이를 통해 추정값의 오차를 감소시킬 수 있다. 그리고 이는 곧 표본의 대표성 향상으로 이어진다.


따라서 장점은

표본의 수를 줄이더라도 대표성을 확보할 수 있다.

표본의 무작위성을 확보하면서 불필요한 분산을 줄일 수 있다는 점이다.

표본의 크기가 같을 때 표집오차가 가장 적은 표집방법이다.


단점은 

모집단의 각 층을 정확히 알고 있어야 한다.

끼리끼리 묶어야 하는데 걔들이 어떤 특성을 갖고 있는지 알고 있어야 묶지 않겠는가?

또한 위 작업을 거쳐야 하기에 비용과 시간이 많이 들 수 있다.


층마다 표본을 배분하는 방법은

  • 균등배분법

"모집단 전체/층의 수"로 표본을 층마다 동일하게 배분한다.

  • 비례배분법

층의 크기에 비례하여 배분한다. 모집단A에서 소집단 a가 차지하는 비율이 50%이면 표본에도 50%할당하는 것이다.

  • 최적배분법

층별 표본추출 비용을 반영해 추정치의 분산이 최소화되게 배분한다.

  • 네이만 배분법

층마다 표본 추출비용이 동일할 경우.

동질적인 집단에는 비교적 적게, 이질적인 집단에는 보다 많은 표본을 추출하여 최소 규모로 정확성을 유지되게 한다. 

  • 데밍 배분법:

층마다 조사비용이 상이할 경우, 분산 최소화되게 배분한다.

등이 있다.


이렇게 각 층에서 뽑은 표본의 크기에 따라

  • 비례 층화 표본추출

각 층에 속하는 모집단의 크기에 비례해 각 층에 속하는 표본의 크기를 결정한다.

  • 비비례 층화 표본추출

그러나 비례 층화 표본추출을 실시할 경우 전체 모집단에서 차지하는 비율이 작은 소집단을 조사하는데 한계가 있을 수 있다. 예를 들어 크기가 매우 작을 경우, 그 집단의 정보를 유의미하게 반영하지 않을 수 있다.

이 경우 각 층에 속하는 모집단 크기에 비례하지 않으면서 전체적으론 비례 표본추출과 동일한 크기의 표본을 추출한다.

  • 가중확률 표본추출

필요에 따라 표집률을 달리하는 것이다. 

로 구분된다.


  • 정리
  • 층으로 나누고, 각 층에서 무작위 추출
  • 기본 논리: 집단이 동질적이라면 표본의 크기를 줄일 수 있다
  • 표본 배분법: 균등, 비례, 최적, 네이만, 데밍
  • 표본의 크기에 따른 구분: 비례 층화, 비비례 층화, 가중확률
반응형

가장 기본적인 확률 표본추출의 한 형태이다.

https://whatilearned.tistory.com/57

단순 무작위란 랜덤하게 추출한다는 의미이다.

확률 표본추출에서 생각해봤듯 이를 위해선 표본틀을 반드시 갖고 있어야 한다.

그리고 마치 공정한 주사위처럼 모든 구성요소가 동등한 확률을 갖고 표집하는 방법이다.

따라서 이론적으로 모집단을 대표하는 적합한 표본을 추출할 수 있다.

또한 모든 구성원에게 동등한 기회를 주기에 구성원에 대해 자세히 알 필요가 없다.

그러나 이로인해 반대로 모집단에 대해 알고 있는 지식을 활용할 수 없다는 점이다.

모집단 내에서도 A범주의 사람이 더 조사에 필요할 것이라 생각할 수 있으나 이러한 요소를 반영할 수 없다는 점이다. 

이로 인해 동일한 크기의 표본일 경우 층화추출보다 오차가 더 크다는 단점이 있다.

반응형

표본조사란 모집단으로부터 표본을 추출해 자료를 수집하는 조사방법이다.

표본조사는 결국 궁극적으로 모집단의 특성을 파악하기 위해 실시된다.

근데 문제는 모집단의 일부로 모집단 전체의 특성을 파악해야 한다는 점이다.

따라서 모집단에서 일부를 추출할 때, 즉 표집할 때 모집단의 특성을 잘 알려줄 수 있도록 표본을 추출해야 한다.


표본 추출 방법은 크게 2가지다.

확률 표본추출과 비확률 표본추출


확률 표본추출은 

무작위적 표본추출을 의미한다. 랜덤으로 추출이 이뤄진다는 것이다. 

랜덤하다면 어떨까? 뭐가 뽑힐지 알 수 있을까? 즉 모두가 뽑힐 확률이 동일하다는 의미이다

모두가 뽑힐 확률이 동일하다는 것은? 모두를 알고 있다는 것을 전제한다.

따라서 확률 표본추출 방법을 실행하기 위해선

모든 구성원 명단이 기재된 표본틀이 있어야 한다.

이를 통해 조사자는 대표성있는 표본을 확보할 수 있다.

또한 확률적으로 모든 구성원이 잘 반영되었기 때문에 이렇게 조사된 바를 통해 모집단의 특성이 이러할 것이다라고 할 수 있을 것이다. 즉 일반화가 가능하다.(물론 어디까지나 추론이기에 제약이 있다) 

그러나 모든 구성원을 파악하고 이들에게 동등한 기회를 부여해야하기에 시간과 비용이 많이 든다.


대표적인 확률 표본추출방법은

  • 단순 무작위 추출
  • 층화표본추출
  • 집락 표본추출
  • 체계적 표본추출

등이 있다.


비확률 표본추출방법은

조사자가 인위적으로 표집하는 방법이다.

따라서 모집단의 모든 것을 필요는 없다(알면 당연히 좋을 것이다). 따라서 표본틀이 필요하지 않다.

또한 시간과 비용이 확률 표본추출에 비해 상대적으로 적게 든다.

그러나 모집단을 알지 못하기 때문에, 표본이 모집단과 얼마나 다른지 알지 못한다. 따라서 표본오차를 추정할 수 없다(확률 표본추출은 표본오차 추정가능).

표본의 대표성 확보와 조사 결과 일반화 또한 어렵다.


대표적인 비확률 표본추출 방법은

  • 편의 표본추출
  • 판단 표본추출
  • 할당 표본추출
  • 눈덩이 표본추출
  • 임의 표본추출

등이 있다.


정리

  • 확률표본추출: 무작위적, 표본틀有, 대표성 확보, 일반화 가능, 표본오차 추정가능
  • 비확률표본추출: 인위적, 표본틀無, 대표성 확보 어려움, 일반화 어려움, 표본오차 추정 불가능, 시간비용 절약
반응형

+ Recent posts