실제 데이터를 활용하여 표본평균의 확률분포 관찰하기
리송스쿨 0기 - Q.D.M 프로젝트 계획 발표
(고등학교 <확률과 통계> 개념을 실제 데이터를 활용하여 이해할 수 있는 자료 만들기)
안녕하세요, 달빛샘입니다.
미래를 살아갈 우리 아이들에게 가르쳐주고 싶은 주제가 있다면 어떤 것들이 있을까요?
중요하다고 생각하는 부분들이 모두 다르기 때문에, 하나의 정답을 이야기 할 수는 없을 것입니다. 저도 여러 가지 주제들이 생각이 나는데요, 저는 그 중에서도 기본적인 "통계학", "데이터 분석", "통계적 직관", "통계적 감각" 등을 꼭 가르쳐 주고 싶습니다.
이 부분에 대해서는 저도 공부가 더 필요하기 때문에 다양한 루트로 스터디를 시작했습니다. "모두의 데이터 분석 with 파이썬"의 저자이신 송석리 선생님을 비롯한 여러 선생님들이 모이셔서 "데이터 분석 스터디"를 시작하였습니다. 이름하여 "리송스쿨 0기" 그룹입니다.
모두의 데이터 분석 with 파이썬
초보자와 비전공자를 위한 가장 쉬운 데이터 분석 입문서!“서울이 가장 더웠던 날은 언제였을까?”“우리 동네에는 남성과 여성 중 어떤 성별이 더 많이 살고 있을까?””출근 시간대 사람들
www.yes24.com
Q.D.M 프로젝트라는 이름으로 진행중인 이번 스터디에서 저는 이런 주제로 프로젝트 스터디를 시작하였습니다.
"실제 데이터를 활용하여 표본평균의 확률분포 관찰하기"
어떤 주제인가요?
고등학교 <확률과 통계> 교과에서 모집단과 표본집단에 대한 이야기를 다루면서 표본평균의 분포에 대한 언급을 합니다. 통계학에서 중요한 중심극한정리(Central Limit Theorem)을 보이지 않게 아주 살짝 언급하기두 하구요.(... 따른다는 사실이 알려져있다.....) 내용이 너무 깊고 어렵다보니 개념에 대해서는 살짝만 언급을 하고 바로 문제 풀이로 들어갑니다.
물론 요즘 교과서에는 이런 내용을 실습해 볼 좋은 자료들도 잘 포함되어 있습니다. 그런데 교과서 자료나 인터넷 자료들을 살펴보면 거의 대부분 랜덤하게 데이터를 임의로 생성한 것을 가지고 분석을 합니다. 이 데이터를 가상으로 만든 데이터 대신에 실제 데이터를 활용해서 시각화하면 보다 개념을 이해하기 좋지 않을까 하는 생각으로 이렇게 주제를 선정해 보았습니다.
최종적으로는 수업에서 활용해볼 만한 학습지나 데이터 셋 같은 자료를 만들어보는 것이 이번 스터디의 목표입니다.
이번 스터디의 목표는?
Q.D.M 프로젝트는 Q (Questions, 질문하기), D (Data, 데이터), M (Meaning, 의미)라는 항목으로 이름을 붙여본 프로젝트입니다. 이에 따라 제가 세운 Q.D.M은 다음과 같습니다.
Q : Question(s)
1. 중심극한정리가 경험적으로도 맞는 정리인가?
- 모집단이 정규분포를 따르면 표본평균의 분포도 정규분포를 따르는가?
- n이 충분히 크면 모집단의 분포가 정규분포가 아니더라도 표본평균의 분포는 근사적으로 정규분포를 따르는가?
2. 표본평균으로 모평균을 추정하는 것이 경험적으로도 맞는가?
- 모평균을 알 때를 가정하여 표본평균을 구해서 비교해보기 (신뢰도 조사까지)
- 모평균을 모른다고 가정하고 표본평균을 구한 뒤 모평균과 비교해보기 (신뢰도 조사까지)
D : Data
1. 정규분포를 따를 것으로 예상되는 어떤 데이터 셋도 가능
- 스포츠 기록 통계, 신장 데이터, 수능 점수 분포 등
- 정규분포는 자연 현상의 많은 부분을 차지하고 있음을 알고 있는데 정말 그럴까? (부제 : 설마 이게 정규분포였어?)
2. 정규분포를 따르지 않을 것으로 예상되는 데이터셋도 좋음
- 선택한 데이터가 정말 정규분포를 따르지 않을 것인가? (부제 : 정규분포가 아닌 것을 찾는 것이 쉬울까?)
- 정말 n값에 따라 표본평균의 분포가 정규분포를 만들어낼 수 있을까? (n값에 따른 결과 비교까지)
M : Meaning
1. 선택한 데이터의 종류에 따라 분석의 의미는 달라질 수 있음
- 탐구하는 주제에 따라 분석의 의미를 이해하고 설명해보는 경험을 직접 해볼 수 있다.
- 평균, 표준편차, 신뢰도, 오차 등의 개념을 활용하여 분석 및 해석해 보기(신문기사 써보기 등)
2. 통계학 개념을 경험적으로 이해해보기
- 중심극한정리, 모평균과 표본평균, 신뢰도, 오차 등의 개념을 경험적으로 이해하기
- 정말 n값에 따라 표본평균의 분포가 정규분포를 만들어낼 수 있을까?
앞으로 갈 길은?
일단 데이터 분석을 위해 필요한 데이터 셋들을 수집을 할 계획입니다. 수집한 데이터를 다양한 방법을 통해 전처리 과정을 진행할 예정입니다. 파이썬, 엑셀, 웹크롤링 등 공부해야 할 부분들이 많을 듯 하네요.
그렇게 모은 데이터 셋으로 기본 히스토그램 분포를 그려봅니다. 각 데이터 셋이 정규분포를 따르는 지, 그렇지 않은 지를 알아보는 것만으로도 재미있을 듯 합니다. 그리고 이 데이터가 일종의 모집단(population)이 되겠지요.
그 다음에는 각각의 데이터 셋으로 n개의 표본들을 추출하여 평균(표본평균)을 구하고 그 데이터들로 분포를 그려봅니다. 이 알고리즘을 설계해보는 과정으로 표본 추출의 개념을 실제적으로 익혀볼 수 있으면 좋겠다는 기대를 합니다.
표본평균 데이터들을 가지고 통계적 추정(신뢰 구간)에 관한 스터디까지 경험해보면 이 부분에 대한 개념을 확실히 잡고 갈 수 있지 않을까?라는 기대를 해봅니다.
스터디를 응원해주세요
앞으로 스터디한 내용들을 이곳 블로그와 아래의 유튜브 등을 통하여 계속적으로 나누고 공유할 예정입니다. 스터디가 잘 진행되고 좋은 자료를 만들어낼 수 있도록 격려해주시고, 응원해주세요.
아직 내용이 많이는 없지만 이곳 블로그와 아래의 유튜브를 구독해주시고 응원해주시면 감사하겠습니다^^
www.youtube.com/watch?v=_-39H2ZktiY
다양한 채널을 만들어 놓았지만 아직 적극적으로 운영이 되는 곳은... 쩜쩜쩜...
생활수학 유튜브 : www.youtube.com/channel/UCb349HfXqoq2-LLUT41gN5g
생활수학 페이스북 그룹 : www.facebook.com/groups/math365
생활수학 네이버 카페 : cafe.naver.com/lifemath365
'수업 연구 > 통계와 데이터 분석' 카테고리의 다른 글
[연구 데이터 수집] 어떤 실제 데이터 셋을 수집했나요? 파이썬과 판다스, 웹크롤링을 통해 영화 평점, 야구 타율, 신장 데이터를 수집했어요 [리송스쿨 X 생활수학] (0) | 2020.11.10 |
---|