통계학에서 배우는 여러 확률 분포(베르누이 분포, 이항 분포, 정규 분포 등)를 코딩이나 문제 풀이에 적용하려 할 때 어려움을 겪는 사람들을 위해, 확률 분포의 개념을 쉽고 명확하게 설명하는 영상. 전문 용어나 복잡한 수식을 최대한 배제하고 비유를 통해 설명하여 초보자도 쉽게 이해할 수 있도록 돕는다. 영상을 끝까지 시청하면 각 분포의 의미와 관계를 파악하고 통계적 사고력을 향상시킬 수 있다.
확률 분포는 단순히 외워야 할 공식 묶음이 아니라, 데이터의 가능성을 보여주는 지도와 같다.
정규 분포 곡선은 가운데가 높고 양쪽으로 갈수록 낮아지는 산봉우리 모양으로, 함수 또는 도표로 표현된다. 이는 어떤 확률 변수가 특정 값을 가질 가능성을 나타내는 것이다.
확률 분포를 이해하기 쉽게 "값들의 가능성을 그림으로 알려주는 가능성 지도"라고 표현한다. 확률 변수의 종류에 따라 가능성 지도가 달라진다.
A고등학교 1학년 일반 학생이 수학 시험에서 한 문제를 풀 때, 정답 또는 오답 두 가지 결과만 나오는 경우를 베르누이 시행이라고 한다.
베르누이 분포는 성공 또는 실패의 확률을 나타내는 분포이다. 즉, 한 번의 베르누이 시행에서 성공할 확률과 실패할 확률을 보여주는 가능성 지도이다.
시험에서 여러 문제를 풀 때, 각 문제에 대해 맞았는지 틀렸는지를 평가받는 상황을 가정한다. 이 때, 학생의 점수는 성공 횟수에 따라 결정된다. 반 학생 전체의 시험 점수를 분포로 나타낸 것을 이항 분포라고 한다.
이항 분포는 시험 점수의 가능성 지도이며, 더 정확하게는 N회 베르누이 시행 후 성공 횟수의 가능성 지도이다. 문제 개수와 배점에 따라 이항 분포의 모양이 달라진다.
문제가 하나밖에 없다면 베르누이 분포와 같아진다. 즉, 이항 분포는 베르누이 분포의 확장 버전이다.
이항 분포에서 문제 개수(n)가 무한대로 커질수록 점수 값은 무한히 촘촘해지고, 막대 그래프는 매끄러운 곡선 형태를 이룬다. 이 곡선을 정규 분포 곡선이라고 한다.
정규 분포는 빈틈없이 촘촘한 값들(연속형 확률 변수)의 가능성 지도이다.
이항 분포는 끊어지는 값(이산형 확률 변수)을 다루고, 정규 분포는 빈틈없는 값을 다룬다. 정규 분포는 좌우 대칭 종 모양이라는 특징을 가진다.
베르누이 분포가 비대칭적인 경우에도 시행 횟수(n)가 충분히 크다면 이항 분포는 좌우 대칭 종 모양의 정규 분포에 가까워진다. 이를 수학적으로 표현하면 n * p와 n * (1 - p)가 5 이상이어야 한다.
정규 분포는 평균(μ)과 분산(σ²)이라는 두 가지 중요한 특징을 가진다.
정규 분포를 따르는 시험 점수(x)에서 평균을 빼고 표준 편차(σ)로 나누는 과정을 표준화라고 한다. 표준화된 값은 z로 표현하며, 평균이 0이고 표준 편차가 1인 Z 분포(표준 정규 분포)를 따른다.
표준 정규 분포 테이블을 이용하여 특정 점수가 상위 몇 퍼센트에 해당하는지 알 수 있다.
표준화는 정규 분포를 비교하고 분석하는 데 유용한 도구이다.
표준화된 빈틈없는 값들의 좌우 대칭 종 모양 가능성 지도이다. 즉, 정규 분포를 표준화(z = (x - μ) / σ)한 것이다.
이항 분포, 정규 분포, 표준 정규 분포는 학생이 자신의 성적 위치를 가늠할 수 있게 해준다.
학생 개개인의 점수가 아닌, 반 평균에 주목한다. 선생님 입장에서 반 평균이 전체 평균과 비교하여 높은 편인지 낮은 편인지 판단하는 것이 중요하다.
각 반의 평균 점수(표본 평균)들을 모아 분포를 만들면 정규 분포 형태를 띤다. 이 때, 평균은 모집단의 평균(μ)과 동일하지만, 분산은 모집단의 분산을 반 학생 수(n)로 나눈 값(σ²/n)이 된다.
표본 평균(x̄)을 표준화하는 방법은 다음과 같다: z = (x̄ - μ) / (σ / √n). 이 때, z는 표준 정규 분포를 따른다.
정규 분포에서 n개씩 뽑아서 나오는 값들의 평균을 표준화한 결과의 가능성 지도이다.
모집단의 표준 편차(σ)를 모르는 경우, 표본의 표준 편차(s)를 대신 사용한다. 이 경우, 표준 정규 분포 대신 t분포를 사용한다.
t분포는 표준 정규 분포와 유사하지만, 불확실성을 감안하여 가운데가 낮고 양쪽 꼬리가 높다.
정규 분포에서 n개씩 뽑아서 나오는 값들의 평균을 s로 표준화한 결과의 가능성 지도이다.
모집단의 표준 편차(σ)를 사용했는지, 표본의 표준 편차(s)를 사용했는지에 따라 달라진다. 표본 크기(n)가 커질수록 t분포는 표준 정규 분포에 가까워진다. t분포의 모양을 결정하는 요소를 자유도라고 한다.
학생들의 점수 분포에서 표본 평균이 아닌 분산(퍼진 정도)에 관심을 갖는다.
표본 분산을 모분산으로 나누고, 자유도를 곱한 값을 분포로 나타낸 것이다.
정규 분포에서 n개씩 뽑아서 나오는 값들의 분산을 표준화한 결과의 가능성 지도이다.
두 집단(예: 1학년과 2학년)의 분산 차이에 관심을 갖는다.
두 집단의 표본 분산 비율을 분포로 나타낸 것이다.
정규 분포에서 n개씩 뽑힌 두 집단의 퍼진 정도를 서로 나눈 비율의 가능성 지도이다.
분모와 분자의 자유도가 클수록 좌우 대칭 종 모양에 가까워진다.
표준 정규 분포, t분포, 카이제곱 분포는 서로 연결되어 있으며, 통계 분석에서 중요한 역할을 한다.
통계 개념을 조각조각 암기하는 방식에서 벗어나, 큰 구조를 이해하는 것이 중요하다.
통계 개념을 하나의 구조 안에서 이해할 수 있도록 전체 흐름을 잡아주는 강의이다. 그림, 비유, 시뮬레이션 등을 통해 통계의 큰 구조를 먼저 이해하도록 설계되었다.