티스토리 뷰
확률변수
무작위 실험을 했을 때, 특정 확률로 발생하는 각각의 결과를 수치적 값으로 표현한 변수를 말합니다. 또한 확률변수를 함수라고도 합니다.
대표적인 확률변수의 종류에는 이산확률 변수(Discrete random variable)와 연속확률 변수(Continuous random variable)가 있습니다.이산확률 변수는 확률 변수 X가 어느 구간의 모든 실수값을 택하지 않고, 0,1,2와 같은 고정된 값만 택하는 변수를 말합니다. 상태공간이 유한 집합인 또는 셈할 수 있는 무한집합인 확률 변수를 말합니다.
연속확률 변수는 확률 변수가 취하는 값이 연속된 구간으로 나타나는 확률변수를 말합니다. 즉, 확률변수가 어떤 구간의 모든 실수값을 택할 때 이 변수를 연속적으로 이어진 변수로 이루어져있습니다.
확률 분포
확률분포는, 확률 변수의 모든 값과 그에 대응하는 확률들이 어떻게 분포하고 있는지를 말합니다. 확률 분포는 확률 변수가 어떤 종류의 값을 가지는가에 따라서 크게 이산 확률 분포와 연속 확률 분포 중 하나에 속하며, 둘중 어디에도 속하지 않는 경우도 존재합니다. 이산 확률 분포는 확률 질량 함수를 통하여 표현 가능합니다. 또한, 연속 확률 분포는 확률 밀도 함수를 통해 표현 가능합니다.확률 함수는 확률 변수에 의해 정의된 실수를 확률(0~1사이)에 대응 시키는 함수를 말합니다. 확률변수와 확률 함수를 알고있다면, 특정 사건이 일어날 확률을 예측할 수 있습니다.
확률질량함수(probability mass function : PMF)
이산확률 변수의 확률분포(확률 변수와 그에 대응하는 확률의 관계)를 확률질량함수라고 부릅니다.(확률 질량함수를 그리다보면 막대 그래프 같은 느낌을 줍니다.) 확률 밀도 함수와 대응됩니다.
예를 들자면
확률 질량함수의 성질
확률밀도 함수(probability density function, PDF)
CDF(누적분포함수)의 미분이며, 주어진 변량이 정해진 구간 안에 존재할 확률을 나타내는 함수입니다. 이론상으로는 연속적으로 정의되지만, 실질적으로는 실험적으로 얻어진 한정된 샘플에 의해서 정의되며, 전체 샘플 수에서 이산화된 구간 내의 사건이 발견될 확률을 히스토그램으로 표현하게 됩니다.
확률밀도 함수의 성질
누적 분포 함수(cumulative distribution function : CDF)
주어진 확률 변수가 특정 값보다 작거나 같은 확률을 나타내는 함수입니다.
확률변수의 기댓값, 분산, 표준편차
확률론에서, 확률 변수의 기댓값은 각 사건이 벌어졌을 때의 이득과 그 사건이 벌어질 확률을 곱한 것을 전체 사건에 대해 합한 값입니다. 이것을 어떤 확률적 사건에 대한 평균의 의미로 생각할 수 있습니다.
기댓값
분산
표준편차
실습
python scipy 패키지로 실습합니다. scipy에서 확률분포 기능을 사용하려면 우선 해당 확률분포에 대한 확률분포 클래스 객체를 생성한 후에 이 객체의 메서드를 호출해야합니다.
확률밀도함수
sp.stats.norm(loc=1, scale=2) 이부분을 해석하자면 평균이 1이고(loc=1) 분산이 2인(scale=2) 정규분포 그래프를 생성하는 것입니다. linspace함수는 시작점과 끝점을 균일하게 나눠줄 수 있습니다. np.linspace(-8, 8, 100)의 의미는 -8부터 8 까지 균일한 100개의 array를 생성합니다.
누적 분포 함수
참고 : 위키, http://www.birc.co.kr/2017/02/03/08%ED%99%95%EB%A5%A0%EB%B6%84%ED%8F%AC/