pandas package 대부분의 데이터는 시계열(series)이나 표(table) 형태로 나타내는데, pandas 패키지에서는 이러한 데이터를 다루기위해 Series 클래스와 DataFrame 클래스를 제공합니다. 웨스 맥키니가 투자 운용회사인 AQR에 재직중이던 2008년 초에 개발하였고 NumPy기반입니다. Series sereis는 munpy에서 제공하는 1차원 배열과 비슷하지만 각 데이터에 index를 붙일 수 있습니다. 데이터는 value라고 합니다. sereis = index + value 라고 할 수 있습니다.( index가 column화 되있지 않습니다.) Series 생성 Series class 생성자에 넣어서 다음과 같이 객체를 만들 수 있습니다. 인덱스의 길이는 data의 길이와 ..
다음 5개의 파일을 제공합니다. 먼저 schema.csv파일을 살펴봅니다. 설문 스키마가 있는 csv파일입니다. 이 스키마에는 multipleChoiceResponses.csv 및 freeformResponses.csv의 각 열 이름에 해당하는 질문이 포함되어 있습니다. shape 인스턴스 변수로 다음의 csv파일이 총 290행 3열로 이루어진 2차원 배열인 것을 확인하였습니다. 또한, tail(), head() 함수로 다음과 같은 변수가 있다는 것을 볼 수 있습니다. 다음은 multipleChoiceResponse.csv 파일을 살펴봅니다. 16,716개의 행과 228개의 열을 확인할 수 있습니다. columns을 통해 열의 index 값들을 확인합니다. shape로 확인한 총 228개의 값이 있을겁니..
귀무가설(null hypothesis, H0) 통계학에서 처음부터 버릴 것을 예상하는 가설입니다. 차이가 없거나 의미있는 차이가 없는 경우의 가설이며, 이것이 맞거나 맞지 않다는 통계학적 증거를 통해 증명하려는 가설입니다. 예를 들어, 범죄 사건에서 용의자가 있을 때 형사는 용의자가 범죄를 저질렀다는 추정인 대립가설을 세우게 됩니다. 이때 귀무가설을 용의자는 무죄라는 가설입니다. 대립가설(alternative hypothesis, H1) 보통 모집단에서 독립변수와 결과변수 사이에 어떤 특정한 관련이 있다는 꼴입니다. 어떤 가능성에 대해 확률적인 가설검정을 할때 귀무가설과 함꼐 사용됩니다. 이 가설은 귀무가설처럼 검정을 직접 수행하기는 불가능하며, 귀무가설을 기각함으로써 받아드려지는 반증의 과정을 거쳐 수..
이항분포 연속된 n번의 독립적 시행에서 각 시행이 확률 p를 가질 때의 이산 확률 분포입니다. 이러한 시행은 베르누이 시행이라고 불리기도 합니다. 사실 n = 1일때 이항 분포는 베르누이 분포입니다. 예시로는, 일반적인 주사위를 10회 던져서 숫자 6이 나오는 횟수를 셉니다. 이 분포는 n = 10이고 p = 1/6인 이항분포 입니다. 또 다른 예시는, 아주 많은 인구의 5%가 쌍커풀이 있다고 해봅니다. 그리고 100명을 무작위적으로 선택합니다. 당신이 선택한 쌍커풀을 가진 사람의 수는 n = 100이고 p = 0.05인 이항분포를 따릅니다.