티스토리 뷰

데이터/python lib

Pandas package

로또_ 2020. 2. 20. 13:19

pandas package

대부분의 데이터는 시계열(series)이나 표(table) 형태로 나타내는데, pandas 패키지에서는 이러한 데이터를 다루기위해 Series 클래스와 DataFrame 클래스를 제공합니다. 웨스 맥키니가 투자 운용회사인 AQR에 재직중이던 2008년 초에 개발하였고 NumPy기반입니다.

 

Series

sereis는 munpy에서 제공하는 1차원 배열과 비슷하지만 각 데이터에 index를 붙일 수 있습니다. 데이터는 value라고 합니다.

sereis = index + value 라고 할 수 있습니다.( index가 column화 되있지 않습니다.)

 

 

Series 생성

Series class 생성자에 넣어서 다음과 같이 객체를 만들 수 있습니다. 인덱스의 길이는 data의 길이와 같아야 합니다. 인덱스 값을 인덱스 라벨이라고도 하며, 문자열, 날짜, 시간, 정수 등도 가능합니다. 인덱스를 지정하지 않으면 0부터 시작하는 정수값으로 index가 자종으로 지정됩니다.

 

index는 .index로 접근가능하며, data값들은 .values로 접근 할 수 있습니다.

 

그리고 name 속성을 이용하여 시리즈 데이터에 이름을 붙일 수 있습니다. 시리즈의 index에도 이름을 붙이는 것도 가능합니다!

 

 

series 연산

Numpy 배열처럼 Series도 벡터화 연산을 할 수 있습니다(브로드캐스팅). 이러한 연산은 values에만 적용되며 index값은 변하지 않습니다. 

 

 

Series 인덱싱

Series는 Numpy 배열에서 가능한 인덱싱 방법 이외에도 index label을 이용한 인덱싱도 가능합니다. 배열 인덱싱이나 인덱스 라벨을 이용한 슬라이싱(slicing)도 가능합니다.

 

 

반응형