데이터 사이언스 (Data science) 분야에서 일하다 보면,
데이터 가공 및 분석을 진행할 시 데이터 핸들링에 관한 스킬은 필수적이다.
오늘은 이러한 데이터 핸들링을 쉽고 편하게 할 수 있는
파이썬 라이브러리인 Pandas, DataFrame, Series 에 대해서 알아보자.
판다스(Pandas) ?
pandas - Python Data Analysis Library의 약자이며,
python을 활용한 데이터 사이언스 영역을 진행 시 필수적인 패키지이며,
통계 분석 시 많이 사용되는 R의 DataFrame을 벤치마킹하여 python에서도 비슷한 형태의
DataFrame을 사용할 수 있도록 제공해주는 라이브러리이다.
이러한 Pandas Dataframe을 활용하면,
수집한 데이터를 Table 형태로 다룰 수 있어, EDA 및 전처리 등 각종 데이터 핸들링을 쉽고 편하게 할 수 있다.
그렇다면... DataFrame 이란?
간단하게 행과 열로 구성되어있는 스프레드 시트 or 테이블이라 생각할 수 있다.
RDB 환경에서 SQL로 테이블을 컨트롤할 수 있는 다수의 기능들이 상당 부분 데이터프레임에 구현되어 있다.
개념적으로 접근하면
데이터 프레임은 Series들을 하나의 열로 취급한 집합이라고 볼 수 있다.
# 데이터프레임 예시
A B C D
2013-01-01 0.469112 -0.282863 -1.509059 -1.135632
2013-01-02 1.212112 -0.173215 0.119209 -1.044236
2013-01-03 -0.861849 -2.104569 -0.494929 1.071804
2013-01-04 0.721555 -0.706771 -1.039575 0.271860
2013-01-05 -0.424972 0.567020 0.276232 -1.087401
2013-01-06 -0.673690 0.113648 -1.478427 0.524988
Series는 뭔데??
1차원 배열의 형태로 인덱스와 데이터 값이 일대일 대응되는 구조이다.
(*인덱스란 데이터의 값의 위치를 나타내는 역할)
# Series 예시
Out[4]:
0 1.0
1 3.0
2 5.0
3 NaN
4 6.0
5 8.0
정리하자면....
Pandas는 데이터 사이어스 영역에서 python을 활용 시 DataFrame을 활용하여 EDA 및 전처리 등 각종 데이터 핸들링을 쉽게 할 수 있는 라이브러리이다.
DataFrame 은 1차원 배열의 형태로 구성되어있는 인덱스와 데이터 값이 일대일 대응구조인 Series들을
하나의 열로 취급한 집합, 다차원 테이블(multi-dimensional table)이다.
댓글