본문 바로가기
coding 📟/pandas 🧱

[Pandas] 판다스 기초 - Pandas , DataFrame, Series 란?

by 고돌한 데이터 사이언스 2022. 3. 8.
반응형

 

데이터 사이언스 (Data science) 분야에서 일하다 보면,
데이터 가공 및 분석을 진행할 시 데이터 핸들링에 관한 스킬은 필수적이다.
 
오늘은 이러한 데이터 핸들링을 쉽고 편하게 할 수 있는 
파이썬 라이브러리인 Pandas, DataFrame, Series 에 대해서 알아보자.
 

판다스(Pandas) ?


pandas - Python Data Analysis Library의 약자이며,
python을 활용한 데이터 사이언스 영역을 진행 시 필수적인 패키지이며,
 
통계 분석 시 많이 사용되는 R의 DataFrame을 벤치마킹하여 python에서도 비슷한 형태의
DataFrame을 사용할 수 있도록 제공해주는 라이브러리이다.
 
이러한 Pandas Dataframe을 활용하면,
수집한 데이터를 Table 형태로 다룰 수 있어, EDA 및 전처리 등 각종 데이터 핸들링을 쉽고 편하게 할 수 있다.
 

그렇다면... DataFrame 이란?


간단하게 행과 열로 구성되어있는 스프레드 시트 or 테이블이라 생각할 수 있다.
RDB 환경에서 SQL로 테이블을 컨트롤할 수 있는 다수의 기능들이 상당 부분 데이터프레임에 구현되어 있다.
 
개념적으로 접근하면
데이터 프레임은 Series들을 하나의 열로 취급한 집합이라고 볼 수 있다.
 
# 데이터프레임 예시

                   A         B         C         D
2013-01-01  0.469112 -0.282863 -1.509059 -1.135632
2013-01-02  1.212112 -0.173215  0.119209 -1.044236
2013-01-03 -0.861849 -2.104569 -0.494929  1.071804
2013-01-04  0.721555 -0.706771 -1.039575  0.271860
2013-01-05 -0.424972  0.567020  0.276232 -1.087401
2013-01-06 -0.673690  0.113648 -1.478427  0.524988

 

Series는 뭔데??


1차원 배열의 형태로 인덱스와 데이터 값이 일대일 대응되는 구조이다.
(*인덱스란 데이터의 값의 위치를 나타내는 역할)
 
# Series 예시

Out[4]: 
0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0

 

정리하자면....


Pandas는 데이터 사이어스 영역에서 python을 활용 시 DataFrame을 활용하여 EDA 및 전처리 등 각종 데이터 핸들링을 쉽게 할 수 있는 라이브러리이다.
DataFrame 은 1차원 배열의 형태로 구성되어있는 인덱스와 데이터 값이 일대일 대응구조인 Series들을
하나의 열로 취급한 집합, 다차원 테이블(multi-dimensional table)이다.
 

 

반응형

댓글