728x90
데이터 이름: chipo
정보출력
- print(chipo.shape) --> 데이터의 모양(크기) 출력
(a, b)로 출력되면 데이터는 총 a개이며, column은 b개이다. - print(chipo.info()) --> 데이터의 정보 출력
- chipo.head() --> 모든 데이터 출력
chipo.head(N): chipo 라는 Dataframe에서 순서대로 N개의 row 데이터를 보여줌. - print(chipo.describe()) --> chipo dataframe에서 수치형 피처들의 요약 통계량 확인
- print(chipo.column), print(chipo.index) --> column이름과 현재 위치를 보여준다.
- print(len(chipo['item_name'].unique())) --> item_name의 개수(종류 수)를 출력합니다.
- chipo.groupby('item_name')['order_id'].count() --> item당 주문 개수를 출력합니다.
- chipo.groupby('item_name')['order_id'].sum() --> item당 주문 총량를 출력합니다.
- chipo['item_name'].value_counts()[:10] --> 가장 많이 주문한 item : top 10을 출력합니다.
- chipo.isnull().sum() -->비어있는 데이터 갯수 출력
전처리
- chipo['order_id'] = chipo['order_id'].astype(str) --> order_id를 str으로 변환합니다.(원래는 int였다.)
- chipo['item_price'] = chipo['item_price'].apply(lambda x: float(x[1:]))
--> $단위가 붙고 str이였던 item_price를 $를 빼고 float형태로 바꿔준다. - chipo['source']=chipo['source'].fillna('NO') --> source 칼럼에 비어있는 것이 있다면 'NO'로 채운다.
drop_duplicates 중복되는 데이터 제거
'프로그래밍 공부 > 데이터분석' 카테고리의 다른 글
[파이썬 데이터 분석] 피처 형태의 종류, 피처간의 상관관계 (0) | 2022.11.14 |
---|---|
[파이썬 데이터 분석 00~01] 탐색, 시각화, 목적과 개발환경 구축 (0) | 2022.11.08 |