프로그래밍 공부/데이터분석

[파이썬 데이터 분석] 주피터, 넘파이 기본 명령어 Level.1

sh1256 2022. 11. 14. 23:28
728x90

데이터 이름: chipo

정보출력

  • print(chipo.shape) --> 데이터의 모양(크기) 출력
     (a, b)로 출력되면 데이터는 총 a개이며, column은 b개이다.

  • print(chipo.info()) --> 데이터의 정보 출력
  • chipo.head() --> 모든 데이터 출력
    chipo.head(N): chipo 라는 Dataframe에서 순서대로 N개의 row 데이터를 보여줌.
  • print(chipo.describe()) --> chipo dataframe에서 수치형 피처들의 요약 통계량 확인

  • print(chipo.column), print(chipo.index) --> column이름과 현재 위치를 보여준다.

  • print(len(chipo['item_name'].unique())) --> item_name의 개수(종류 수)를 출력합니다.
  • chipo.groupby('item_name')['order_id'].count() -->  item당 주문 개수를 출력합니다.
  • chipo.groupby('item_name')['order_id'].sum() --> item당 주문 총량를 출력합니다.
  • chipo['item_name'].value_counts()[:10] --> 가장 많이 주문한 item : top 10을 출력합니다.
  • chipo.isnull().sum() -->비어있는 데이터 갯수 출력

전처리

  • chipo['order_id'] = chipo['order_id'].astype(str) -->  order_id를 str으로 변환합니다.(원래는 int였다.)
  • chipo['item_price'] = chipo['item_price'].apply(lambda x: float(x[1:]))
    --> $단위가 붙고 str이였던 item_price를 $를 빼고 float형태로 바꿔준다.

  • chipo['source']=chipo['source'].fillna('NO') --> source 칼럼에 비어있는 것이 있다면 'NO'로 채운다.

 

drop_duplicates 중복되는 데이터 제거