본문 바로가기
Skill Stacks/데이터분석_Python

10_Pandas - DataFrame

by JayAlex07 2023. 5. 1.

Pandas - DataFrame

 

 

DataFrame 이란?

2D 의 자료 구조다 / 테이블이라고 생각하면 된다

  • 즉 행과 열로 데이터가 이루어져 있다


 

 

 

DataFrame Methods and Attributes

import pandas as pd

nba = pd.read_csv("nba.csv")

nba.head()
# 테이블 제일 위의 5개의 열을 출력해준다
# 5개가 기본이고 argument에 위에서 몇 개를 출력할지 지정할 수 있다

nba.tail()
# 테이블 제일 아래의 5개의 열을 출력해준다
# 5개가 기본이고 argument에 위에서 몇 개를 출력할지 지정할 수 있다

nba.index
# output : RangeIndex(start=0, stop=458, step=1)

nba.shape
# output : (458, 9)
# 열과 행의 개수

nba.dtypes
# 각 행의 데이터 타입을 알려준다
# output
# Name         object
# Team         object
# Number      float64
# Position     object
# Age         float64
# Height       object
# Weight      float64
# College      object
# Salary      float64
# dtype: object

 

 

nba.values

  • numpy array로 출력해준다
    • 2중 리스트로 묶여있는 것을 볼 수 있다

 

 

nba.columns

  • 행의 정보를 알려준다

  • 열의 정보를 찾을 때에는, 맨 왼쪽의 숫자를 보고 정보를 찾으면 된다
  • 행의 경우 Name, Team, Number, Position, Age, Height, Weight, College, Salary가 행의 인덱스라고 보면 된다

 

 

nba.info()

  • nba가 DataFrame 이라는 정보
  • 몇 개의 정보가 있는지와, 인덱스가 0부터 457까지 있는 것
  • 행의 개수
  • 행에 대한 정보 등을 알 수 있다

 

 

.sum()

  • 기본적으로 .sum() 을 하게 되면, 각 행에 있는 모든 데이터를 더해준다

  • 각 열에 있는 데이터를 더하고 싶으면 .sum()axis parameter에 columns 를 넣어준다
    • columns 말고 1을 넣어줄 수 있음
    • 반대로 0은 행을 뜻 한다

 

 

DataFrame에서 하나의 행 선택하기

Series로 반환해서 출력해주고, Series에서 사용하는 메서드 또는 속성을 사용할 수 있다

  • 위에 nba는 DataFrame 이다
  • nba.Name 즉, 행의 이름을 '.' 다음에 넣으면, 해당 행을 Series로 반환해서 출력해준다
    • 하지만 행의 이름에 공간이 있으면, 작동하지 않는다

 

 

  • 인덱스를 찾는 것처럼 '[]'를 사용해서, 안에 행 이름을 넣으면 된다
    • 행 이름에 공간이 있어도 100프로 작동한다

'Skill Stacks > 데이터분석_Python' 카테고리의 다른 글

12_Pandas - DataFrame  (0) 2023.05.03
11_Pandas - DataFrame  (0) 2023.05.02
9_Pandas - Series  (0) 2023.04.29
8_Pandas - Series  (0) 2023.04.28
7_Pandas - Series  (0) 2023.04.26