본문 바로가기

Skill Stacks/데이터분석_Python15

13_Pandas - DataFrame Pandas - DataFrame sort_values 메서드 선택한 행을 정렬해주는 것이다 기본으로는 오름차순으로 정렬된다 NaN은 기본으로 제일 밑에 놓인다 by = "" : 정렬을 할 행의 이름을 넣는다 ascending : 오름차순 또는 내림차순을 결정한다 na_position : NaN 이 어느 위치에 출력이 될지 정해준다 Salary 행을 보면 NaN이 모두 위쪽에 위치한 것을 볼 수 있다 default는 제일 아래에 위치하는 것이다 복수의 행 정렬시키기 nba.sort_values(by = ["Team", "Name"], ascending = [True, False]) by 에 정렬할 행을 순서대로 넣고, ascending에 오름차순 또는 내림차순인지 지정한다 ascending은 꼭 안 해도.. 2023. 5. 4.
12_Pandas - DataFrame Pandas - DataFrame 빈칸, NaN 안에 값을 직접 넣기 .fillna() .fillna() 를 사용하고, argument를 넣어주면, 위에 DataFrame의 NaN이 argument로 들어간 값을 출력하는 것을 볼 수 있다 특정 행에 NaN 대신 값을 넣고 싶을 때 행을 인덱스로 가지고 오고 .fillna() 를 사용한다 이렇게 하면, series로 반환해서, series 안에 있는 NaN을, 입력한 값으로 바꿔준다 하지만 위와 같이 할 경우, DataFrame에는 NaN를 특정 값으로 바꾼 것이 적용이 안 되었다 4번 열의 College 행을 보면 NaN을 볼 수 있다 nba["College"] = nba["College"].fillna("Unknown") # nba["College"].. 2023. 5. 3.
11_Pandas - DataFrame Pandas - DataFrame DataFrame 에서 2개 이상의 행 선택하기 '[]' 안에 행의 이름/인덱스 를 넣으면, Series를 반환하는 것을 알 수 있다 '[]' 안에 리스트를 넣으면, 새로운 DataFrame을 만들어 준다 nba[] 안에 ["Name", "Number", "Team"] 을 넣어주었더니, 해당 행에 대한 값들을 DataFrame으로 출력해주었다 리스트 안의 행의 이름은, 순서대로 안 넣어도 된다 단, 리스트 안에 행의 이름 순으로, 값들이 출력된다 DataFrame에 추가 행을 넣기 19번째 줄 : nba["League"] = "National Basketball Association" DataFrame의 행들 중, 제일 마지막에 League라는 행 이름으로 Nationa.. 2023. 5. 2.
10_Pandas - DataFrame Pandas - DataFrame DataFrame 이란? 2D 의 자료 구조다 / 테이블이라고 생각하면 된다 즉 행과 열로 데이터가 이루어져 있다 DataFrame Methods and Attributes import pandas as pd nba = pd.read_csv("nba.csv") nba.head() # 테이블 제일 위의 5개의 열을 출력해준다 # 5개가 기본이고 argument에 위에서 몇 개를 출력할지 지정할 수 있다 nba.tail() # 테이블 제일 아래의 5개의 열을 출력해준다 # 5개가 기본이고 argument에 위에서 몇 개를 출력할지 지정할 수 있다 nba.index # output : RangeIndex(start=0, stop=458, step=1) nba.shape # o.. 2023. 5. 1.
9_Pandas - Series Pandas - Series apply() series에 있는 모든 값에 함수를 넣어서, 새로운 값을 만드는 것이다 여기서 len은 문자열의 길이, 또는 리스트의 길이를 알고 싶을 때 사용하는 함수이다 위에 같은 경우, pokemon 에 있는 모든 종류의 문자열의 길이를 출력해준다 Grass 같은 경우, 문자열의 길이가 5고, Fire 같은 경우 4이다 따로 함수를 만들어서 apply() 에 argument로 넣어서 사용할 수 있다 rank_pokemon()에 parameter가 있지만 apply()에서는 각각의 값들을 rank_pokemon()의 argument로 자동으로 넣어준다 map() apply()는 함수를 받아온다면, map()은 객체(예. 딕셔너리)를 받는다 그 외에도 series를 map(.. 2023. 4. 29.
8_Pandas - Series Pandas - Series View import pandas as pd pokemon_df = pd.read_csv("./pandas/pokemon.csv", usecols=["Pokemon"]) pokemon_series = pokemon_df.squeeze("columns") pokemon_df 를 통해서 .squeeze() 를 하여, pokemon_series라는 series를 만들었다 하지만 pokemon_df와 pokemon_series는 독립적인 관계가 아니다 즉 pokemon_series에서, 값을 바꾸면, pokemon_df에 있는 값도 바뀌게 된다 pokemon_series[0] = "Changed" pokemon_series[0]를 "Changed"로 바꿨다 pokemon_df의 0번.. 2023. 4. 28.
7_Pandas - Series Pandas - Series Get을 사용해서 값을 찾기 get() 을 사용하면, 인덱스를 가지고 값을 찾을 수 있다 get() 을 사용하게 되면, 인덱스가 없으면, output을 아무것도 가지지 않는다 즉 None을 출력하는 것이다 import pandas as pd pokemon = pd.read_csv("./pandas/pokemon.csv", index_col="Pokemon").squeeze() pokemon.get(0) # Output : 'Grass' pokemon.get("Bulbasaur") # Output : 'Grass' pokemon.get([4, 10]) # Output # Pokemon # Charmeleon Fire # Metapod Bug # Name: Type, dtype:.. 2023. 4. 26.
6_Pandas - Series Pandas - Series 인덱스 또는 값 중에, 찾고자 하는 것이 있는지 확인 하는 것 원래 파이썬을 사용할 때에, 특정 값을 찾을 때 사용하는 'in'을 사용하면 된다 "car" in "racecar" output : True import pandas as pd pokemon = pd.read_csv("./pandas/pokemon.csv", usecols=['Pokemon']).squeeze() pokemon.head() # output # 0 Bulbasaur # 1 Ivysaur # 2 Venusaur # 3 Charmander # 4 Charmeleon # Name: Pokemon, dtype: object "Bulbasaur" in pokemon # Output : False "Bulbas.. 2023. 4. 25.
5_Pandas - Series Pandas - Series Head and Tail head() 기본은, 제일 위에서 부터, 5개의 데이터를 불러와 주는 것이다 괄호 안에, 데이터의 개수를 넣어, 원하는 만큼의 데이터를 불러올 수 있다 import pandas as pd pokemon = pd.read_csv("./pandas/pokemon.csv", usecols=["Pokemon"]).squeeze() # 위에서부터 5개의 데이터 출력 pokemon.head() # 위에서부터 3개의 데이터 출력 pokemon.head(3) # 위에서부터 10개의 데이터 출력 pokemon.head(10) tail() 기본은, 제일 밑에서 부터, 5개의 데이터를 불러와 주는 것이다 괄호 안에, 데이터의 개수를 넣어, 원하는 만큼의 데이터를 불러올 .. 2023. 4. 24.