열심히 코딩 하숭!

python 전처리 함수 ① (read_csv, astype, drop, dropna, fillna, datetime, tolist, reset_index, concat, set) 본문

코드

python 전처리 함수 ① (read_csv, astype, drop, dropna, fillna, datetime, tolist, reset_index, concat, set)

채숭이 2024. 4. 21. 16:28

python으로 데이터를 처리하고 작업하면서

맨날 헷갈려서 찾아보는 코드들! (내 기준)

 


 

CSV 불러오기

df = pd.read_csv("df.csv", encoding="cp949")

 

 

Column data type 변환

df['습도'] = df['습도'].astype(float)

 

Column drop

df.drop('습도', inplace=True , axis=1)

df.drop(['습도', '강수량'], inplace=True , axis=1)

 

null인 행만 제거

df = df.dropna(subset=['메인1'])

 

0으로 결측치 채우기

df = df.fillna(0)

 

날짜 처리 - datetime

df['날짜'] = pd.to_datetime(df['날짜'], format='mixed')

df['day'] = df['날짜'].dt.day
df['year'] = df['날짜'].dt.year
df['month'] = df['날짜'].dt.month
df['monthday'] = df['month'] * 100 + df['day']

 

column의 값을 list로 변환하여 전달

menu_texts = df['menu'].tolist()

 

index 재설정 및 기존 index 삭제

df = df.reset_index(drop=True)

 

df 끼리 연결

df = pd.concat([df, new_features_df], axis=1)

 

어떤 coulmn에 특정 문자열이 포함될 경우 해당하는 행을 제거

food_df = food_df[~food_df['식품명'].str.contains('라떼')]

 

df끼리 비교하여 같은 데이터가 몇개인지, 다른 데이터는 몇개인지 검사

main2_overlap_set = set(df['main2']) & set(food_df['대표식품명'])
main2_non_overlap_set = set(df['main2']) - set(food_df['대표식품명'])

 

 

 

다음에 계속 ~~