열심히 코딩 하숭!
python 전처리 함수 ① (read_csv, astype, drop, dropna, fillna, datetime, tolist, reset_index, concat, set) 본문
코드
python 전처리 함수 ① (read_csv, astype, drop, dropna, fillna, datetime, tolist, reset_index, concat, set)
채숭이 2024. 4. 21. 16:28python으로 데이터를 처리하고 작업하면서
맨날 헷갈려서 찾아보는 코드들! (내 기준)
CSV 불러오기
df = pd.read_csv("df.csv", encoding="cp949")
Column data type 변환
df['습도'] = df['습도'].astype(float)
Column drop
df.drop('습도', inplace=True , axis=1)
df.drop(['습도', '강수량'], inplace=True , axis=1)
null인 행만 제거
df = df.dropna(subset=['메인1'])
0으로 결측치 채우기
df = df.fillna(0)
날짜 처리 - datetime
df['날짜'] = pd.to_datetime(df['날짜'], format='mixed')
df['day'] = df['날짜'].dt.day
df['year'] = df['날짜'].dt.year
df['month'] = df['날짜'].dt.month
df['monthday'] = df['month'] * 100 + df['day']
column의 값을 list로 변환하여 전달
menu_texts = df['menu'].tolist()
index 재설정 및 기존 index 삭제
df = df.reset_index(drop=True)
df 끼리 연결
df = pd.concat([df, new_features_df], axis=1)
어떤 coulmn에 특정 문자열이 포함될 경우 해당하는 행을 제거
food_df = food_df[~food_df['식품명'].str.contains('라떼')]
df끼리 비교하여 같은 데이터가 몇개인지, 다른 데이터는 몇개인지 검사
main2_overlap_set = set(df['main2']) & set(food_df['대표식품명'])
main2_non_overlap_set = set(df['main2']) - set(food_df['대표식품명'])
다음에 계속 ~~