반응형
Dataframe컬럼만 싹 지우기
CSV파일을 Spark SQL에서 사용하기 위해서 Database에 적재할 필요가 있는데,
단순히 LOAD DATA INPATH로 Database에 적재할 경우 컬럼명들을 데이터로 판단해서 Insert 하는 문제가 발생한다.
따라서 우리는 Dataframe에서 컬럼을 아예 삭제해야한다.
방법은 간단하다.
헤더만 삭제하는 코드
import pandas as pd
temp_df=pd.read_csv('filepath/filename.csv,skiprows=1)
temp_df.to_csv('filepath/filename_save.csv,index=false)
이렇게하면 헤더만 삭제 하고 첫번째 데이터가 가장 위로 올라간다.
이후 Hive에 해당 파일을 저장하면 된다.
끝.
728x90
반응형