[Pandas(Dataframe)]Delete Header(columns) for Hive2 insert

Dataframe컬럼만 싹 지우기

CSV파일을 Spark SQL에서 사용하기 위해서 Database에 적재할 필요가 있는데,

단순히 LOAD DATA INPATH로 Database에 적재할 경우 컬럼명들을 데이터로 판단해서 Insert 하는 문제가 발생한다.

따라서 우리는 Dataframe에서 컬럼을 아예 삭제해야한다.

방법은 간단하다.

import pandas as pd


temp_df=pd.read_csv('filepath/filename.csv,skiprows=1)

temp_df.to_csv('filepath/filename_save.csv,index=false)

이렇게하면 헤더만 삭제 하고 첫번째 데이터가 가장 위로 올라간다.

이후 Hive에 해당 파일을 저장하면 된다.

끝.

728x90

[Python] pandas NaN값 처리하기 (0)	2023.01.16
[Python] pandas Dataframe TypeError: Cannot perform 'rand_' with a dtyped [object] array and scalar of type [bool] (0)	2023.01.16
[jupyter notebook]requirement already satisfied no module named pip install python version (0)	2022.11.25
[jupyter notebook]kernel starting please wait, connection failed 에러 해결하기 (0)	2022.10.04
[Python(파이썬)]각기 다른 Dataframe에서 동일 값이면 replace(변경)하기 (0)	2022.09.14