본문 바로가기

프로그래밍/Python

[python(파이썬)]비속어 제거하기(better-profanity)

by Mr.noobiest 2022. 6. 27.

NLP처리를 하다가 부정맨션 중 중요한 키워드만 추출하는 과정을 진행중인데,

비속어의 경우 100% 부정언어기 때문에 중요한 키워드가 아닌 비속어만 추출하는 문제가 발생했다,

어차피 부정맨션만을 모아놓은 것이기 때문에 비속어는 불필요한 데이터이므로 제거해줄려고 한다,

문제 예시

ex) Fxxx Dumx Stupid Service -> 중요한 키워드 : Service

실제 추출되는 키워드 : Fxxx Dumx Stupid

#비속어를 변경 후 제거할 예정

!pip install better-profanity

from better_profanity import profanity
text = "비속어가 포함되어 있는  문장 Please leave me alone and just piss off"
censored = profanity.censor(text)
print(censored)


#결과 : Please leave me alone and just ****

censored .replace("****","")로 변환하여 제거해준다.

for문을 사용해서 반복해서 해당 비속어들을 삭제해주면 된다.

끝.

728x90

'프로그래밍 > Python' 카테고리의 다른 글

[python(파이썬)]dataframe 호출시 na 살리기 (0)	2022.07.22
[python(파이썬)]dataframe 특정 컬럼의 값만 바꾸기(replace specific columns) (0)	2022.07.22
[Pandas(판다스)] 특정 row(index)만 범위 삭제하기 (0)	2022.06.08
[Python].ipynb to .py (Window, Linux) / convert .ipynb to .py (0)	2022.04.11
[Jupyter notebook] 주피터 노트북 모양대로 티스토리에 글쓰기 (0)	2021.06.23

티스토리툴바

티스토리툴바