NLP처리를 하다가 부정맨션 중 중요한 키워드만 추출하는 과정을 진행중인데,
비속어의 경우 100% 부정언어기 때문에 중요한 키워드가 아닌 비속어만 추출하는 문제가 발생했다,
어차피 부정맨션만을 모아놓은 것이기 때문에 비속어는 불필요한 데이터이므로 제거해줄려고 한다,
문제 예시
ex) Fxxx Dumx Stupid Service -> 중요한 키워드 : Service
실제 추출되는 키워드 : Fxxx Dumx Stupid
#비속어를 변경 후 제거할 예정
!pip install better-profanity
from better_profanity import profanity
text = "비속어가 포함되어 있는 문장 Please leave me alone and just piss off"
censored = profanity.censor(text)
print(censored)
#결과 : Please leave me alone and just ****
censored .replace("****","")로 변환하여 제거해준다.
for문을 사용해서 반복해서 해당 비속어들을 삭제해주면 된다.
끝.
728x90
반응형
'프로그래밍 > Python' 카테고리의 다른 글
[python(파이썬)]dataframe 호출시 na 살리기 (0) | 2022.07.22 |
---|---|
[python(파이썬)]dataframe 특정 컬럼의 값만 바꾸기(replace specific columns) (0) | 2022.07.22 |
[Pandas(판다스)] 특정 row(index)만 범위 삭제하기 (0) | 2022.06.08 |
[Python].ipynb to .py (Window, Linux) / convert .ipynb to .py (0) | 2022.04.11 |
[Jupyter notebook] 주피터 노트북 모양대로 티스토리에 글쓰기 (0) | 2021.06.23 |