본문 바로가기
자연어처리 /인물형 챗봇 만들기

데이터 전처리

by mintee
728x90

데이터 전처리 과정

우선 조장님이 해설과 대사들을 원본으로 잘 정리해 주셨는데 

나는 챗봇으로 이 데이터를 쓰고싶으니, 자연어처리 책을 보고 챗봇을 위한 데이터로 다시 정제해야겠다. 

이후 벌트나 LSTM같은 생성모델로 대본 생성이나 다른 프로젝트도 스터디에서 진행하는 식으로 하면 좋을 것 같다. 

대강 보니 챗봇 텐서플로우와 머신러닝으로 배우는 자연어처리에서는 데이터를 3칼럼(질문, 답, 라벨 - 라벨은 일상대화0, 긍정1, 부정2)로 이루어져 있다. 

라벨은 이 데이터에서는 주어져 있지 않지만 굳이 사용하지 않아도 될 것 같다. 

우선 데이터 JAJGO 전처리과정을 필사해 본 뒤, 6장부분을 따라서 해보며 딥러닝 챗봇 형식을 익힌 후 그에 맞춰 데이터를 정제해야겠다.

 

 

728x90

댓글