728x90 자연어처리 /인물형 챗봇 만들기2 데이터 전처리 데이터 전처리 과정 우선 조장님이 해설과 대사들을 원본으로 잘 정리해 주셨는데 나는 챗봇으로 이 데이터를 쓰고싶으니, 자연어처리 책을 보고 챗봇을 위한 데이터로 다시 정제해야겠다. 이후 벌트나 LSTM같은 생성모델로 대본 생성이나 다른 프로젝트도 스터디에서 진행하는 식으로 하면 좋을 것 같다. 대강 보니 챗봇 텐서플로우와 머신러닝으로 배우는 자연어처리에서는 데이터를 3칼럼(질문, 답, 라벨 - 라벨은 일상대화0, 긍정1, 부정2)로 이루어져 있다. 라벨은 이 데이터에서는 주어져 있지 않지만 굳이 사용하지 않아도 될 것 같다. 우선 데이터 JAJGO 전처리과정을 필사해 본 뒤, 6장부분을 따라서 해보며 딥러닝 챗봇 형식을 익힌 후 그에 맞춰 데이터를 정제해야겠다. [드라마 인물 Ai 만들기]드라마 W 대본으로 nlp하기! 펭수처럼 대답하는 모델 프로젝트를 진행하려다, 펭수 유투브 자막이나 sns글 등에서 펭수에 관련한 데이터가 부족함을 깨달았다. 그래서 데이터가 충분히 주어질 영화나 드라마 대본을 찾아보다 드라마 W가 작가가 후배 작가들을 위해 블로그에 드라마 대본을 공개해 둔 것을 찾아서 이 드라마 대본으로 학습을 진행하기로 결정하였다. 우선 다음까지 이 한글파일을 데이터 전처리를 진행하기로 하였다. 데이터를 전처리 하기 이전에 가용할 수 있는 초반의 csv 한글파일로 만들어오는 것을 과제로 하였다. (컬럼은 인물, 대사 등등) 드라마 대사에 관한 모르는 용어들(E, C 등)이 있어서 드라마 대본 용어를 찾아보았다. http://egloos.zum.com/siche/v/176311 https://namu.wiki/w/%.. 이전 1 다음 728x90