728x90
펭수처럼 대답하는 모델 프로젝트를 진행하려다, 펭수 유투브 자막이나 sns글 등에서 펭수에 관련한 데이터가 부족함을 깨달았다.
그래서 데이터가 충분히 주어질 영화나 드라마 대본을 찾아보다 드라마 W가 작가가 후배 작가들을 위해 블로그에 드라마 대본을 공개해 둔 것을 찾아서 이 드라마 대본으로 학습을 진행하기로 결정하였다.
우선 다음까지 이 한글파일을 데이터 전처리를 진행하기로 하였다.
데이터를 전처리 하기 이전에 가용할 수 있는 초반의 csv 한글파일로 만들어오는 것을 과제로 하였다.
(컬럼은 인물, 대사 등등)
드라마 대사에 관한 모르는 용어들(E, C 등)이 있어서 드라마 대본 용어를 찾아보았다.
http://egloos.zum.com/siche/v/176311
https://namu.wiki/w/%EC%8B%9C%EB%82%98%EB%A6%AC%EC%98%A4/%EC%9A%A9%EC%96%B4
조장님이 정리해주신 컬럼 대로 분류해서 csv파일을 만들어오기!
문제는 한글파일을 .txt파일로는 만들었는데 쉼표로 구분이 되어있지 않아서 csv파일로 어떻게 만들지,
그리고 상황설명 등의 널값이 어떻게 들어가고 구분할지 생각해보기
728x90
'자연어처리 > 인물형 챗봇 만들기' 카테고리의 다른 글
데이터 전처리 (1) | 2020.01.02 |
---|
댓글