본문 바로가기
728x90

자연어처리 6

데이터 전처리 데이터 전처리 과정 우선 조장님이 해설과 대사들을 원본으로 잘 정리해 주셨는데 나는 챗봇으로 이 데이터를 쓰고싶으니, 자연어처리 책을 보고 챗봇을 위한 데이터로 다시 정제해야겠다. 이후 벌트나 LSTM같은 생성모델로 대본 생성이나 다른 프로젝트도 스터디에서 진행하는 식으로 하면 좋을 것 같다. 대강 보니 챗봇 텐서플로우와 머신러닝으로 배우는 자연어처리에서는 데이터를 3칼럼(질문, 답, 라벨 - 라벨은 일상대화0, 긍정1, 부정2)로 이루어져 있다. 라벨은 이 데이터에서는 주어져 있지 않지만 굳이 사용하지 않아도 될 것 같다. 우선 데이터 JAJGO 전처리과정을 필사해 본 뒤, 6장부분을 따라서 해보며 딥러닝 챗봇 형식을 익힌 후 그에 맞춰 데이터를 정제해야겠다.
[드라마 인물 Ai 만들기]드라마 W 대본으로 nlp하기! 펭수처럼 대답하는 모델 프로젝트를 진행하려다, 펭수 유투브 자막이나 sns글 등에서 펭수에 관련한 데이터가 부족함을 깨달았다. 그래서 데이터가 충분히 주어질 영화나 드라마 대본을 찾아보다 드라마 W가 작가가 후배 작가들을 위해 블로그에 드라마 대본을 공개해 둔 것을 찾아서 이 드라마 대본으로 학습을 진행하기로 결정하였다. 우선 다음까지 이 한글파일을 데이터 전처리를 진행하기로 하였다. 데이터를 전처리 하기 이전에 가용할 수 있는 초반의 csv 한글파일로 만들어오는 것을 과제로 하였다. (컬럼은 인물, 대사 등등) 드라마 대사에 관한 모르는 용어들(E, C 등)이 있어서 드라마 대본 용어를 찾아보았다. http://egloos.zum.com/siche/v/176311 https://namu.wiki/w/%..
[텐서플로와 머신러닝으로 시작하는 자연어처리] 3장. 자연어 처리 개요 자연어처리에서의 이슈는 크게 어떤 문제를 해결할 것이냐에 따라 분류되는데, 이번 장에서는 텍스트분류, 텍스트 유사도, 텍스트 생성, 기계이해라는 4가지의 핵심 문제에 대해서 알아본다. 위의 4문제를 알아보기 전에 단어표현이라는 분야에 대해서 알아야한다. 단어표현은 모든 자연어 처리 문제의 바탕이 되는 개념으로 자연어를 어떻게 표현할 지를 정하는 것이 각 문제를 해결하기 위한 출발점이 되기 때문이다. 또한 자연어처리를 포함한 모든 데이터 과학 분야에서는 데이터를 이해하는 것이 매우 중요하다. 단순히 사용하는 것 보다 데이터가 어떤 구조이고 어떤 특성이 있는지를 파악하고 모델을 만드는 것이 훨씬 성과가 좋기 때문. [01. 단어 표현] 자연어처리는 컴퓨터가 인간의 언어를 이해하고 분석하는 모든 분야를 말한다..
[텐서플로와 머신러닝으로 시작하는 자연어처리] 시작하기(커리큘럼) [이책으로 공부하는 이유] : 머신러닝 딥러닝 이론보다 자연어처리 쪽으로 실습부터 해보고 싶어서. 나는 이론부터 공부하는 것 보다는 직접 실습해보고 부딪혀보면서 이론 공부의 필요성과 중요함을 깨닫고 돌아가서 파고드는 캐어묻기 공부법으로 하는게 더 재밌는 것 같다. 이번에 전공에서 밑바닥부터 시작하는 딥러닝 주교재로 나가고 머신러닝 이론 관련한 전공이 2개니 이론은 전공과 ai 스터디에서 열심히 다져놓고, 자연어처리 실습은 이 교재로 멘토님에게 멘토링 받으면서 실습해 나가야겠다. [이 책의 구성] : 이 책은 자연어처리 초심자를 대상으로 하며, 파이썬과 기초 머신러닝 이론에 대한 기초지식을 있는 분을 대상으로 설명한다. (만약 관련지식이 부족하다면 머신러닝 이론을 공부를 병행하기를 추천함) 이 책에서는 자..
[텐서플로와 머신러닝으로 시작하는 자연어처리] 2장. 자연어 처리 개발 준비 (텐서플로, 사이킷런 등 라이브러리) 01. 텐서플로우 텐서플로우는 구글에서 오픈소스로 발표한 머신러닝 라이브러리임. 텐서(N차원 메트릭스) 플로우(Flow) 는 말그대로 데이터 흐름 그래프를 사용해 수치연산을 하는 과정을 의미. tf.keras.layers 모듈 탠서플로를 이용해 딥러닝 모델을 만드는 것은 마치 블록을 하나씩 쌓아서 전체 구조를 만들어 가는 과정과 비슷. 그 블록역할을 하는 다양한 모듈중에는 케라스가 있는데 케라스는 텐서플로와 같은 별개의 딥러닝 오픈소스 이지만, 텐서플로에서도 케라스를 사용할 수 있게 지원해줌. 그 케라스를 모듈중 tf.keras.layers 모듈. 케라스는 텐서플로보다 사용하기 좀 더 직관적이고 쉽다는 장점이 있음 이 책에서는 모듈 위주로 설명할 것. tf.keras.layers.Dense 모듈 Dens..
[텐서플로와 머신러닝으로 시작하는 자연어처리] 1장. 들어가며 깃허브 주소 https://github.com/NLP-kr/tensorflow-ml-nlp NLP-kr/tensorflow-ml-nlp 텐서플로우와 머신러닝으로 시작하는 자연어처리(로지스틱회귀부터 트랜스포머 챗봇까지). Contribute to NLP-kr/tensorflow-ml-nlp development by creating an account on GitHub. github.com - 깃허브에 있는 실습프로젝트 내려받기 git clone https://github.com/NLP-kr/tensorflow-ml-nlp.git - 라이브러리 목록 설치 pip install -r requirements.txt python=3.6으로 해도 똑같이 에러남. 왜 안되지? 일단 설치는 다 따로 하나하나 했다. ..
728x90