본문 바로가기
728x90

분류 전체보기56

코랩에서 csv파일 저장 후 엑셀에서 한글 깨질 때 코랩에서 크롤링해서 생성한 csv파일을 다운로드해서 엑셀에서 열어보니, 한글이 다 깨져있어서 R에서 감정분석 돌려보려다가 애먹었다ㅠㅠ https://m.blog.naver.com/PostView.nhn?blogId=mu_do&logNo=221205936409&proxyReferer=https%3A%2F%2Fwww.google.com%2F 엑셀 csv 파일 변환 하는 방법 오늘은 엑셀 csv 파일 변환 하는 방법 포스팅 합니다. 일하던중 엑셀 파일이 외계어 같이 나오기에 확장명... blog.naver.com 1. 이렇게 csv파일을 .txt로 이름바꾸기로 바꿔준 후 2. 변환된 txt파일을 열어서 다른이름으로 저장(utf-8) 후 3. 다시 .txt를 .csv파일로 바꿔서 열어주면 한글이 안깨지고 잘 뜬..
[밑바닥부터 시작하는 딥러닝] 7장- 합성곱 신경망(CNN) 합성곱 신경망(CNN) 합성곱 신경망인 CNN은 이전의 앞에서 배운 신경망에 합성곱(Convolution) layer와 풀링(pooling) layer가 더 추가된 것이다. CNN = 신경망 + Conv layer+ Pooling layer CNN을 사용하는 이유는 무엇일까? 앞서 배웠던 신경망은 인접하는 모든 뉴런과 결합되어 있는 신경망을 이를 '완전연결(Affine)계층'이라고 한다. 그러나 이 완전연결계층의 문제점은 '데이터의 형상을 무시'한다는 것이다. 예를들어 형상이 (1, 28, 28)인 이미지가 있다고 할 때, 이를 한줄로 세운 1줄로 세운 784개의 데이터로 인풋값으로 집어넣었다. 그러나 이는 이미지에서 중요한 정보가 들어있는 특성을 무시할 수도 있다. 그러나 합성곱 계층은 형상을 유지할 ..
R에서 if 조건문 보호되어 있는 글 입니다.
Batch, Epoch Regu, Epoch, Batch ( 9/21 ) Regularizationd은 L2,L1이랑 Drop out 등 Batch size : 전체 데이터 셋을 쪼갠 단위. (보통 mini-batch라고 표현) --> Batch size의 적당한 크기? iteration : epoch를 나누어서 실행하는 횟수 Epoch : 에폭은 머신러닝에서 쓰이는 하나의 단위로, 1에폭은 학습에서 전체 데이터셋에 대해 학습을 한번 완료하였을 때를 말한다. 예를 들어 mnist데이터에서 훈련용 데이터 10000개를 100개의 미니배치로 학습할 경우, 경사하강법을 100회 반복하면 모든 훈련데이터를 '소진'한게 된다. 이 경우 100회가 1에폭이 된다. (한 번의 epoch는 인공 신경망에서 전체 데이터 셋에 대해 forwar..
[텐서플로와 머신러닝으로 시작하는 자연어처리] 3장. 자연어 처리 개요 자연어처리에서의 이슈는 크게 어떤 문제를 해결할 것이냐에 따라 분류되는데, 이번 장에서는 텍스트분류, 텍스트 유사도, 텍스트 생성, 기계이해라는 4가지의 핵심 문제에 대해서 알아본다. 위의 4문제를 알아보기 전에 단어표현이라는 분야에 대해서 알아야한다. 단어표현은 모든 자연어 처리 문제의 바탕이 되는 개념으로 자연어를 어떻게 표현할 지를 정하는 것이 각 문제를 해결하기 위한 출발점이 되기 때문이다. 또한 자연어처리를 포함한 모든 데이터 과학 분야에서는 데이터를 이해하는 것이 매우 중요하다. 단순히 사용하는 것 보다 데이터가 어떤 구조이고 어떤 특성이 있는지를 파악하고 모델을 만드는 것이 훨씬 성과가 좋기 때문. [01. 단어 표현] 자연어처리는 컴퓨터가 인간의 언어를 이해하고 분석하는 모든 분야를 말한다..
[텐서플로와 머신러닝으로 시작하는 자연어처리] 시작하기(커리큘럼) [이책으로 공부하는 이유] : 머신러닝 딥러닝 이론보다 자연어처리 쪽으로 실습부터 해보고 싶어서. 나는 이론부터 공부하는 것 보다는 직접 실습해보고 부딪혀보면서 이론 공부의 필요성과 중요함을 깨닫고 돌아가서 파고드는 캐어묻기 공부법으로 하는게 더 재밌는 것 같다. 이번에 전공에서 밑바닥부터 시작하는 딥러닝 주교재로 나가고 머신러닝 이론 관련한 전공이 2개니 이론은 전공과 ai 스터디에서 열심히 다져놓고, 자연어처리 실습은 이 교재로 멘토님에게 멘토링 받으면서 실습해 나가야겠다. [이 책의 구성] : 이 책은 자연어처리 초심자를 대상으로 하며, 파이썬과 기초 머신러닝 이론에 대한 기초지식을 있는 분을 대상으로 설명한다. (만약 관련지식이 부족하다면 머신러닝 이론을 공부를 병행하기를 추천함) 이 책에서는 자..
[밑바닥 부터 시작하는 딥러닝] 2장~5장- 주요 용어 정리 * 퍼셉트론 : 인공뉴런, 신경망(딥러닝)의 기원이 되는 알고리즘 * 활성화함수 : 입력신호의 '총 합'을 출력신호(1,0)으로 변환하는 함수 (예측한 다중회귀 식을 출력값(y)인 0과 1로 변환해 주기 위한 함수) - 시그모이드, 계단, 렬루 함수 등이 있음. * 노드 : 뉴런을 의미. (신경망 그림에서의 원을 의미) * [출력층 설계하기] - 신경망은 분류와 회귀 모두에 이용할 수 있으나, 출력층에서 사용하는 활성화함수는 둘 중 어떤 문제냐에 따라서 달라진다. * 기계학습 문제에는 분류와 회귀가 있다. 분류는 말그대로 데이터가 어떤 클래스에 속하는지를 예측하는 문제강아지냐 고양이냐), 회귀는 입력데이터에서 (연속적인) 수치를 예측하는 문제(사진속 인물의 키(163.7?)를 예측)이다. 말그대로 회귀분..
[텐서플로와 머신러닝으로 시작하는 자연어처리] 2장. 자연어 처리 개발 준비 (텐서플로, 사이킷런 등 라이브러리) 01. 텐서플로우 텐서플로우는 구글에서 오픈소스로 발표한 머신러닝 라이브러리임. 텐서(N차원 메트릭스) 플로우(Flow) 는 말그대로 데이터 흐름 그래프를 사용해 수치연산을 하는 과정을 의미. tf.keras.layers 모듈 탠서플로를 이용해 딥러닝 모델을 만드는 것은 마치 블록을 하나씩 쌓아서 전체 구조를 만들어 가는 과정과 비슷. 그 블록역할을 하는 다양한 모듈중에는 케라스가 있는데 케라스는 텐서플로와 같은 별개의 딥러닝 오픈소스 이지만, 텐서플로에서도 케라스를 사용할 수 있게 지원해줌. 그 케라스를 모듈중 tf.keras.layers 모듈. 케라스는 텐서플로보다 사용하기 좀 더 직관적이고 쉽다는 장점이 있음 이 책에서는 모듈 위주로 설명할 것. tf.keras.layers.Dense 모듈 Dens..
[텐서플로와 머신러닝으로 시작하는 자연어처리] 1장. 들어가며 깃허브 주소 https://github.com/NLP-kr/tensorflow-ml-nlp NLP-kr/tensorflow-ml-nlp 텐서플로우와 머신러닝으로 시작하는 자연어처리(로지스틱회귀부터 트랜스포머 챗봇까지). Contribute to NLP-kr/tensorflow-ml-nlp development by creating an account on GitHub. github.com - 깃허브에 있는 실습프로젝트 내려받기 git clone https://github.com/NLP-kr/tensorflow-ml-nlp.git - 라이브러리 목록 설치 pip install -r requirements.txt python=3.6으로 해도 똑같이 에러남. 왜 안되지? 일단 설치는 다 따로 하나하나 했다. ..
쇼핑몰 추천 알고리즘 쇼핑몰 추천 알고리즘- 협업 필터링, SVD 알고리즘(행렬 분해 알고리즘) 등이 있음. 필요한 독립변수? - 클릭해본 상품, 구매한 상품, 장바구니 상품, 좋아요한 상품 등. 을 이용해서 개별적인 개인화 추천 알고리즘을 통해 고객에게 상품을 추천할 수 있다. 상품 추천 모델 - SVD 알고리즘(행렬 분해 알고리즘): 상품 평점 데이터를 사용자 행렬, 특징 행렬, 아이템 행렬로 분류한 후, 사용자 행렬을 바탕으로 유사한 사용자를 도출하여 유사한 사용자들이 좋아한 상품들을 추천 Process 데이터 수집(카카오 아레나 데이터, 아마존 상품 리뷰 데이터) >> 데이터 전처리(Null값 제거, 이상치 제거) >> 데이터 분석 및 모델 구현(SVM, SVD) >> 데이터 시각화(웹 사이트 구현 - REST API..
728x90