본문 바로가기
728x90

전체 글56

[텐서플로와 머신러닝으로 시작하는 자연어처리] 1장. 들어가며 깃허브 주소 https://github.com/NLP-kr/tensorflow-ml-nlp NLP-kr/tensorflow-ml-nlp 텐서플로우와 머신러닝으로 시작하는 자연어처리(로지스틱회귀부터 트랜스포머 챗봇까지). Contribute to NLP-kr/tensorflow-ml-nlp development by creating an account on GitHub. github.com - 깃허브에 있는 실습프로젝트 내려받기 git clone https://github.com/NLP-kr/tensorflow-ml-nlp.git - 라이브러리 목록 설치 pip install -r requirements.txt python=3.6으로 해도 똑같이 에러남. 왜 안되지? 일단 설치는 다 따로 하나하나 했다. ..
쇼핑몰 추천 알고리즘 쇼핑몰 추천 알고리즘- 협업 필터링, SVD 알고리즘(행렬 분해 알고리즘) 등이 있음. 필요한 독립변수? - 클릭해본 상품, 구매한 상품, 장바구니 상품, 좋아요한 상품 등. 을 이용해서 개별적인 개인화 추천 알고리즘을 통해 고객에게 상품을 추천할 수 있다. 상품 추천 모델 - SVD 알고리즘(행렬 분해 알고리즘): 상품 평점 데이터를 사용자 행렬, 특징 행렬, 아이템 행렬로 분류한 후, 사용자 행렬을 바탕으로 유사한 사용자를 도출하여 유사한 사용자들이 좋아한 상품들을 추천 Process 데이터 수집(카카오 아레나 데이터, 아마존 상품 리뷰 데이터) >> 데이터 전처리(Null값 제거, 이상치 제거) >> 데이터 분석 및 모델 구현(SVM, SVD) >> 데이터 시각화(웹 사이트 구현 - REST API..
쇼핑몰 크롤링 공동구매 및 경매 사이트를 만들어서 가상으로 데이터를 넣어보기 위해 쇼핑몰의 데이터를 크롤링해서 가져오기로 했다. 옥션의 베스트 상품의 이미지, 가격, 정보를 가져왔다. 아래는 코드 # 이미지 크롤링하기. import urllib from bs4 import BeautifulSoup url = 'http://corners.auction.co.kr/corner/categorybest.aspx' r = requests.get(url) html = r.content soup = BeautifulSoup(html, 'html.parser') eee = soup.find_all("img") a # '리스트 a'에 이미지 링크를 담아서 a에 담긴 이미지 주소를 포문으로 출력시 a = [] for m in eee: ..
텐서플로우 설치 파이썬과 아나콘다가 충돌해 둘다 지우고 아나콘다만 다시 깔았다. 다시 아나콘다 가상환경 만들고 텐서플로 설치 아나콘다 프롬프트 창에 가상환경 만들어주기 conda create -n tensorflow python=3.7 - 가상환경 활성화 activate tensorflow - 텐서플로우 설치 pip install tensorflow 파이썬 터미널 열기 python 텐서플로우 패키지를 임포트 import tensorflow as tf 참고 사이트 https://youngjoongkwon.com/2018/01/26/windows-%ED%99%98%EA%B2%BD%EC%97%90%EC%84%9C-anaconda-tensorflow-%EC%84%A4%EC%B9%98%EB%AC%B8%EC%A0%9C-%ED%95..
인구유동에 영향을 미치는 데이터 수집하기. 인구유동에 영향을 미치는 변수로 연봉과 직업, 집값 등으로 분석을 해보기로 했다. 연봉과 집값, 직업, 결혼 등이 인구유동에 어떤 영향을 미치는지 알아보고자 하였다. 각각의 변수와의 상관관계와, 변수간의 상관관계가 높다면 회귀분석 # 데이터 수집하기. 종속변수인 인구유동에 대한 지표는 행정구역별 순이동을 사용하기로 하였다. 독립변수로는 찾아보려고 했는데 막상 데이터 포털을 다 뒤져도 내가 딱 원하는 형식의 데이터를 구하는게 쉽지 않다. 일단 종속변수로 2016~2018 행정구역별 순이동을 기준으로 잡았다. 그래서 범주형 변수인 서울특별시와 경기도의 행정구역을 기준으로 잡고 범주형에 맞춰서 행정구역별로 평균 연봉과 집값을 구해야 할 것 같다. 집값은 지역별 아파트 매매가를 구했다. 행정구역별 연봉은 찾기가..
텍스트마이닝이란? https://m.blog.naver.com/PostView.nhn?blogId=textom&logNo=220040266803&proxyReferer=https%3A%2F%2Fwww.google.com%2F 텍스트 마이닝 분석의 종류 (텍스트 네트워크 분석, 시멘틱 네트워크 분석) 텍스트 마이닝은 텍스트가 가지는 의미를 분석하는 것을 말합니다. 우리가 사용하는 언어는 수많은 개념들... blog.naver.com 텍스트 네트워크 분석은 단순히 텍스트에 직접적으로 드러나 있는 개념들 간에 연결되어 있는 패턴이 분석대석. 시멘틱 네트워크 분석은 텍스트가 전달하고자 하는 의미를 분석대상으로 하며, 텍스트에 숨어있는 맥락까지 고려하여 텍스트 간의 관계를 측정하고 분석해내는 분석방법.
R 오존 데이터 분석 data("airquality") str(airquality) # 1. 데이터 구조 및 변수명 살펴보기 dim(airquality) # 153개의 행, 6개의 열 str(airquality) airquality head(airquality) tail(airquality) names(airquality) # 변수명 확인 #2.결측치 탐색 is.na(airquality) # 오존에 결측치 다량 확인 any(is.na(airquality)) sum(is.na(airquality)) # 총 44개 sum(is.na(airquality$Ozone)) # 오존에 결측값 37개 sum(is.na(airquality$Solar.R)) # 일조량에 결측값 7개 # 3. 연속형 변수에 대한 기술통계량 및 그래프 # Ozo..
데이터 분석 시작하기. 보호되어 있는 글 입니다.
728x90