반응형 🌿 Data Engineering/Data Analysis17 [텍스트분석3.2] BOW피쳐 벡터화 - TfidfVectorizer 요즘 추천시스템이랑 텍스트분석쪽에 관심이 생겨서 책을 찾아보았다. 사실 이미 한번 프로젝트(?)로 수행했지만 훑어보고 간단하게 넘어간것 같아서.. 다시한번 짚어보는 목적! 튼튼한 기본이 단단한 기초가 중요하니까! 아래의 내용은 파이썬 머신러닝 완벽가이드의 책의 [8.텍스트분석] 읽고 정리한 내용입니다 이전에 살펴본 텍스트분석 프로세스에 따라 두번째 단계인 피쳐 벡터화 작업! 를 살펴본다. 텍스트 사전준비 (텍스트 전처리) : 텍스트를 벡터로 만들기 전에 토큰화작업 피쳐 벡터화/추출 : 가공된 텍스트에서 피쳐를 추출하고, 여기에 벡터값을 할당하는 작업 ML모델 수립 및 학습/예측/평가 : 피쳐 벡터화된 데이터세트에 ML모델을 적용 이전에 BOW피쳐에 알아본 BOW피쳐 벡터화 첫번째 방법인 Count기반에 .. 2021. 9. 5. [텍스트분석3.1] BOW피쳐 벡터화 - CountVectorizer 요즘 추천시스템이랑 텍스트분석쪽에 관심이 생겨서 책을 찾아보았다. 사실 이미 한번 프로젝트(?)로 수행했지만 훑어보고 간단하게 넘어간것 같아서.. 다시한번 짚어보는 목적! 튼튼한 기본이 단단한 기초가 중요하니까! 아래의 내용은 파이썬 머신러닝 완벽가이드의 책의 [8.텍스트분석] 읽고 정리한 내용입니다 이전에 살펴본 텍스트분석 프로세스에 따라 두번째 단계인 피쳐 벡터화 작업! 를 살펴본다. 텍스트 사전준비 (텍스트 전처리) : 텍스트를 벡터로 만들기 전에 토큰화작업 피쳐 벡터화/추출 : 가공된 텍스트에서 피쳐를 추출하고, 여기에 벡터값을 할당하는 작업 ML모델 수립 및 학습/예측/평가 : 피쳐 벡터화된 데이터세트에 ML모델을 적용해 학습/예측/평가 수행 BOW (Bag of Words) 모델이란? 문서가 .. 2021. 9. 5. [텍스트분석] 02. 텍스트 사전준비 (텍스트 전처리) 요즘 추천시스템이랑 텍스트분석쪽에 관심이 생겨서 책을 찾아보았다. 사실 이미 한번 프로젝트(?)로 수행했지만 훑어보고 간단하게 넘어간것 같아서.. 다시한번 짚어보는 목적! 튼튼한 기본이 단단한 기초가 중요하니까! 아래의 내용은 파이썬 머신러닝 완벽가이드의 책의 [8.텍스트분석] 읽고 정리한 내용입니다 이전에 살펴본 텍스트분석 프로세스에 따라 첫번째 단계인 텍스트사전준비! 를 살펴본다. 텍스트 사전준비 (텍스트 전처리) : 텍스트를 벡터로 만들기 전에 토큰화작업 피쳐 벡터화/추출 : 가공된 텍스트에서 피쳐를 추출하고, 여기에 벡터값을 할당하는 작업 ML모델 수립 및 학습/예측/평가 : 피쳐 벡터화된 데이터세트에 ML모델을 적용해 학습/예측/평가 수행 텍스트 자체를 피쳐로 바로 만들수 없다. 그래서 사전에 .. 2021. 9. 4. [텍스트분석] 01.텍스트 분석 수행 프로세스 요즘 추천시스템이랑 텍스트분석쪽에 관심이 생겨서 책을 찾아보았다. 사실 이미 한번 프로젝트(?)로 수행했지만 훑어보고 간단하게 넘어간것 같아서.. 다시한번 짚어보는 목적! 튼튼한 기본이 단단한 기초가 중요하니까! 아래의 내용은 파이썬 머신러닝 완벽가이드의 책의 [8.텍스트분석] 읽고 정리한 내용입니다 NLP란? National Language Processing 머신이 인간의 언어를 이해하고 해석하는데 중점을 둔 기술로, 텍스트분석을 향상하게하는 기반기술. NLP가 발전하면서 텍스트 분석도 정교하게 발전하는 중이다. 예를 들면, 텍스트를 구성하는 언어직인 룰이나 업무의 룰에 따라 분석하는 룰기반 시스템 -> 머신러닝의 텍스트 데이터를 기반으로 모델을 학습하고 예측하는 기반으로 변경 텍스트분석이란? 머신러.. 2021. 9. 4. 추천시스템04. 잠재요인 협업필터링(latent factor collaborative filtering) 구현 잠재요인 협업 필터링 (latent factor collaborative filtering) 행렬분해(Matrix Factorization)를 기반으로 사용한다. user-item 행렬 데이터를 이용해 잠재요인을 찾아낸다. 즉 user-item 행렬을 user-잠재요인, item-잠재요인 행렬로 분해는 것이다. 그래서 전체 사용자-아이템(행렬 R)에서 나온 값을 기반으로 잠재요인이 값을 매길 수 있게 된다. 그리고 이 값을 이용해서 사용자가 평가하지 않은 콘텐츠의 점수를 예측하는 것이다. 잠재요인 필터링은 저장공간을 훨씬 줄일 수 있다. 금까지 구현해본 추천시스템 방식중에서 가장 많이 사용된다. 목적 : 잠재요인 협업필터링으로 사용자가 본 영화와 유사한 영화를 추천해준다 데이터셋 : https://www.. 2021. 8. 27. 추천시스템03. 아이템 기반 협업 필터링 (collaborative filtering) 구현 협업 필터링(collaborative filtering) 사용자와 item간의 rating을 이용해서 사용자끼리 '유사도'를 찾는 방식. 특정 사용자와 유사한 사용자들이 남긴 평점, 상품구매 이력 등 행동양식 기반으로 '예측'해서 '추천'해준다. 그래서 item을 얼마나 좋아할 것인지 수치적으로 예측한다. 협업필터링의 2가지 유형 최근접 이웃기반 필터링 (nearest neighbor collaborative filtering) 잠재요인 기반 필터링 (latent factor collaborative filtering) 2.1 최근접 이웃기반 필터링 (nearest neighbor collaborative filtering) 사용자-아이템 행렬에서 사용자가 아직 평가하지 않은 아이템을 예측하는 것이 목표.. 2021. 8. 27. 추천시스템02. 콘텐츠기반 필터링(content based filtering) 구현 콘텐츠 기반 필터링(content based filtering) 사용자가 특정 아이템을 선호하는 경우, 그 아이템과 '비슷한' 콘텐츠를 가진 다른 아이템을 추천해주는 방식 굉장히 단순한 아이디어. 요즘엔 자주 사용하지 않는다. 예를 들어 사용자가 a가 itemA 영화에 높은평점을 주었을떄, 그 영화가 스릴러 영화고, 봉준호 감독이라면 이와 깉이 봉준호 감독의 다른 스릴러 영화를 추천해주는 것이다. 데이터셋 : https://www.kaggle.com/tmdb/tmdb-movie-metadata?select=tmdb_5000_movies.csv 목적 : 콘텐츠 기반 필터링으로 사용자에게 비슷한 영화를 추천해준다 1. 데이터준비 2. 데이터전처리 사용할 컬럼 정리 vote_averages(평점평균), vot.. 2021. 8. 26. 추천시스템01. 추천 시스템(Recommendation)이란? 유형 알아보기 이전 프로젝트에서 거리기반 알고리즘을 이용해서 음악을 추천해주는 프로젝트를 진행했다. 가장 단순하고 쉽게 유사도를 계산했는데, 어느정도 유사한 결과가 나와서 엄청 신기했다. 그래서 추천알고리즘을 더 알아보고 싶었고, 또한 다양한 데이터를 다루어보고 싶었다. 해보고 싶은 나만의 과제? 처럼 keep해두고 있던것 중 하나였는데 시간이 남아서 한번 도전~! 추천 시스템(Recommendation)이란? 추천 시스템을 통해 사용자의 취향을 파악하고, 그 취향에 따라 상품 등을 추천해줄 수 있다. 그래서 사용자가 해당상품을 구매할 확률이 높아져서 친사용자이며 친기업 서비스가 될 수 있는 강력한 시스템. 대표적으로 유튜브나 왓챠,넷플릭스에서 적용하고 있는 추천시스템, 나도 몰랐던 내 취향을 알려준다는 점에서 소름돋.. 2021. 8. 26. [Pandas] 가상 쇼핑몰 고객주문 데이터 전처리2 - 국가별,월별,요일별,t시간대별 매출 프로젝트(?)를 하면서 pandas를 계속 썼지만, 쓰던 함수만 쓰고 계속 검색하다보니 그렇게까지 익숙한 편은 아니였다. 그래서 개인적으로 다양한 데이터를 가지고 pandas를 더 공부해보고자 시작하는 글~! 가상쇼핑몰 고객주문 데이터 https://archive.ics.uci.edu/ml/datasets/Online+Retail 온라인 리테일 사이트의 2010년 12월부터 2011년 12월까지의 데이터 -> 약 500,000건 (꽤 많아보인다!) 1. 데이터불러오기 및 확인 앞에서 한번 처리하고 난 후 csv로 떨군 그 파일을 가져와서 사용한다. 2. 국가별 매출 groupby(기준컬럼) = 그룹화하고, sum() ['컬럼명] = 그룹화한 상태에서 집계함수를 수행하고, sort_valeus() = va.. 2021. 8. 24. [Pandas] 가상 쇼핑몰 고객주문 데이터 전처리1 - null처리 및 타입변경 프로젝트(?)를 하면서 pandas를 계속 썼지만, 쓰던 함수만 쓰고 계속 검색하다보니 그렇게까지 익숙한 편은 아니였다. 그래서 개인적으로 다양한 데이터를 가지고 pandas를 더 공부해보고자 시작하는 글~! 가상쇼핑몰 고객주문 데이터 https://archive.ics.uci.edu/ml/datasets/Online+Retail 온라인 리테일 사이트의 2010년 12월부터 2011년 12월까지의 데이터 -> 약 500,000건 (꽤 많아보인다!) 1. 데이터불러오기 및 확인 컬럼명파악 컬럼명 설명 invoiceNo 주문 번호 StockCode 아이템 아이디 Description 상품 정보 Quantity 상품 주문 수량 InvoiceDate 주문 일자, 시간 UnitPrice 상품 가격 Customer.. 2021. 8. 24. 이전 1 2 다음 728x90