데이터파이프라인/데이터프로덕트/수집/정제 용어정리
1. 데이터파이프라인 : 데이터가 흘러다니는 길
데이터를 수집하고 정제하고 다시 보내는 과정은 데이터 파이프라인을 통해 이루어짐
1) 데이터 스키마
어떤 형태로 어떤 값들이 언제 남아야 하는지 남겨둔 규칙이나 모양
2) 로킹 : 데이터를 남기는 활동,
사용자의 활동을 앱에서 Google Analytics처럼 바로 보낼수도 있고,
서버에서 이벤트를 디비에 저장하고, 그것을 옮겨 가거나 아니면
api의 로그파일로 남겨 긁어가는 방법.
3) 수집
데이터를 어디로 전송하거나, 파일로남겼거나, 디비에 저장했다면 중앙화된 저장소로 옮김
연산된 형태를 고려해서 값을 변경하거나, 필요한 저장소를 결정
4) 정제
로그를 전송 중에(데이터가 파이프라인 안에서 이동되는 동안) 유실이나 중복이 될 수 있음,
또는 서버의 버그로 인해 잘못된 데이터가 쌓일 수도 있음,
그래서 데이터의 최종 사용자에게 전달하기 전 정제과정이 필요하다
5)조회/집계 : 쌓인 데이터를 활용함
데이터를 분석하기 위해 잦은 빈도로 데이터를 탐색한다면? 조건을 변경하면서 데이터를 이리저리 확인
정해진 데이터를 일정한 주기마다 집계해서 데이터를 생성한다면? 실시간/시간별/일별로 테이블 생성해서 확인
2.데이터 프로덕트 : 데이터를 이용해서 서비스 제공 ex)광고/추천/검색/통계 서비스
데이터 파이프라인의 가장 마지막 부분에 위치한다
데이터를 정의하고, 남기고, 쌓고, 정제한 후에 데이터를 조회해서 쓸모가 있을지 판단한 후
비즈니스에 중요한 가치가 있다고 판단이 되면 데이터를 만들고, 서비스에 지속적으로 제공
-> 이 작업은 시간은 가장 오래 걸리지만 비즈니스 가치를 만들어내서 가장 의미 있는 부분
데이터는 단순히 저장하고, 관리하는 것에서 그치는 것이 아니라
다시 돌아 서비스로 제공되어야 데이터의 가치를 만들어 낼 수 있기 때문에