반응형 🌿 Data Engineering/Data Processing13 JSONPath 라이브러리와JSON파싱(load/dump/loads/dumps) 어디서 알게 되었나? 프로젝트를 진행하다가 jsonpath라는 라이브러리를 써야해서 추가로 알아보았따. s3로 datalake를 구현하면서 계층구조를 가지고 있는 api데이터를 jsonpath를 사용해서 변형했다. 예를 들면 이런식으로 사용했다. 그땐 이렇구나~라고 넘어갔지만 이제 본격적으로 알아보자. for track in raw['tracks']: # i는 하나의 트랙 #s3에 넣기 위한 flat한 데이터로 변환 top_track = {} for k, v in top_track_keys.items(): value = jsonpath.jsonpath(track, v) # 해당 위치에 데이터가 없으면 False를 리턴(bool type). 이럴 경우 다음 컬럼으로 넘어감 if type(value) == .. 2021. 6. 26. 데이터웨어하우스(Data Warehouse)란? 데이터웨어하우스 정보(data) + 창고(warehouse)가 결합한 의미로 의사결정에 도움을 주기 위해 분석가능한 형태로 변환한 데이터들이 저장되어 있는 중앙저장소 즉, 의사결정에 필요한 데이터가 들어있는 데이터베이스정도가 되겠다. 트랜잭션 시스템, RDB 및 기타 소스의 데이터들이 데이터웨어하우스에 들어간다 어플리케이션이나 운영시스템내부에서 raw data들을 모아두고, 이들 중 분석할 수 있는 데이터들을 창고처럼 쌓아둔 다음에, 이 데이터들을 데이터사이언티스같은 사람들이 BI나 SQL을 이용해서 데이터를 엑세스함 데이터웨어하우스가 왜 필요할까? 쿼리로 그냥DB에 접근헤서 분석하면 되지 않을까? 라는 생각이 들었다. 이런 궁금증을 해소한 자료를 찾았다. 참고출처 : bomwo.cc/posts/Data.. 2021. 3. 16. 데이터엔지니어, 돌고 돌아 다시 확신을 갖게 되다 사실 나는 2017년 어떤 카드사 대외활동을 계기로 데이터관련 분야로 큰 방향은 잡았었다. 처음이였다. 일을 상상하는 것만으로도 가슴이 뛴다고 생각하게 된 것은. 벌써부터 빨리 일 하고 싶다는 마음이 든 것은. 그동안 IT직무에 관해서 늘 회의감이 들기만 했던 나에겐 처음이였다. 바로 이거야! 라고 확신이 든 순간은. 하지만 그때만 해도 내가 알고 있는 데이터분야의 일은 그저 파이썬과 R을 가지고 할 수 있는 '데이터분석' 뿐이였다. 심지어 한창 '빅데이터'가 화두에 오르던 시기였다. 당시 엘리트 경영전공 문과생들의 레벨업 코스였다. 그런데 나는 IT전공이니까 데이터분석보다는 조금 더 데이터관련 전문적인 일을 하고 싶었다. 그때 대외활동으로 직접 카드사의 데이터를 만져볼 기회가 있었는데 정말 신기했다. .. 2021. 3. 10. 이전 1 2 다음 728x90