반응형 2022/091 🧐 파이썬 코드를 잘 짜는 법 : 병렬처리 라이브러리 비교분석 이번엔 파이썬의 한계점과 병렬처리를 통한 성능개선을 알아보고자 한다. 데이터엔지니어에게 필요한 덕?목 중에 하나가 성능을 고려해서 효율적으로 코드를 짜는거랄까..? (아찔훼) 지금 우리 회사에서는 spark 대신 파이썬의 pandas로 대부분의 데이터를 처리한다 (회사와서 spark 쓸 줄 알고 기대했는데) 하지만 점점 데이터의 크기가 커질수록 어느정도 한계를 느꼈고, 이를 개선할수 있는 병렬처리에 대해 찾다가 이글을 쓰게 되었다. 판다스 한계점: 속도도 느리고, 메모리도 많이 잡아먹네?! 판다스의 dataframe은 기본적으로 각각의 row 또는 columns을 순차적(sequential)으로 처리한다. 해당 작업이 완료될때까지 기다렸다가 하나하나씩 처리하는 방식이다. 그래서 데이터의 크기가 커질수록,.. 2022. 9. 30. 이전 1 다음 728x90