본문 바로가기

데이터 엔지니어링

(2)
[스터디] Chapter 2: 데이터 엔지니어링 수명 주기 + 데이터 아키텍쳐 ※ 조 라이스와 맷 하우슬리가 공동으로 집필한 '견고한 데이터 엔지니어링'을 공부하면서, 중요한 내용들을 기록해둔 공간입니다. 데이터 엔지니어로써 중요하다고 생각되는 개념들에 대해 자체적으로 공부하며 정리한 글입니다. 데이터 엔지니어링 수명 주기 기본적으로 "데이터 엔지니어링"이라는 분야 자체가 하는 일은, 데이터분석가 혹은 데이터 사이언티스트 등을 위시한 사내의 다른 소비계층이 활용할만한 데이터를 추출하고, 소비자의 입맛에 맞게 가공하고, 적재하여 서빙(넘겨주는 것)하기까지를 일컫는다. 그러니까 데이터 엔지니어링 수명 주기라 함은, 생성 - 추출 - 가공 - 적재 - 서빙의 다섯 단계를 기본적으로 지난다. 각 단계의 위치가 바뀔수도, 생략될 수도 있다. 실무에서는 이게 꼬이고, 반복되고, 겹치거나 혹은..
[스터디] Chapter 1: 데이터 엔지니어링 상세 (및 용어정리) ※ 조 라이스와 맷 하우슬리가 공동으로 집필한 '견고한 데이터 엔지니어링'을 공부하면서, 중요한 내용들을 기록해둔 공간입니다. 데이터 엔지니어로써 중요하다고 생각되는 개념들에 대해 자체적으로 공부하며 정리한 글입니다. 데이터 엔지니어링이란?데이터 엔지니어링은 간단히 정리하면, 시중에 나와있는 정보를 뽑아와서 (추출 - extract), 우리가 필요한 형태로 조작해서 (가공 - transform), 데이터 분석가 혹은 데이터 과학자가 활용할 수 있게 전달 (저장 - load) 하는 직군이다. 데이터 과학의 업스트림에 위치하며, 이 일련의 과정을 ETL이라고 부르기도 한다. 그래서 원천 시스템에서 데이터를 가져오는 것부터 시작해 분석 또는 머신러닝과 같은 사용 사례에 데이터를 제공하는 것까지를 해당 데이터의..