[Spark] Spark의 매우 도움되는 API 친구들
Spark 위에서 우리가 활용할 수 있는 녀석들은 RDD, Spark SQL, DataFrame, DataSet스파크가 처음 등장했을 때 분산처리를 위해 등장한 것이 RDD. 기본적인 동작은 되지만, 최적화도 직접 해줘야 하고, 암튼 오래된 냄새가 많이 남. 이후 Catalyst Optimizer라는 최적화 엔진이 등장하면서, 이 엔진의 최적화 대상이 아닌 RDD는 자연스레 사장되고, 그 대상인 Spark SQL, DataFrame, DataSet 이 각광 받음. 지금은 그 중에서도, 좀 쉬운 것들은 Spark SQL, 좀 어려운 건 DataFrame API로 어지간하면 다 처리하는 방식. 다만 이제 아무래도 DataFrame의 최적화가 테이블 형식의 데이터에만 적용되므로, 반정형, 비정형 데이터를 다룰..
[Spark] 빅데이터와 데이터 레이크 - Hadoop 변천사
데이터 엔지니어링의 변천사기본적으로 1959년, COBOL의 등장이 처음으로 데이터를 처리하는 것에 대한 진지한 결과물로 등장.이후 1977년, Oracle이 RDBMS를 만들며 COBOL을 계승, 대체함.그리고 오랫동안 structured data만을 저장할 수 있어도 전혀 문제가 없었음. 그러나, Variety어느 시점, JSON, XML과 같은 semi-structured data들이 등장했고, RDBMS가 담기 어려워졌음.심지어는 text, pdf 등의 un-structured data까지 등장을 해버렸음. Volume, Velocity이전과는 비교도 안될 정도의 큰 규모의 데이터들을, 빠르게 다뤄야 하는 시간이 왔음. 이렇게 3V의 성질을 가진, 소위 빅데이터 가 등장하면서, RDBMS만으로..