분류 전체보기 (72) 썸네일형 리스트형 [취준 관련] 3월 회고 🚧 좋은 데이터 엔지니어가 되기 위해 매일 노력을 더해가고 있다. 1, 2월을 어떻게 보냈는지에 대한 회고는 https://globalman96.tistory.com/91 에 있다. 우선 3월에 있었던 일들은 다음과 같다. 꽤나 일들이 많았어서 이게 다 3월이라는 게 신기할 따름이다. * SQLD 시험 응시* 각종 기업들 최종면접* 가고싶은 기업들 서류, 코딩테스트 전형* CS 리뷰* 프로젝트 시작과 완성 및 1차 최적화 완료 ★ ★ ★ ★ ★* 예비군,,, SQLD 시험의 경우 어렵지 않은 시험이다. 나는 전공자지만 학교에서 DB를 수강 안했기 때문에 어느정도 공부할 필요가 있었다. 그래서 노랭이 책을 사서 한 3일 꼬박 공부한 것 같다. 원래 자격증 취득은 기정사실화.. [프로젝트] 📈주식 데이터 분석 파이프라인 구축하기 LOGS 파이프라인 구축 시 고려할 점 환경 설정 config✔ github에 리포지토리 만들고 내 작업환경인 VSC에서 로컬 폴더 열고 연동시켜줌.✔ .gitignore 파일 생성해서 불필요한 파일은 git에서 제외해줌.✔ API 데이터를 가져오고, dataframe을 활용하기 위해 requests와 pandas 각각 설치 완료.✔ Docker 환경 설정 docker-compose.yml 작성 및 컨테이너 띄우기까지 완료 지난 경험에서 로컬에서 작업할 때는 독립적인 환경을 확보하기 위해서 python 가상환경을 활용하기로 했기 때문에 가상환경 활성화해줌. bash에서는 그 커맨드가 아래와 같다. activate 하면 (venv)가 뜨고, 그럼 잘 실행된 것.source venv/Scripts/activat.. [알고리즘] 다익스트라 & 프림 최최최최종 복습하기 그래프 상에서 노드 간의 탐색 비용을 최소화하는 알고리즘인 최단 거리 알고리즘...맨날 쓰고 까먹고 쓰고 까먹고의 반복. 이번이 "최최최최종"이 되길. 1 Dijkstra + 우선순위 큐2 Bellman-Ford3 Floyd-Warshall MST 구하는 알고리즘 4 Prim - 정점 기준 + 우선순위 큐5 Kruskal - 간선 기준 1 다익스트라 알고리즘특정 하나의 노드에서 다른 모든 노드까지의 최단거리를 구하는 알고리즘.Greedy + DP 형태. 음의 가중치가 있다면 사용 못함. 중요한 건 뭐냐면, 최적화 안된 형태의 다익스트라는 시간복잡도가 벨만포드보다 빠르다고 할 수 없다.우리가 말하는 다익스트라가 빠르다는 건 그러니까, heap을 활용해서 우선순위 큐를 쓰는 최적화된 버전에 대한 설명인 것.. [미래에셋증권] AI/ IT,Digital 채용연계형 인턴(신입사원) 지원 후기 1 서류 단계그냥 있는대로 작성했다. 2 코딩테스트 단계 알고리즘 2문제, SQL 2문제 알고리즘 1: 전기 요금표 주고 최종 전기료 계산하는 기본 문제.알고리즘 2: 배달 시간, 배달 팁 있는 2D 리스트를 돌면서 최대 팁 얻는 문제. dfs로 푸는 문제. 재귀로 품. 다만 최적화가 중요한데, 이 문제에서는 해당사항 없음. 시간 많이 잡아먹은 부분은 table의 얕은 복사 문제. 이 문제를 찾고 해결하기까지 좀 걸림. 새로운 list 만들어서 해결. SQL 1: 기본적인 where 조건문 활용 문제.SQL 2: 기본적인 query 동작 + count max인 사람들은 모두 한 줄.. [SQLD] SQL 스킬을 업그레이드하자! - 자격증은 덤이지 과목 I - 데이터 모델링의 이해 🧠 데이터 모델링의 목적 유연성, 일관성 유지, 중복 제거 데이터 모델링이란? '현실 세계'를 단순화하여 표현하는 기법. 추상화: 상위 개념화. 데이터 모델에서 중요한 정보만 남기고, 나머지 세부사항을 제거하는 과정. => ERD에서 엔티티 간의 관계를 일반화할 때 사용. => "운전하는 법"을 배울 때, 차종별 차이를 생략하는것.단순화: 추상화보다 더 실용적이고 직관적인 개선 과정. => 정규화 진행, 릴레이션의 복잡성을 줄이기 위해 테이블 병합 혹은 분할. => 자동차 기능 중 창문 연다처럼 쉽게 설명하는 것.명확화: 데이터를 사용할 사람들이 같은 의미로 해석할 수 있도록 용어.. [취준 관련] 1, 2월 회고 🚧 지난해 12월부터 결심하고 1월부터 본격적으로 준비한 데이터 엔지니어로써의 과정은 지금껏 나쁘지 않게 왔다.그간 진행한 것들은, 1 SQL: DML 위주로 공부하고 프로그래머스 수준은 상회하기2 견고한 데이터 엔지니어링을 읽으면서 데이터 엔지니어링 전반에 대해 이해하고, 3 공고 분석하면서 취업공학적 관점에서 내가 집중할 부분 정하기4 Apache Airflow에 대해서 공부하고, 더불어 약간의 실습하기 with Udemy5 Apache Spark에 대해서 공부하고, 더불어 약간의 실습하기 with Udemy 이 정도 진행해왔다. 두달 약간 안 되는 기간 나쁘지 않게 했다고 생각한다. 우선 그 부분 스스로 칭찬하고 싶다 👏돌아봤을 때 방향 자체는 잘 잡았다고 판단되고, 드문드문 채용 공고들도 올라오기 .. [데이터 엔지니어링] 데이터 웨어하우스, 레이크, 마트와 데이터 모델링 💫 => 분석을 위한 데이터베이스가 DWH고, OLTP를 위한 데이터베이스는 DWH가 아닌 그냥 OLTP DB라고 부름. => 보통 DWH는 ETL, DL은 ELT임. DWH vs DM 데이터 모델링에 대한 더 자세한 팩트: 데이터 마트와 데이터 웨어하우스의 쓸모가 서로 다르므로, 당연히 저장하는 방식도 서로 다름. DWH는 기본적으로 무결성을 지키면서 저장하는 것, 그리고 모든 값들을 통합적으로 관리하는 것이 중요하므로 정규화도 하고, 그 계열의 스타, 스노우플레이크 스키마 등을 통해 모델링하지만, 데이터 마트는 분석 직전의 저장소이므로 분석을 위해 최적화, 즉 비정규화를 통해 조인을 최소화하고 사전 집계를 해서 빠른 분석 성능을 제공함. [Spark] 캡스톤 프로젝트🚧: from HIVE to Kafka 프로젝트 개요 기본적으로, Gold 관련 정보를 담는 MDM 플랫폼이 있음.해당 플랫폼은 여러 Banking System으로부터 정보를 받아와서 저장함.동시에, 반대로 여러 수요자들에게 저장되었던 정보를 나눠주기도 함. 이때 우리가 집중할 부분은 오른쪽. 그러니까 MDM 플랫폼에서 각 수요자에게 데이터를 나눠주는 파이프라인을 구축하는 것이 미션임. 저 많은 수요자들에게 동시다발적으로 데이터를 공급한다면, MDM 플랫폼의 안정성이 떨어질 수 있음. 그래서 우리는, 중간에 Kafka를 배치해서 안정성을 높이려고 함. 이때 Kafka에서 다른 수요자들에게 어떻게 데이터를 분배하는지는 그 담당자가 할 일이고, 내가 할 일은, MDM 플랫폼에서 Kafka로 어떻게 정보를 옮기느냐임. 더 자세히 그 부분을 들여다보.. 이전 1 2 3 4 ··· 9 다음 목록 더보기