전체 글 164

빅데이터를 지탱하는 기술 (5.2~5.3 배치/스트리밍 형의 데이터 플로우)

[5부 빅데이터의 파이프라인]5-2 배치 형의 데이터 플로우1) MapReduce의 시대는 끝났다 ― 데이터 플로우와 워크플로2) MapReduce를 대신할 새로운 프레임워크 ― DAG에 의한 내부 표현3) 데이터 플로우와 워크플로를 조합하기4) 데이터 플로우와 SQL을 나누어 사용하기 ― 데이터 웨어하우스의 파이프라인과 데이터 마트의 파이프라인5-3 스트리밍 형의 데이터 플로우1) 배치 처리와 스트림 처리로 경로 나누기2) 배치 처리와 스트림 처리 통합하기3) 스트림 처리의 결과를 배치 처리로 치환하기 ― 스트림 처리의 두 가지 문제에 대한 대처4) 아웃 오브 오더의 데이터 처리 5-4 정리 5부 빅데이터의 파이프라인 5-2 배치 형의 데이터 플로우 1) MapReduce의 시대는 끝났다 ― 데이..

빅데이터를 지탱하는 기술 (3.3~4.2 데이터 마트의 구축 & 벌크 형과 스트리밍 형의 데이터 수집 & 메시지 배송의 트레이드 오프)

[3부 빅데이터의 분산 처리]3-3 데이터 마트의 구축1) 팩트 테이블 ― 시계열 데이터 축적하기2) 집계 테이블 ― 레코드 수 줄이기3) 스냅샷 테이블 ― 마스터의 상태를 기록하기4) 이력 테이블 ― 마스터 변화 기록하기[마지막 단계] 디멘전을 추가하여 비정규화 테이블 완성시키기[4부 빅데이터의 축적]4-1 벌크 형과 스트리밍 형의 데이터 수집1) 객체 스토리지와 데이터 수집 ― 분산 스토리지에 데이터 읽어들이기2) 벌크 형의 데이터 전송 ― ETL 서버의 설치 필요성3) 스트리밍 형의 데이터 전송 ― 계속해서 전송되어 오는 작은 데이터를 취급하기 위한 데이터 전송4-2 [성능×신뢰성] 메시지 배송의 트레이드 오프1) 메시지 브로커 ― 스토리지의 성능 문제를 해결하는 중간층의 설치2) 메시지 배송을 확..

빅데이터를 지탱하는 기술 (1.3~1.5 스크립트 언어에 의한 특별 분석과 데이터 프레임 & BI 도구와 모니터링)

[1부 빅데이터의 기초 지식]1-3 [속성 학습] 스크립트 언어에 의한 특별 분석과 데이터 프레임1) 데이터 처리와 스크립트 언어 ― 인기 언어인 파이썬과 데이터 프레임2) 데이터 프레임, 기초 중의 기초 ― ‘배열 안의 배열’로부터 작성3) 웹 서버의 액세스 로그의 예 ― pandas의 데이터 프레임으로 간단히 처리4) 시계열 데이터를 대화식으로 집계하기 ― 데이터 프레임을 그대로 사용한 데이터 집계5) SQL의 결과를 데이터 프레임으로 활용하기1-4 BI 도구와 모니터링1) 스프레드시트에 의한 모니터링 ― 프로젝트의 현재 상황 파악하기2) 데이터에 근거한 의사 결정 ― KPI 모니터링3) 변화를 파악하고 세부 사항을 이해하기 ― BI 도구의 활용4) 수작업과 자동화해야 할 것의 경계를 판별하기1-5 ..

[켄트 벡의 Tidy First?] 9~16장 - 더 나은 소프트웨어 설계를 위한 32가지 코드 정리법

[Part 1 코드 정리법]09 설명하는 상수 10 명시적인 매개변수11 비슷한 코드끼리 12 도우미 추출 13 하나의 더미 14 설명하는 주석 15 불필요한 주석 지우기 [Part 2 관리]16 코드 정리 구분  Part 1 코드 정리법 09 설명하는 상수 - 리터럴 상수(literal constant)는 상징적인 상수(symbolic constant)로 만들기=> 리터럴 상수? 소스 코드에 기록된 텍스트 표현한 것=> 상징적인 상수? 변수처럼 고정 값 클래스 중 하나를 취할 수 있는 기호를 써서 상수를 정의한 것// 코드정리 전if response.code = 404// 코드정리 후PAGE_NOT_FOUND := 404if response.code = PAGE_NOT_FOUND - 같은 리터럴 상수가..