전체 글 144

빅데이터를 지탱하는 기술 (3.3~4.2 데이터 마트의 구축 & 벌크 형과 스트리밍 형의 데이터 수집 & 메시지 배송의 트레이드 오프)

[3부 빅데이터의 분산 처리]3-3 데이터 마트의 구축1) 팩트 테이블 ― 시계열 데이터 축적하기2) 집계 테이블 ― 레코드 수 줄이기3) 스냅샷 테이블 ― 마스터의 상태를 기록하기4) 이력 테이블 ― 마스터 변화 기록하기[마지막 단계] 디멘전을 추가하여 비정규화 테이블 완성시키기[4부 빅데이터의 축적]4-1 벌크 형과 스트리밍 형의 데이터 수집1) 객체 스토리지와 데이터 수집 ― 분산 스토리지에 데이터 읽어들이기2) 벌크 형의 데이터 전송 ― ETL 서버의 설치 필요성3) 스트리밍 형의 데이터 전송 ― 계속해서 전송되어 오는 작은 데이터를 취급하기 위한 데이터 전송4-2 [성능×신뢰성] 메시지 배송의 트레이드 오프1) 메시지 브로커 ― 스토리지의 성능 문제를 해결하는 중간층의 설치2) 메시지 배송을 확..

빅데이터를 지탱하는 기술 (1.3~1.5 스크립트 언어에 의한 특별 분석과 데이터 프레임 & BI 도구와 모니터링)

[1부 빅데이터의 기초 지식]1-3 [속성 학습] 스크립트 언어에 의한 특별 분석과 데이터 프레임1) 데이터 처리와 스크립트 언어 ― 인기 언어인 파이썬과 데이터 프레임2) 데이터 프레임, 기초 중의 기초 ― ‘배열 안의 배열’로부터 작성3) 웹 서버의 액세스 로그의 예 ― pandas의 데이터 프레임으로 간단히 처리4) 시계열 데이터를 대화식으로 집계하기 ― 데이터 프레임을 그대로 사용한 데이터 집계5) SQL의 결과를 데이터 프레임으로 활용하기1-4 BI 도구와 모니터링1) 스프레드시트에 의한 모니터링 ― 프로젝트의 현재 상황 파악하기2) 데이터에 근거한 의사 결정 ― KPI 모니터링3) 변화를 파악하고 세부 사항을 이해하기 ― BI 도구의 활용4) 수작업과 자동화해야 할 것의 경계를 판별하기1-5 ..

[켄트 벡의 Tidy First?] 9~16장 - 더 나은 소프트웨어 설계를 위한 32가지 코드 정리법

[Part 1 코드 정리법]09 설명하는 상수 10 명시적인 매개변수11 비슷한 코드끼리 12 도우미 추출 13 하나의 더미 14 설명하는 주석 15 불필요한 주석 지우기 [Part 2 관리]16 코드 정리 구분  Part 1 코드 정리법 09 설명하는 상수 - 리터럴 상수(literal constant)는 상징적인 상수(symbolic constant)로 만들기=> 리터럴 상수? 소스 코드에 기록된 텍스트 표현한 것=> 상징적인 상수? 변수처럼 고정 값 클래스 중 하나를 취할 수 있는 기호를 써서 상수를 정의한 것// 코드정리 전if response.code = 404// 코드정리 후PAGE_NOT_FOUND := 404if response.code = PAGE_NOT_FOUND - 같은 리터럴 상수가..

[Firebase] FCM 앱서버 프로토콜 사용한 메시지 요청구현 관련 공식문서

https://firebase.google.com/docs/cloud-messaging/send-message?hl=ko 앱 서버 전송 요청 작성  |  Firebase 클라우드 메시징Google I/O 2023에서 Firebase의 주요 소식을 확인하세요. 자세히 알아보기 의견 보내기 앱 서버 전송 요청 작성 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요. Firefirebase.google.com https://firebase.google.com/docs/cloud-messaging/concept-options?hl=ko&_gl=1*1946xhv*_up*MQ..*_ga*NDkyNzIwMDQxLjE3MjI0MDgzMDI.*_ga_CW55HF8NVT*MTcyMjQwODMwM..

카테고리 없음 2024.07.31

데이터 중심 애플리케이션 설계 (12장 스트림 처리)

[2부 분산 데이터]12장: 데이터 시스템의 미래1. 데이터 통합1.1 파생 데이터에 특화된 도구의 결합1.2 일괄 처리와 스트림 처리2. 데이터베이스 언번들링2.1 데이터 저장소 기술 구성하기2.2 데이터플로 주변 애플리케이션 설계2.3 파생 상태 관찰하기3. 정확성을 목표로3.1 데이터베이스에 관한 종단 간 논증3.2 제약 조건 강제하기3.3 적시성과 무결성3.4 믿어라. 하지만 확인하라.4. 옳은 일 하기4.1 예측 분석4.2 사생활과 추적  12장 데이터 시스템의 미래 1. 데이터 통합- 가장 적절한 소프트웨어 도구를 선택하는 것은 상황에 따라 다름=> 선택의 폭이 넓을 경우 첫번째 단계는 소프트웨어 제품과 그 제품이 잘 어울리는 환경 사이의 대응 관계를 파악하는 것  1.1 파생 데이터에 특화된..

카테고리 없음 2024.07.26

데이터 중심 애플리케이션 설계 (11장 스트림 처리)

[2부 분산 데이터]11장: 스트림 처리1. 이벤트 스트림 전송1.1 메시징 시스템1.2 파티셔닝된 로그2. 데이터베이스와 스트림2.1 시스템 동기화 유지하기2.2 변경 데이터 캡처2.3 이벤트 소싱3. 스트림 처리3.1 스트림 처리의 사용3.2 시간에 관한 추론3.3 스트림 조인3.4 내결함성  11장 스트림 처리- 일괄처리의 경우 입력을 사전에 알려진 유한크기로 한정한다는 중요한 가정이 있음=> 즉 초기에 출력을 시작할 수 없음=> 그래서 일괄 처리 프로세서는 인위적으로 일정 기간씩 데이터 청크를 나눠야 함- 스트림 처리=> 매초가 끝나는 시점에 1초 분량의 데이터를 처리하거나 고정된 시간 조각이라는 개념을 완전히 버리고 단순히 이벤트가 발생할 때마다 처리함=> 스트림? 시간 흐름에 따라 점진적으로 ..

카테고리 없음 2024.07.19

데이터 중심 애플리케이션 설계 (10장 일괄 처리)

[2부 분산 데이터]10장: 일괄 처리1. 유닉스 도구로 일괄 처리하기1.1 단순 로그 분석1.2 유닉스 철학2. 맵리듀스와 분산 파일 시스템2.1 맵리듀스 작업 실행하기2.2 리듀스 사이드 조인과 그룹화2.3 맵 사이드 조인 일괄 처리2.4 워크플로의 출력2.5 하둡과 분산 데이터베이스의 비교3. 맵리듀스를 넘어3.1 중간 상태 구체화3.2 그래프와 반복 처리3.3 고수준 API와 언어  [정리]- awk, grep, sort 등 유닉스 도구의 설계 원리=> 입력은 불변, 출력은 다른 프로그램의 입력으로 사용. 복잡한 문제도 한 가지 일을 잘하는 작은 도구를 엮어서 해결- 유닉스 환경에서 프로그램과 다른 프로그램을 연결하는 단일 인터페이스? 파일과 파이프=> 맵리듀스의 인터페이스는 분산 파일 시스템=>..

카테고리 없음 2024.07.14