빅데이터의 탐색 크로스 집계(크로스 테이블, 트랜잭션 테이블) 크로스 집계를 알기 전, 크로스 테이블이라는 것을 알아야 한다. 크로스 테이블은 행과 열이 교차하는 부분에 숫자 데이터가 들어가는 테이블을 말한다. 이는 사람들이 보기에는 편하나, 열을 늘리는 것은 간단한지 않아 데이터베이스에서는 다루지 않는다. 트랜잭션 테이블이란, 열 방향으로 데이터가 증가하지 않고, 행 방향으로 증가하는 테이블을 의미한다. 결국 데이터는 크로스 테이블이 아닌 트랜잭션 테이블의 형태로 저장되어야 한다. 하지만, 보고서와 같은 시각화 과정이 필요하다면 트랜잭션 테이블 보단 보기 쉬운 크로스 테이블을 사용해야 한다. 그렇기 때문에 크로스 집계라는 것을 수행하는 것이다. 크로스 집계 : 트랜잭션 테이블에서 크로스 테이블로 변경해..
이 책은 빅데이터를 다루는 엔지니어 혹은 작업의 자동화를 원하는 데이터 과학자들을 대상으로 한다. 또한 데이터를 수집하고 원하는 형태로 가공하여 제공하고 싶은 나에게 있어 많은 깨달음을 준 책이기도 하다. 책의 구성은 다음과 같다. 1. 빅데이터의 기초지식 2. 빅데이터의 검색 - 데이터의 대화적인 집계와 시각화 그리고 데이터 마트의 성질 3. 빅데이터의 분산 처리를 위한 하둡과 스파크 등의 분산 처리 프레임워크를 통해 데이터 가공과 집계, 그리고 데이터 마트를 만드는 프로세스 4. 빅데이터의 축적 - 데이터를 수집하여 보존하는 절차를 말한다. 여기서는 분산 스토리지의 특징을 다루며, 분산 스토리지에 데이터를 넣는 데이터 수집에 대해 설명한다. 5. 빅데이터의 파이프라인은 데이터 처리를 자동화하는 절차를..