본문 바로가기

학교공부/빅데이터프로그래밍

(3)
Spark Motivation hadoop 은 streaming(real time) processing 에는 약하다 why is Mapreduce weak in iteration job? maping 과정 후 중간값을 file system에 temporary하게 저장하고 reduce가 그걸 가져와서 작업하고 hdfs에 올린다. 이렇게 file system에 접근할수록 속도가 낮아진다. (disk 접근) 하지만 스파크는 메모리에 올려서 작업해서 개이득 결론적으로 spark는 in-memory system이라 I/o system인 mapreduce보다 빠르다. Spark RDD 기본적인 data set (read-only) immutable partitioned collections of records be able ..
Hadoop Basics 1 structured data : schema가 정해져 있는 데이터 exel semi-structured data : Json unstructured data : 구조 x 이미지 등등 hadoop은 어느 데이터를 처리할 수 있냐 고민해봐야됨 hadoop 에서는 정규화 안된 데이터들이 많이 들어옴. 데이터베이스 정규화란 데이터의 중복을 줄이고 무결성을 향상 시키는 등 여러 목적을 달성하기 위해 관계형 데이터베이스를 정규화된 형태로 재디자인하는 것을 말함. haddop은 비정규화된 데이터도 처리할 수 있다. 데이터 정규화 1차 정규화 atomic column 중복을 제거한다. Adam 두개니까 제거 2차 정규화 중복을 제거한다. scale up과 scale out이 있다. scale up : 한 컴퓨터의 성능..
빅데이터 프로그래밍 개요 Why we need Hadoop for Big Data? Data Storage and Analysis We already knew even though storage capacities or performance of hardware, e.g., HDD, SDD have increased a lot over the years access speeds. e.g., drive from 1990 year could store 1,370MB of data had a transfer speed of 4.4MB/s. 20 years later, 1-terabyte hard drive are normal, but the transfer speed is around 100MB/s Problem? A long tim..