본문 바로가기

학교공부

(64)
pandas airbnb 실습 airbnb data로 set 만들기 1. Dataframe: listing each room_id, host_id with total score in two sorting ways 1) index = (room_id, host_id) 2) column = total_score: overall_satisfaction + reviews * 0.378 3) output = 1. sorted total_score in ascending 2. sorted total_score in descending = sorted_total_score_ascend.csv, sorted_total_score_descend.csv df_1 = df_air df_1['total_score'] = df_air['overall_sat..
Spark Motivation hadoop 은 streaming(real time) processing 에는 약하다 why is Mapreduce weak in iteration job? maping 과정 후 중간값을 file system에 temporary하게 저장하고 reduce가 그걸 가져와서 작업하고 hdfs에 올린다. 이렇게 file system에 접근할수록 속도가 낮아진다. (disk 접근) 하지만 스파크는 메모리에 올려서 작업해서 개이득 결론적으로 spark는 in-memory system이라 I/o system인 mapreduce보다 빠르다. Spark RDD 기본적인 data set (read-only) immutable partitioned collections of records be able ..
데이터베이스 4 -5 select문 중첩질의 where절에 select문 껴있는거 중첩질의에서 스칼라뽑아서 비교한다. 중첩질의에서 여러개나오면 연사자 사용해야한다 w조인질의 사용해서도 가능 상관중첩줄의. 중첩질의가 외부 질의에 선언된 릴레이션의 일부를 참조하는 질의 where뿐만아니라 from에도 중첩질의 사용가능 튜플개수 = 카디날리티 // 차수 = 컬럼의 개수 스칼라를 리턴한다는게 카디날리티 = 1 이라는거 카디날리티가 여러개인게 두번째 경우 세번째는 애트리뷰트도 여러개고 카디날리티 0이상 중첩질의가 select절에서도 쓰이긴하는데 잘 안씀. 애트리뷰트 리스트는 생략 가능 select문 사용해서 여러개 투플 삽입 , 애트리뷰트 리스트와 select 결과가 compatible해야됨 삭제 where에 아무것도 안쓰면 튜플 전..
실습 모음 이거 두개다 동등조인 SELECT e.last_name, d.department_name FROM employees e, departments d WHERE e.department_id = d.department_id – SELECT e.last_name, d.department_name FROM employees e INNER JOIN departments d ON (e.department_id = d.department_id) 실습 1 1. 다음 명령문의 오류는 무엇인가 ? SELECT employee_id, last_name sal x 12 ANNUAL SALARY FROM employees ; 공백있으면 "" 붙어줘야한다. 3. EMPLOYEES 테이블의 내용을 검색시 사원번호, 사원이름, 업무코..
데이터베이스 4-2 SQL 관계대수 - SQL로 둘다 표현 할줄 알아야한다. 디비전자는 편의를 위해 만들어진거다. 필수 연사자로 디비전을 만들어보자 (여집합 사용, 시험문제) 인터페이스는 두개 대화식은 콘솔창 이용해서 사용 아래는 호스트 언어 + 내포된 SQL 검색 & 조작 INSERT DELETE UPDATE 조작 SELECT 검색 데이터 정의어 인스턴스가 아닌 스키마를 제거 변경 생성 AUTHORIZATION 소유자 RESTRICT 스키마안에 데이터 없을 때 삭제 CASCADE 걍 다 삭제 밑에 세줄은 무결성 제약조건 거는거?? 찾아볼것 고정길이 -> 공간 낭비 가변길이 -> 비교할때 힘듬 그래서 보통 길이가 안변하고, 비교가 많은건 고정길이로 저장 제약조건 NOT NULL : null 허용 안함 default로는 허용함 UN..
Hadoop Basics 1 structured data : schema가 정해져 있는 데이터 exel semi-structured data : Json unstructured data : 구조 x 이미지 등등 hadoop은 어느 데이터를 처리할 수 있냐 고민해봐야됨 hadoop 에서는 정규화 안된 데이터들이 많이 들어옴. 데이터베이스 정규화란 데이터의 중복을 줄이고 무결성을 향상 시키는 등 여러 목적을 달성하기 위해 관계형 데이터베이스를 정규화된 형태로 재디자인하는 것을 말함. haddop은 비정규화된 데이터도 처리할 수 있다. 데이터 정규화 1차 정규화 atomic column 중복을 제거한다. Adam 두개니까 제거 2차 정규화 중복을 제거한다. scale up과 scale out이 있다. scale up : 한 컴퓨터의 성능..
빅데이터 프로그래밍 개요 Why we need Hadoop for Big Data? Data Storage and Analysis We already knew even though storage capacities or performance of hardware, e.g., HDD, SDD have increased a lot over the years access speeds. e.g., drive from 1990 year could store 1,370MB of data had a transfer speed of 4.4MB/s. 20 years later, 1-terabyte hard drive are normal, but the transfer speed is around 100MB/s Problem? A long tim..
데이터베이스 4장 관계대수 우린 관계 대수에 대해서만 알아본다. 관계 대수 관계 연산자를 통해 복잡한 관계 대수식을 만들 수 있다. 관계 연산자는 크게 두가지로 나눌 수 있다. 1. 실렉션 연산자 2. 프로젝션 연산자 예시 집합 연산자 합집합 교집합 차집합 합집합 호완이어야한다 이항연 산자 1. 합집합 연산자 연산순서 실렉션 먼저 그다음 프로젝션 2. 교집합 연산자 합집합 호환이 성립해야지 교집합이 성립. 예시 3. 차집합 차집합도 합집합 호환 성립해야지 사용가능 예시 카티션 곱 연산자 카디션 곱 다음에 원하는 튜플들을 실렉션 이용해서 사용하는게 대부분. 실제로는 이런게 순서대로 안함 카디션 곱해서 나오는게 값이 크면 오버헤드가 너무 커짐. 나중에 배우는 join으로 사용함. 그럼 바로 튜플로 값 나옴 예시 모든 경우를 포함하는 ..