본문 바로가기

전체 글

(73)
dacon 태양광 분위수 회귀분석 분위수 quantile에 따라 분석한다. 만약 분위수가 25라면 실제값 y가 예측값 p보다 작을 확률이 25%라는거임 L(yip, yi) = max[q(yip − yi), (q − 1)(yip − yi)] 즉 q가 0.5라면 median absoultue error를 측정한다. This is equivalent to saying that the mean absolute error loss function has its minimum at the median. median값일때 MAE값이 최소다. 퀀타일값이 0.5일때는 median을 추정한다. 모델중에 앙상블모델이있는데 크게 베깅하고 부스팅이있음 베깅이 랜덤포레스트고 부스팅으로 gbm 만든다 gbm의 발전된 형태가 lgbm xgboost등..
3장 DATETIME¶ In [ ]: from datetime import datetime, date, time dt = datetime(2011, 10, 29, 20 , 30 , 21) dt.day Out[ ]: 30 In [ ]: dt.minute Out[ ]: 30 In [ ]: dt.date() #스트링 변환 포맷규칙 다양하게있음 dt.strftime('%Y-%d-%m %h:%m') Out[ ]: '2011-29-10 Oct:10' In [ ]: dt.strftime('%D') Out[ ]: '10/29/11' Range¶ In [ ]: range(10) Out[ ]: range(0, 10) In [ ]: list(range(10)) Out[ ]: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]..
9장 동시성 제어와 회복을 지원하기위해 트랜잭션 제공한다. 트랜잭션 예시 만약에 320명 갱신하다가 컴퓨터 꺼지면 어떻게하나? log(로그) 유지해서 튜플들 수정한 기록 남겨논다. 위에 경우는 둘중 하나만 돼서는 안된다. 둘다되거나 아니면 둘다 안되거나해야됨 즉 하나의 트랜잭션(단위)처럼 DBMS가 보장해야한다. 컴퓨터는 뭐가 트랜잭션인지 모르니까 저렇게 범위를 사람이 지정해줘야한다. commit하고 예약완료 메세지 보내야한다. 트랜잭션의 특성 4가지 1. 원자성 2. 일관성 디비는 일관성 - 일시적 비일관성 - 또다른 일관성 3. 고립성 4. 지속성 관계 완료와 철회 9.2 동시성 제어 여러 사람들이 동시에 테이블 접근해서 트랜잭션 사용하니까 트랜젝션 잘 관리해야한다. 동시성 제어 안할시 생길수 있는 문제들..
8장 뷰 & 시스템 카탈로그 먼저 뷰에 대해서 알아보자 with check option은 생략가능 예시 뷰쓰면 DBMS에서 실행 과정 뷰의 장점 릴레이션 바껴도 view에서는 영향 없다. 독립성 제공 보안기능 제공 뷰의 갱신 상황 1. 한 릴레이션에서 만들어진 뷰에 대한 갱신 상황 2. 두개의 릴레이션에서 만들어진 뷰에 대한 갱신 기본키인 사원번호가 없어서 삽입 거절당함 상황 3. 집답함수가 포함된 뷰 집답함수니까 당연히 안되지 타당하지 않음 갱신 불가능한 뷰 DBMS마다 지원하는게 다름 시스템 카탈로그 8.3 데이터 사전은 세 종류가 있다. 예시 그냥pdf한번 읽으셈
7장 릴레이션 정규화 이상하게 설계하면 중복생겨서 갱신 이상 유발한다 갱신 이상에는 세가지가 있다 나쁜 설계 문제점 1. 3개 부서보다 더 많이 속하면 릴레이션을 바꾸거나 애트리뷰트 추가해야된다. 2. 3개 미만으로 속하면 null값 넣어서 공간 낭비 그럼 이런식으로 튜플을 여러개 사용해서 해결할 수 있다. 하지만 이런 방법도 정보의 중복(부서말고 다 중복됨) 저장공간 낭비, 수정 이상(만약 부서이름이 바꼈을 때 모든 튜플의 부서이름 변경해야된다.) 해결방법 릴레이션 분해 정규화 db설계 지침 함수의 종속성 결정자 예시 두가지 표현 방법 결정자가 두개있을때 두개다 종속하면 완전 둘중 하나만 종속하면 부분함수적 종속성 이행적 함수적 종속석 A -> C ^ C -> B 여기서 A는 학번 C는 학과이름 B는 학과전..
6장 논리적인 설계를 물리적인 데이터 모델로 사상한다 실제로 db를 저장하는 보조 기억 장치 테이프는 백업용 탐색할때 같은 실린더에 있으면 효율적이라서 같은 실린더에 두는게 중요하다. 디스크에 화일 레코드 배치 6.8 6.9보다 좋은 지연 관리 방법 대부분 사용한다. 화일 조직 1. 히프파일 2.순차 파일 탐색은 좋은데 유지하는데 비용든다. 6.5 단일 단계 인덱스 기본 인덱스(primary index) 탐색 키가 데이터 화일의 기본 키인 인덱스를 기본 인덱스라고 부름 기본 인덱스는 기본 키의 값에 따라 정렬된 데이터 화일에 대해 정의됨 기본 인덱스는 흔히 희소 인덱스로 유지할 수 있음 각 릴레이션마다 최대한 한 개의 기본 인덱스를 가질 수 있음 희소인덱스는 블럭을 가르킨다. 클러스티링 인덱스 보조인덱스 블럭..
pandas airbnb 실습 airbnb data로 set 만들기 1. Dataframe: listing each room_id, host_id with total score in two sorting ways 1) index = (room_id, host_id) 2) column = total_score: overall_satisfaction + reviews * 0.378 3) output = 1. sorted total_score in ascending 2. sorted total_score in descending = sorted_total_score_ascend.csv, sorted_total_score_descend.csv df_1 = df_air df_1['total_score'] = df_air['overall_sat..
Spark Motivation hadoop 은 streaming(real time) processing 에는 약하다 why is Mapreduce weak in iteration job? maping 과정 후 중간값을 file system에 temporary하게 저장하고 reduce가 그걸 가져와서 작업하고 hdfs에 올린다. 이렇게 file system에 접근할수록 속도가 낮아진다. (disk 접근) 하지만 스파크는 메모리에 올려서 작업해서 개이득 결론적으로 spark는 in-memory system이라 I/o system인 mapreduce보다 빠르다. Spark RDD 기본적인 data set (read-only) immutable partitioned collections of records be able ..