본문 바로가기

학교공부

(64)
데이터 베이스 2장(관계 데이터 모델과 제약조건) 관계 데이터 모델은 지금까지 제안된 데이터 모델들 중에서 가장 개념이 단순한 데이터 모델의 하나 릴레이션(relation) : 2차원 테이블 레코드(record) : 릴레이션의 각 행 투플(tuple) : 레코드를 좀더 공식적으로 부르는 용어, 레코드랑 같은 말 애트리뷰트(attribute) : 릴레이션에서 이름을 가진 하나의 열 카디날리티 : 행들의 수, 릴레이션의 투플 수 0이 될 수 도있음. 시간에 따라 삽입 삭제로 계속 바뀜 차수 : 열들의 수 , 한 릴레이션에 들어 있는 애트리뷰트들의 수 유요한 릴레이션의 최소 차수는 1 자주안바뀜 2.1 예시로 보면 EMPNAME의 도메인은 이수민, 조민희, 김동수 등등의 사람의 이름 집합이 된다. 내포와 외연 예시 릴레이션을 모으면 데이터베이스 릴레이션의 특..
머신러닝 3 (수학) 목적함수에서 MSE더해서 제어를 해준다. 암튼 수학을 할 줄알아야지 아니면 그냥 베껴쓰기만 할수 있음. 샘플을 특징 벡터로(feature vector) 표현 여러개의 벡터 -> 행렬 훈련집합을 담은 행렬을 설계행렬이라 부름 행은 feature 열은 샘플의 개수 하나의 트레이닝 셋을 하나의 매트릭스로 표현할 수 있다. 텐서 3차원 이상의 구조를 가진 숫자 배열 1차는 벡터 2차는 행렬 3차원 이상은 텐서 ex) 500 x 500 영상인 경우 RGB 3 x 500 x 500 tensor로 표현할 수 있다. 놈(norm)과 유사도 유사도 diffrence distance 어떤 feature를 뽑았을 때 이게 남자의 특징에 가깝냐 여자의 특징에 가깝냐로 분류할 수 있다(유사도) 벡터의 p차 놈(Lp norm) ..
머신러닝 2장 (규제...) 규제(regularization) 기계학습에서 가장 중요한건 일반화 학습이다. 일반화 성능을 높히는 거에 초점을 맞춰서 연구해왔다. 일반화 성능이란 테스트집합에서의 좋은 성능을 보이는것. 여기서 규제란 기계가 over-fitting 되지 않도록 적절한 가이드를 제공하는것. 데이터 확대 가장 강력한 규제 방법 모델 차수가 높더라고 데이터가 충분히 많으면 12차도 좋은 모델을 만들 수 있다. 샘플 개수가 많을 수록 overfiiting을 막고 일반화 성능을 높힐수있다. 근데 문제는 데이터 수집은 많은 비용이 듦 그라운드 트루스를 사람이 일일이 레이블링 해야한다. 레이블링이란 사람이 목표값을 메기는 행위. 이때 레이블한 결과값을 ground-truth라고 한다. 비슷한말로 참값 진리값 암튼 이게 많은 비용이 ..
머신러닝 1장 더보기 기계학습 정의 지식기반 -> 기계학습 데이터 중심 접근방식으로 변화 문제는 회귀 문제와 분류 문제로 나뉜다. 회귀는 목표치가 실수 분류는 부류값 훈련집합(traning set) 가로축은 특징, 세로축은 목표치 관측한 4개의 점이 훈련집합을 구성 데이터를 어떻게 모델링할 것인가 눈대중으로 직선이면 될거같으니까 직선 선택 학습하면서 최적의 매개변수 w,b를 찾는게 기계학습니다. 기계학습의 목표 훈련집합에 없는 새로운 샘플에 대한 오류를 최소화 (테스트 집합) 테스트 집합에 대한 높은 성능을 일반화(generalization) 능력이라 부름 특징 공간에 대한 이해 특징 공간이란 쉽게 설명해서 관측 값들이 있는 공간. 이 특징 공간은 여러 차원으로 구성이 될 수 있음 1차원과 2차원 특징 공간 1차원 특..
데이터베이스 시스템 1장 데이터 베이스 : 응용 시스템들이 공유해서 사용하는 데이터들이 구조적으로 통합된 모임. 데이터 vs 정보 데이터는 프로그램과 질의에 의해 정보로 변환 데이터베이스 특징 데이터 베이스는 데이터의 대규모 저장소로서, 여러 사용자들이 동시에 사용됨. 중복 최소화 하면서 통합 데이터에 관한 설명(데이터베이스 스키마 , 메타데이터) 포함 데이터베이스 개요 데이터베이스 관리 시스템 (DBMS) : 데이터베이스를 정의하고, 질의어를 지원하고, 리포트를 생성하는 등의 작업을 수행하는 소프트웨어 데이터베이스 스키마 : 전체적인 구조, 내포라고 부름 데이터베이스 상태 : 특정 시점의 데이터베이스의 내용, 시간에 따라 바뀜, 외연이라고 부름 DBMS의 구성 요소 저장소에 데이터베이스랑 메타데이터인(시스템 카탈로그(스키마 같..
컴퓨터구조23 - Virtual Memory Logical address virtual address 각각의 프로그램은 own address로 실행하고 실시간으로 변환해서 산다. cache ram 과 비슷한 느낌이다 다만 ram hdd는 그차이가 매우 심하다. 따라서 page fault 날 시에 disk 가야돼서 손해가 매우 큼 -> hit rate를 최대한 올려야한다. temporal 과 spatial 사이의 적절한 값을 찾아서 page size 결정 fully associative placement 사용 page fault 는 SW로 처리 (hw가 빠르긴하지만 어차피 disk handle 하는데 시간 오래걸려서 SW로 해도 상관없다) Write-through 보다 당연히 Write-back 사용 Page Table : main memory SW..
운영체제 요약 operating system goal computer system 효율적 관리 편리한 인터페이스 hw자원 관리 user program 실행 커널 + 시스템프로그램 = 운영체제 시스템프로그램 = 꼭 깔리는 프로그램 ( 윈도우 탐색기 같은거) cpu가 i/o 컨트롤하기 위한 controller있음 h/w자원 : resource 이런거 복잡해서 관리 대신해주는게 os cpu는 명령내리고 다른거 한다. i/o controller가 일다하면 cpu한테 알려줌 (interrupt) CPU Instruction Set Architecture RISC CISC reduced 적은 명령어로 복잡한 기능을 구현해서 성능이 CISC보다 좋음. Dual Mode operation 1. User mode 2. Monitor ..
컴퓨터구조 22 - Cache write through 장점 간단하고 빠르다 cache logic 따로 구현해서 bus 비는지 체크할필요도 없다 단점 트래픽 많아져서 write buffer 다차면 cpu blocking 생길 수 있다. write back 장점 memory access 효율성 올라간다 메모리를 random access하는거보다 sequence access하는게 빠르다. 한방에 몰아주니까 sequence access로 write해서 빨라진다? 단점 구현할게 많아진다 이걸 섞어서 - cpu - L1 dirty bit 저장할데도없고 자연적으로 wirte through 써야함 - 그 뒤부터 L1에 dirty bit 넣어서 write back 사용한다. Cache 성능 향상 1. miss rate를 줄이고 2. miss pen..