본문 바로가기

학교공부/머신러닝

(4)
pytorch lstm data는 dacon에 운동 동작 분류 AI 경진대회 사용했다. dacon.io/competitions/official/235689/data/ 간단하게 각 user마다 600개의 움직임이 있고 이걸 61 label로 분류하는 거임ㅇㅇ 이걸 pytorch lstm으로 구현해보자 www.kaggle.com/omershect/learning-pytorch-lstm-deep-learning-with-m5-data 여기를 많이 참고했다 train=pd.read_csv(PATH+'train_features.csv') train_labels=pd.read_csv(PATH+'train_labels.csv') test=pd.read_csv(PATH+'test_features.csv') submission=pd.read_..
머신러닝 3 (수학) 목적함수에서 MSE더해서 제어를 해준다. 암튼 수학을 할 줄알아야지 아니면 그냥 베껴쓰기만 할수 있음. 샘플을 특징 벡터로(feature vector) 표현 여러개의 벡터 -> 행렬 훈련집합을 담은 행렬을 설계행렬이라 부름 행은 feature 열은 샘플의 개수 하나의 트레이닝 셋을 하나의 매트릭스로 표현할 수 있다. 텐서 3차원 이상의 구조를 가진 숫자 배열 1차는 벡터 2차는 행렬 3차원 이상은 텐서 ex) 500 x 500 영상인 경우 RGB 3 x 500 x 500 tensor로 표현할 수 있다. 놈(norm)과 유사도 유사도 diffrence distance 어떤 feature를 뽑았을 때 이게 남자의 특징에 가깝냐 여자의 특징에 가깝냐로 분류할 수 있다(유사도) 벡터의 p차 놈(Lp norm) ..
머신러닝 2장 (규제...) 규제(regularization) 기계학습에서 가장 중요한건 일반화 학습이다. 일반화 성능을 높히는 거에 초점을 맞춰서 연구해왔다. 일반화 성능이란 테스트집합에서의 좋은 성능을 보이는것. 여기서 규제란 기계가 over-fitting 되지 않도록 적절한 가이드를 제공하는것. 데이터 확대 가장 강력한 규제 방법 모델 차수가 높더라고 데이터가 충분히 많으면 12차도 좋은 모델을 만들 수 있다. 샘플 개수가 많을 수록 overfiiting을 막고 일반화 성능을 높힐수있다. 근데 문제는 데이터 수집은 많은 비용이 듦 그라운드 트루스를 사람이 일일이 레이블링 해야한다. 레이블링이란 사람이 목표값을 메기는 행위. 이때 레이블한 결과값을 ground-truth라고 한다. 비슷한말로 참값 진리값 암튼 이게 많은 비용이 ..
머신러닝 1장 더보기 기계학습 정의 지식기반 -> 기계학습 데이터 중심 접근방식으로 변화 문제는 회귀 문제와 분류 문제로 나뉜다. 회귀는 목표치가 실수 분류는 부류값 훈련집합(traning set) 가로축은 특징, 세로축은 목표치 관측한 4개의 점이 훈련집합을 구성 데이터를 어떻게 모델링할 것인가 눈대중으로 직선이면 될거같으니까 직선 선택 학습하면서 최적의 매개변수 w,b를 찾는게 기계학습니다. 기계학습의 목표 훈련집합에 없는 새로운 샘플에 대한 오류를 최소화 (테스트 집합) 테스트 집합에 대한 높은 성능을 일반화(generalization) 능력이라 부름 특징 공간에 대한 이해 특징 공간이란 쉽게 설명해서 관측 값들이 있는 공간. 이 특징 공간은 여러 차원으로 구성이 될 수 있음 1차원과 2차원 특징 공간 1차원 특..