본문 바로가기

분류 전체보기

(73)
컴퓨터 구조 21 - Cache 마지막에 EMAT는 Tc cache에 접근하는 시간 m*Tm miss날시 그 다음 접근 시간. 만약 계속해서 미스나면 Tc + m*(EMAT') .... 이렇게 쭉쭉 늘어난다. 1. data를 놓는거 2. data를 어떻게 찾을거냐 3. 찾은 data가 유효한가 cache 구조가 어려우니까 일단 하나의 cache 구조를 설명한다. 오른쪽 이 main memory 16개 저장가능 왼쪽이 8개 저장가능한 cache라고 가정. mapping하는 특성은 바로 순서에 맞게 mapping한다. 0 0 8 16 24 1 1 9 17 25 2 2 10 18 26 3 3 11 19 27 4 4 12 20 28 5 5 13 21 29 6 6 14 22 30 7 7 15 23 31 Cache Memory 요런 index로 ..
컴퓨터구조 18 - SMT SMT에 대해서 추가적으로 고려할것 어느 thread에서 fetch할 것인가? starvation 방지 fairness 등등 SMT Fetch Policies 1.static polices Round Robin : 간단하게 RR 방식으로 하면 될거같지만 그렇게 성능이 좋지않다. slow thread 있을경우 pipeline을 monopoly해버리면 전체적으로 손해임. 2. dynamic polices favor thread with minial in-flight branch(branch 적은거), outstanding miss(캐시 미스확률 적은거),in-flight IS(명령어적은거) 등등의 방법 favor thread with higher real time 등등 - ICOUNT : priority 가..
컴퓨터구조 17 - SMT Multi threading 종류 Fine-grained MT Coarse-grained MT Simultaneous MT 이전에 위에 두개 배웠다. 각각 장단점이 존재한다. FG와 CG MT에서는 결국 한 클락안에서는 한 쓰레드를 갖고온다. SMT의 idea는 한 클락에서 multi thread의 명령어를 갖고오는거. 이전에 배운 superscalar 진행을 보자 single thread 상황에서 많은 hazard가 생겼다. 지금까지 배운 방법을 superscalar 적용해보자 1. predicated Execution branch를 없애고 성능 쪼금 향상돼도 어차피 nop있어서 별다를거 없다. 2. Chip Multiprocessor 멀티프로세서 환경이라면 아예 분리가 되니까 잘만 짜면은(높은 가동률..
컴퓨터구조 16 - Multithreading Thread Instruction stream with state Thread는 자기만의 독립적인 state(context)를 갖는다. 한 process안에 하나이상의 thread를 가질 수 있음. multi threading관점에서는 각각의 thread를 독립적인 program으로 생각한다. processor 입장에서 thread의 흐름(context)을 잘 기억해야된다. 이러한 문제를 해결하다보면 이전의 문제였던 control structural hazard 자연스럽게 해결할 수 있다. 그리고 여기서 나오는 multithreading은 hw관점에서의 이야기이다. Hardware multi threading 장단점 장점 간단하게 긴 latency를 가진 작업을 만날 때 다른 작업을 해서 전체 성능을 올..
컴퓨터구조 15 - SuperScalar 오늘도 성능을 올리기 위해 달린다. Superpipelining superpipelining이란 기존의 pipeline보다 더 잘게 자르는거다. 기존의 pipeline 단점이 명령어 한 cycle에 못끝내면 밑에것도 같이 길어진다는 점이다. 만약 균일하게만 자를 수 있다면 자르는게 도움이 된다. delay time을 줄여 clock frequency를 올릴 수 있어서 성능 개선. 근데 균일하게 자르는데 한계가 있다. 균일하지 못하면 어차피 큰 거에 bound되서 자르나 마나임. 정리하자면 depth가 늘어나서 clock cycle이 짧아지긴하나 depth가 깊어지니 forward/hazard hw가 더 필요하고 stall이 더 생긴다. (만약 ALU가 반띵됐다고 치면 load같은거 forward로도 해결..
컴퓨터구조 - 14(Predicated execution, Loop Unroll) 지금까지 정리하자면 branch는 프로그램의 15%~25% 차지할 정도로 자주 쓰이는 명령어임. 근데 이 구조상 branch 자주 쓰면 클락 낭비되고 암튼 별로임. 그래서 이 명령어를 효율적으로 사용하기위한 여러 방법들이 생겨남 지금까지 stall, backward taken forward not taken , branch delay slot , branch prediction을 배웠음. 이번에 배울 건 Predicated execution, Loop Unroll 이라는 방법이다. 전에 배운게 branch를 예측하는거라면 오늘의 테마는 branch를 없애보자 이다. Predicated Execution이란? : branch를 없애고, 각 명령어가 predicate bit을 갖고 알맞게 실행한다. pred..
컴퓨터구조 13 - Branch Prediction 오늘도 즐거운 branch 개선시간~ 저번시간에 Global branch history 와 BTB를 이용하여 branch의 성능을 향상 시키는 법을 배웠음. 근데 여기도 문제가 있는데... 만약 Branch P에서와 Q에서의 패턴이 동일하다고 하자 근데 P는 taken이고 Q는 not taken이면 동일한 PHT를 계속 update하니까 예측 성공률 떨어짐 또 보면 패턴이 골고로 퍼져있는게아니라 특정 패턴에 좀 몰려있는 성향이 있음. 그러면 특정 패턴에 대한 기억을 하나밖에못하니까 global hitory 특징을 못살린다. 해결방법 기억하는 패턴의 bit를 늘리면 되지 않을까? -> 1bit만 늘려줘도 table크기는 두배가 됨. cpu 용량이나 가격한계? 암튼 불가능. branch filtering을 ..
컴퓨터구조 12 - Branch Prediction 근데 우리는 명령어가 언제 Branch인지 알 수 있을까? 첫 클락에서는 명령어가 뭔지 모른다. IR들어갈 때 쯤 알 수 있다. branch는 뭐가 문제일까? branch 하나 생기면 pipeline stage만큼 stall해야되는데 성능 개박살남 ㅇㅇ Branch 해결 방법 branch를 해결하는 여러 방법중에 prediction에 대해 배워볼거다 branch를 제대로 예측하기 위해서는 3가지를 알아야한다. 지금 fetch한 명령어가 branch냐 아니냐 branch direction (condition이 만족했냐 아니냐) 만약 condition을 만족했다면 어디로가느냐 A. 간단한 prediction은 그냥 무조건 맞다고 하는거. 사실상 PC+4로 위에서 말했듯이 성능이 박살난다. B. 요 밑에 BT..