0. 캐시 메모리 Cache Memory
캐시 메모리란 속도가 빠른 장치와 느린 장치에서 속도 차이에 따른 병목 현상을 줄이기 위한 메모리를 말한다.
- CPU 코어와 메모리 사이의 병목 현상 완화
- 웹 브라우저 캐시 파일의 경우, 하드디스크와 웹페이지 사이의 병목 현상 완화
CPU가 주기억장치에서 저장된 데이터를 읽어올 때 자주 사용하는 데이터를 캐시 메모리에 저장한 뒤, 이용해야 할 때 주기억장치가 아닌 캐시 메모리에서 먼저 가져오면서 속도를 향상한다.
속도를 향상하는 장점이 있지만, 용량이 적고 비싸다는 단점이 있다.
CPU에는 캐시 메모리가 2~3개 사용되며 각각 L1, L2, L3 캐시 메모리라고 부른다. 속도와 크기에 따라 분류한 것으로 보통 L1 캐시 메모리부터 사용된다. CPU에서 가장 빠르게 접근하며 L1에서 데이터를 찾지 못하면 L2에 접근한다.
듀얼 코어 프로세서의 캐시 메모리
각 코어마다 독립된 L1 캐시 메모리를 가지고 두 코어가 공유하는 L2 캐시 메모리가 내장된다. 만약 L1 캐시가 128kb면 64/64로 나누어 64kb에 명령어를 처리하기 직전의 명령어를 임시 저장하고 나머지 64kb에는 실행 후 명령어를 임시 저장한다. 명령어 세트로 구성되며 각각 I-Cache, D-Cache이다.
- L1 : CPU 내부에 존재
- L2 : CPU와 RAM 사이에 존재
- L3 : 보통 메인보드에 존재
- 디스크 캐시 : 주기억장치와 보조기억장치 사이에 존재하는 캐시
1. 캐시 메모리 작동 원리
참조 지역성의 원리
- 시간 지역성 : for나 while 같은 반복문에 사용하는 조건 변수처럼 한번 참조된 데이터는 잠시 후 또 참조될 가능성이 높다.
- 공간 지역성 : A[0], A[1]과 같은 연속 접근 시 참조된 데이터 근처에 있는 데이터가 잠시 후 사용될 가능성이 높음
캐시에 데이터를 저장할 때는 이러한 참조 지역성을 최대한 활용하기 위해 해당 데이터뿐만 아니라 곧 참조될 것 같은 데이터도 같이 가져온다.
- Cache Hit : CPU가 요청한 데이터가 캐시에 있을 경우
- Cache miss : CPU가 요청한 데이터가 캐시에 없어서 DRAM에서 가져와야 하는 경우
Cache miss가 되는 경우
- Cold miss : 해당 메모리 주소를 처음 불러서 나는 미스
- Conflict miss : 캐시 메모리에 A와 B 데이터를 저장하는데, A와 B가 같은 캐시 메모리 주소에 할당되어 있어서 나는 미스 (direct mapped cache에서 많이 발생) -> 주소 할당 문제
- Capacity miss : 캐시 메모리의 공간이 부족해서 나는 미스 -> 공간 문제
캐시 미스를 해결하기 위해 캐시의 크기를 키우게 되면, 캐시 접근 속도가 느려지고 파워를 많이 먹는 단점이 생긴다.
2. 구조 및 작동 방식
Direct Mapped Cache (직접 사상 방식)
가장 기본적인 구조로 DRAM의 여러 주소가 캐시 메모리의 한 주소에 대응되는 다대일 방식이다.
메모리 공간이 32개 (00000~11111)이고 캐시 메모리 공간이 8개 (000~111)라고 할 때 메모리 주소의 인덱스 필드와 같은 캐시 메모리 주소를 갖는 곳에 맵핑한다. (11000 -> 000, 10111-> 111) 인덱스 필드를 제외한 앞부분을 태그 필드라고 하며 캐시 메모리는 "인덱스 필드 + 태그 필드 + 데이터 필드"로 구성된다.
간단하고 빠르다는 장점이 있지만 Conflict miss가 발생하는 단점이 있다.
Fully Associative Cache
비어있는 캐시 메모리가 있으면 마음대로 주소를 저장하는 방식이다. 저장할 때는 매우 간단하지만 찾을 때가 어렵다.
조건이나 규칙이 없어서 특정 캐시 Set 안에 있는 모든 블록을 한 번에 찾아 원하는 데이터가 있는지 검색해야 한다. CAM이라는 특수한 메모리 구조를 사용해야 하지만 가격이 매우 비싸다.
Set Associative Cache
Direct + Fully 방식으로 가장 나중에 나온 방식이다. 특정 행을 지정하고 그 행안의 어떤 열이든 비어있는 곳에 저장하는 방식이다. Direct에 비해 검색 속도는 느리지만 저장이 빠르고 Fully에 비해 저장이 느린 대신 검색이 빠르다. 위 두 가지 방식을 적절히 섞은 방식이다.
L3 : 보통 메인보드에 존재
- 멀티 코어 시스템에서 여러 코어가 공유하는 캐시
"인덱스 필드 + 태그 필드 + 데이터 필드"
- 각 필드의 크기는 메인 메모리의 크기, 캐쉬 메모리의 크기 등에 따라 다름
'Computer Science > Computer Architecture' 카테고리의 다른 글
[Computer Architecture] 6. ARM 프로세서 (0) | 2021.06.22 |
---|---|
[Computer Architecture] 5. 패리티 비트 & 해밍 코드 (0) | 2021.06.22 |
[Computer Architecture] 4. 고정 소수점 & 부동 소수점 (0) | 2021.06.22 |
[Computer Architecture] 2. 중앙처리장치(CPU) 작동 원리 (0) | 2021.06.20 |
[Computer Architecture] 1. 컴퓨터의 구성 (0) | 2021.06.16 |