KEYWORDS
High-bandwidth memory (HBM), receiver (RX), sense amplifier (SA), time domain, through-silicon via (TSV) I/O
- though-sillicon via (TSV) I/O
: 실리콘 웨이퍼 내부를 수직으로 관통하는 전기적 연결을 만들어 여러 개의 반도체 칩을 직접 연결하는 기술로, HBM에 사용된다.
Abstract
이 논문에서는 차세대 HBM를 위한 TGSA, Time Gap Sense Amplifier를 제안한다. TGSA는 두 개의 기준 전압 V REF와 GND, 그리고 입력 데이터 Vin을 time domain으로 변환하여, 이들 간의 시간 간격을 감지해 판단하는 방식이다. 이를 통해 SA와 기준 전압의 불일치로 인한 오류를 줄이면서도 트랜지스터 크기의 증가를 최소화할 수 있다.
INTRODUCTION
HBM은 1,024개의 병렬 I/O 를 이용하여 저전력으로 terabyte level의 memory bandwidth를 달성해 왔다. 가장 최근에 개발된 HBM3E는 최대 16개의 stack과 24Gb die density를 가지고 있으며 10Gb/s/pin 속도로 1,280GB/s의 bandwidth을 제공한다.
HBM의 bandwidth를 2배로 증가시키는 방법으로 2가지가 있다.
(1) 핀당 데이터의 속도 증가
(2) I/O 핀 개수 증가
첫 번쨰 방법은 RX에서 추가적인 EQ 및 De-serializer가 필요하므로 실효성이 부족한 반면, 두 번째 방법은 확장성과 단순성 측면에서 비교적 유망한 대안이라고 볼 수 있다.
그러나, RX의 공급 전압 VDD 가 낮아지면 SA의 Vos, Vnoise, Vref error 가 증가하여 이들의 크기에 비례하는 error mask가 커지는 문제점이 발생한다. 기존 연구 방향은 저전력 이퀄라이제이션 및 오프셋 보정 기법이지만, 이는 2,048개 이상의 I/O 수를 지원하기 위해서는 면적이 매우 커지기 때문에 사용할 수 없다.
따라서, 이 논문에서는 TGSA, Time Gap Sense Amplifier를 제안하여 추가적인 보정 회로 없이 error mask를 줄이는 방법을 제시한다. TGSA는 기준 전압으로 GND와 0.3V의 VDDQL을 사용하여 Vos 및 VREF error의 영향을 줄인다.
위 그림을 보면, (b)는 제안된 방식이고, (a)는 기존 방식이다. 이는 제안된 방식의 error mask가 크게 감소됨을 보인다.
TIME GAP SENSE AMPLIFIER
A. Circuit Operation and Analysis
TGSA는 기존 SA처럼 기준 전압 Vref 와 입력 신호 Vin 을 직접 비교하는 것이 아니라 입력 신호가 GND와 VDDQL (본 논문에서는 0.3V) 중 어느 쪽에 더 가까운 값을 가지는지 판단하는 방식을 가진다.
위 그림은 TGSA의 구조를 보여준다. 총 2 stage로 구성되어 있는데,
1st stage : Time gap generator, TGG
2nd stage : Time gap latch, TGL
이다.
(1) TGG
Vin, VDDQL, GND 3가지의 voltage domain signal을 dynamic integration을 사용하여 time domain으로 바꾸는 역할을 한다.
- S1 : reset 역할. CK 신호가 Vth보다 커지면 nmos mosfet S1이 turn on 되면서 GND와 연결되고, 이는 inverter을 거쳐 output T를 VDD로 reset 시킨다.
- M2 : input pmos switch M1과 reset switch S1 사이에 연결되어 output node가 nput pmos switch M1에 대해 독립적으로 유지될 수 있도록 한다.
- INV : output signal이 sharp rail-to-rail 을 유지할 수 있도록 한다. 즉, 0혹은 1 신호를 가지며, 중간값을 없앤다.
- 작동 방식
(1) Vin이 GND에 더 가까운 경우 : integration current through M1a, M2a가 증가하여 Tin이 Tgnd에 가까워진다.
(2) Vin이 VDDQL에 더 가까운 경우 : integration current through M1a, M2a가 감소하여 Tin이 Tvddql에 가까워진다.
위 그림을 보면, 해당 경우는 Vin이 VDDQL에 더 가까운 경우 (HIGH 1)를 보여준다. 결과적으로, Tin이 Tvddql과 더 가까운 것을 볼 수 있다.
TGL에 전송할 time gap은 총 2가지인데,
△TH =Tin −Tgnd
△TL = Tvddql −Tin
로 정의된다.
M1, M2는 PMOS입니다. PMOS의 전류 식은 Id∝(Vsg−Vth)^2 이므로, Vin이 VDDQL에 더 가까워져, 값이 커지면 Vsg가 작아지면 M1a, M2a에 흐르는 integration current가 감소하여 적분 시간이 오래 걸리게 됩니다.
반대로, Vin이 GND에 더 가까워져 값이 작아지면 Vsg가 커져 M1a, M2a에 흐르는 integration current가 증가하여 적분 시간이 짧게 걸리게 됩니다.
즉, 이 원리로 voltage signal domain을 time domain으로 변경하는 겁니다.
(2) TGL
TGG에서 변환한 time domain signal을 받아 time gap을 감지하고 이를 voltage difference로 변환하여 신호를 복원하는 역할을 한다.
1. Reset
TGL이 동작을 시작하기 전, S2a와 S2b mosfet이 켜져, Voutp, Voutn이 gnd로 초기화된다. 이는 이전 상태의 영향을 제거하여 데이터 왜곡을 막기 위해서이다. (S2 mosfet은 nmos이고 gate input은 Tgnd이므로 reset을 원하지 않을 때는 turn off 상태를 유지한다.)
2. Integration
TGG에서 받은 time domain signal으로 time gap을 voltage difference로 변환한다.
- 1st integration △TH =Tin −Tgnd
M3a가 turn on 되어 전류가 흐르면서 M4a를 통해 Voutp node로 전류가 흘러 Voutp 가 증가한다. M4a는 시간이 흐르면서 Tin이 작아져 turn off되면서 integration이 멈추고, Voutp 는 유지된다.
- 2nd integration △TL = Tvddql −Tin
Tin이 1st integration 후에 low signal로 변하면, pmos M3b가 turn on 되고, M4b도 turn on 되어 Voutn node로 전류가 흘러 Voutn 가 증가한다. 일정 시간이 지나 Tin이 다시 high signal이 되면, M3b가 turn off 되어 integration이 멈추고 Voutn은 유지된다.
3. regeneration
integration 단계가 끝나면 Voutp와 Voutn 사이에 작은 전압 차이가 존재하는데, 이는 cross-coupled latch를 통해 이 전압 차이를 증폭하여 digital signal로 변환한다. (cross-coupled latch는 두 개의 pmos-nmos쌍이 cross coupled로 연결되어 있기 때문에, 한 쪽이 증가(1)하면, 반대는 더 빨리 감소(0)하는 feedback effect가 발생한다. 이 과정이 반복되면, 처음에는 작은 신호 차이더라도 출력 신호가 빠르게 1혹은 0의 digital signal로 변환된다.)
TGSA는 Tin이 virtual reference time, Tvref 를 초과했는지의 여부를 판단한다.
Vin = Vddql / 2 그리고 Tin = Tvref 일 때,
M1a 와 M1b 의 사이즈를 동일하게 하고, M1c는 두 배 크게 한 결과,
이로 인해 SA의 mismatch를 줄여 robustness를 높여 주고, voltage error를 줄일 수 있다.
B. Comparison With the Conventional SAs
본 논문에서 사용된 TGSA의 성능을 DTSA, STSA와 비교하며 강조한다.
우선, STSA는 3단 latch 구조로 인해 낮은 VDD에서 사용하기 적합하지 않지만, DTSA는 증폭과 latch 단계가 분리된 2단 latch 구조로, 낮은 VDD에서도 사용이 용이하다.
TGSA는 앞서 설명했듯이, gma * 2 > gmc 이기 때문에 VREF 오차와 Vth 불일치에 대해 내성을 가지지만, STSA와 DTSA는 대칭적인 gm을 사용하여 불일치에 매우 취약하다.
즉, TGSA는 상대적으로 높은 전력 소비와 느린 지연 시간을 보이지만, 노이즈 성능과 높은 불일치 내성 덕분에 오차 마스크를 23% 줄일 수 있다. 결론적으로, TGSA는 높은 불일치 내성과 낮은 Vos를 바탕으로 DTSA보다 더 효율적이고 안정적인 성능을 가진다.
TSV CHANNEL
위 그림과 같이, 이전 연구들과 달리 CTSV의 바닥 판과 기판 간의 접촉을 제거하여 Rsub의 값을 유지한다. 이는 예기치 않은 Rsub 변동을 예방한다. Rsub가 변동한다면, 타켓 채널의 주파수 응답에 영향을 미칠 수 있기 때문이다.
CONCLUSION
이 논문은 random mismatch와 Vref error을 줄여 차세대 HBM을 향상시킬 수 있도록 TGSA를 제안한다. TGSA는 GND와 VDDQL 을 사용하여 가상 Vref를 형성하고, 한 쪽의 불일치를 다른 쪽을 통해 보상한다. 또한, 에뮬레이션된 실리콘 기판을 MPW 기판에서 분리하여 신뢰성과 정확도를 개선한 20개의 스택된 에뮬레이션된 TSV 채널을 제시한다. Prototype half-rate RX 는 10 Gb/s PRBS15 data 를 0.64 mW의 전력을 소모하며 성공적으로 복구한다.