2026년 3월 25일.
구글 리서치가 논문 하나를 조용히 공개했다.
이름은 터보퀀트(TurboQuant).
그런데 이 논문 하나에 삼성전자가 흔들렸다.
SK하이닉스가 흔들렸다.
코스피가 1%대 하락했다.
도대체, 이게 뭐길래?
“AI가 메모리를 너무 많이 먹는다” 터보퀀트가 터뜨린 진짜 문제
AI가 똑똑해지려면, 대화 내용을 기억해야 한다.
이 기억을 저장하는 임시 저장소가 바로 KV 캐시(Key-Value Cache)다.
문제는 이 KV 캐시가 괴물처럼 메모리를 잡아먹는다는 것이다.
AI가 기억해야 할 문맥(컨텍스트)이 길어질수록, GPU에 탑재된 HBM 총용량의 절반까지 KV 캐시가 차지할 수 있다.
쉽게 말하면 이런 거다.
당신 스마트폰 저장공간 128GB 중 64GB를 “어제 카톡 대화 기억”에만 쓰고 있는 상황이다.
사진도 못 찍고, 앱도 못 깔고.
AI 업계가 수조 원짜리 GPU를 사 모으는 이유가 바로 여기에 있었다.
메모리가 부족하니까, 더 비싼 칩을 더 많이 사는 수밖에 없었던 거다.
상세 기술 문서: 구글 리서치 공식 블로그 – TurboQuant: Redefining AI efficiency with extreme compression
왜 지금까지 못 줄였을까
기존에도 메모리를 줄이는 양자화(Quantization) 기술은 있었다.
32비트짜리 데이터를 4비트, 8비트로 쪼개서 압축하는 방식이다.
그런데 여기엔 치명적인 함정이 있었다.
압축하려면 보정 상수(quantization constants)를 따로 저장해야 하는데, 이 보정 상수 자체가 숫자 하나당 1에서 2비트의 추가 메모리를 먹었다.
압축한다면서 오히려 짐을 더 얹는 꼴이었던 거다.
마치 이사할 때 짐을 줄이겠다고 압축팩을 샀는데, 압축팩 자체가 한 박스를 차지하는 상황이다.
원논문: TurboQuant – Online Vector Quantization with Near-optimal Distortion Rate (arXiv)
구글은 이걸 어떻게 풀었나
구글의 접근법은 두 단계로 나뉜다.
각각 들여다보면 의외로 단순한 발상이다.
첫 번째, PolarQuant. 좌표계를 바꿔버렸다.
기존엔 데이터를 X, Y, Z 직교좌표로 저장했다.
구글은 이걸 극좌표(Polar Coordinates)로 전환했다.
“동쪽 3블록, 북쪽 4블록”이라고 쓰던 걸 “37도 방향으로 5블록”이라고 바꾼 거다.
이렇게 하면 보정 상수가 필요 없어진다. 데이터가 예측 가능한 원형 격자 위에 놓이기 때문이다.
두 번째, QJL. 1비트짜리 오류 교정이다.
첫 번째 단계에서 남은 미세한 오차를, 단 1비트의 부호(+1 또는 -1)만으로 보정하는 기술이다.
추가 메모리 오버헤드가 제로다.
결과는 이렇다.
| 항목 | 기존 | 터보퀀트 적용 후 |
|---|---|---|
| KV 캐시 비트 수 | 32비트 | 3비트 |
| 메모리 사용량 | 기준 | 6분의 1 |
| 추론 속도 (H100 기준) | 기준 | 최대 8배 향상 |
| 정확도 손실 | 해당 없음 | 제로 |
재학습(fine-tuning)도 필요 없다.
그냥 기존 모델에 바로 적용할 수 있다.
벤치마크 상세: Ars Technica – Google says new TurboQuant compression can lower AI memory usage without sacrificing quality
VentureBeat 분석: Google’s new TurboQuant algorithm speeds up AI memory 8x, cutting costs by 50%
삼성전자 5% 급락
이 논문이 공개되자마자, 시장이 즉각 반응했다.
- 미국 마이크론 3.4% 하락.
- 삼성전자 최대 4.8% 하락.
- SK하이닉스 최대 5.9% 급락.
서울경제와 연합인포맥스 보도에 따르면, 투자자들 사이에서 소프트웨어가 하드웨어를 대체할 수 있다는 공포가 확산된 것이다.
클라우드플레어 CEO 매튜 프린스는 이걸 구글의 딥시크 모먼트라고 불렀다.
올해 초 중국 딥시크가 저사양 하드웨어로 고성능 AI를 구현해서 시장을 충격에 빠뜨렸던 것처럼, 터보퀀트도 비싼 칩 안 사도 된다는 신호를 시장에 던진 셈이다.
그런데 반전이 있다, 제번스의 역설이 말하는 미래
여기서 이야기가 뒤집힌다.
모건스탠리가 즉각 보고서를 냈다.
결론은 오히려 매수 기회였다.
근거는 19세기 경제학 개념인 제번스의 역설(Jevons Paradox)이다.
1865년, 경제학자 윌리엄 제번스가 발견한 현상이 있다.
증기기관의 연료 효율이 좋아지자, 석탄 소비가 줄어들 줄 알았는데 오히려 폭발적으로 늘었다.
효율이 좋아지니 더 많은 곳에서 증기기관을 쓰기 시작한 거다.
KB증권 김일혁 연구원도 같은 논리를 제시했다.
메모리를 6분의 1만 써도 되니까, AI가 기억할 수 있는 문맥(컨텍스트 윈도우)이 6배로 늘어난다.
에이전트 AI를 동시에 여러 개 돌릴 수 있게 된다.
비용 부담으로 AI 도입을 망설이던 기업들이 대거 진입하게 된다.
결국 메모리 총수요는 줄어드는 게 아니라, 시장 파이 자체가 커진다는 분석이다.
또 하나. 터보퀀트는 추론(Inference) 단계에만 적용되는 기술이다.
AI 모델을 처음 학습(Training)시킬 때 필요한 HBM 수요는 전혀 영향받지 않는다.
모건스탠리 분석 관련 보도: 연합인포맥스 – 구글 터보퀀트 쇼크에 반도체주 급락, 제번스의 역설 논란
서울경제 분석: 구글 터보 퀀트가 뭐길래, 삼성과 하닉 수요 둔화 우려는 과도
정리하자면,
이 모든 자료를 조합해보니, 몇 가지 팩트가 보인다.
- 팩트 1. 터보퀀트는 아직 논문 단계다. 상용화 전이다. 국내 반도체 업계도 확대 해석이 과도하다는 입장이다.
- 팩트 2. 구글이 다음 달 브라질 행사(ICLR 2026)에서 구체적인 실증 데이터를 공개할 예정이다.
- 팩트 3. 과거 딥시크 쇼크 때도 반도체주가 급락했지만, 결국 AI 시장 확장세는 빠르게 회복됐다.
- 팩트 4. 터보퀀트가 열어줄 온디바이스 AI 시대는, 오히려 엣지 디바이스 쪽 메모리 수요를 새로 만들어낼 수 있다는 전망도 있다.
메모리를 덜 쓰는 기술이 나왔다.
그런데 역사적으로, 효율이 좋아질 때마다 수요는 오히려 폭발했다.
석탄이 그랬고.
인터넷 대역폭이 그랬고.
클라우드 서버가 그랬다.
40~50대라면 기억할 거다.
2000년대 초반, 인터넷 속도가 빨라지면 서버가 덜 필요해진다고 했다.
결과는? 서버 시장이 수백 배로 커졌다.
터보퀀트가 그 패턴을 반복할지, 이번엔 정말 다를지.
다음 달 브라질에서 나올 실증 데이터가 첫 번째 분기점이 될 것이다.
Q&A
Q1. 터보퀀트가 뭔지 한 줄로 설명하면?
AI가 대화를 기억하는 임시 저장소(KV 캐시)를 기존 대비 6분의 1로 압축하면서도 정확도 손실이 전혀 없는 구글의 새로운 압축 알고리즘이다.
Q2. 터보퀀트 때문에 삼성전자랑 SK하이닉스가 왜 떨어진 거야?
AI가 메모리를 덜 쓰게 되면 고대역폭메모리(HBM) 수요가 줄어들 수 있다는 공포가 시장에 퍼졌기 때문이다. 마이크론도 3.4% 하락했고, 삼성전자와 SK하이닉스는 각각 최대 4.8%, 5.9%까지 빠졌다.
Q3. 그러면 메모리 반도체 수요가 진짜 줄어드는 건가?
모건스탠리와 KB증권은 제번스의 역설을 근거로, 효율이 좋아지면 오히려 전체 수요가 폭발적으로 늘어난다고 분석했다. AI 도입 비용이 낮아지면서 시장 자체가 커질 수 있다는 논리다. 다만 반대 의견도 있으니 양쪽 모두 살펴봐야 한다.
Q4. 터보퀀트는 지금 당장 쓸 수 있는 기술인가?
아직 논문 단계다. 상용화 전이고, 구글이 2026년 4월 브라질 ICLR 2026 학회에서 구체적인 실증 데이터를 공개할 예정이다. 국내 반도체 업계도 확대 해석은 과도하다는 입장이다.
Q5. 터보퀀트가 일반인 삶에 미치는 영향은?
메모리 요구 사양이 낮아지면 스마트폰이나 노트북에서 클라우드 연결 없이 AI를 바로 돌리는 온디바이스 AI 시대가 앞당겨질 수 있다. 지금보다 훨씬 빠르고 저렴하게 AI 서비스를 쓸 수 있게 된다는 의미다.