2026-05-28 — views

Nvidia·AMD·CoreWeave가 함께 Tensormesh에 투자 —— KV 캐시 재사용이 추론 원시 요소로

읽어야 하는 이유 세 라이벌 —— Nvidia·AMD·CoreWeave —— 가 함께 투자하는 것이 신호다: KV 캐시 재사용(이미 계산한 걸 재계산하지 않기)이 승자독식 제품이 아니라 기반적·중립적 추론 스택 계층으로 다뤄지고 있다. 추론 시대의 경제학이 한 라운드에 응축.

Tensormesh가 Nvidia·AMD·CoreWeave로부터 2000만 달러 조달(5/27), Tensormesh Inference 출시 —— 제품화된 KV 캐시 재사용으로 지연·GPU 비용 최대 10배 절감 주장.

2026년 5월 27일, Tensormesh가 2000만 달러 신규 조달을 발표했다 —— 시드 연장으로 총 조달액은 2450만 달러에 이른다 —— 면면이 유난히 일치한다: AMD Ventures, CoreWeave, NVentures(Nvidia 벤처 부문), 그리고 Valley Capital Partners와 Laude Ventures. 동시에 회사는 Tensormesh Inference의 정식 출시를 알렸다.

문제: 같은 연산에 두 번 지불

Tensormesh의 핵심은 기업의 가장 비싼 AI 문제 —— GPU가 이미 처리한 것을 재계산하는 것 —— 을 겨냥한다. 트랜스포머 추론에서 KV 캐시(모델이 프롬프트를 읽으며 만드는 key/value 텐서)는 보통 요청 간에 버려지므로, 공유 맥락 —— 긴 시스템 프롬프트, 문서, 대화 이력 —— 이 매번 처음부터 재계산된다. Tensormesh는 그 계산 결과를 저장·재사용해 중복 작업을 없애고 지연과 GPU 지출을 최대 10배 절감한다고 주장한다.

비용 절감 대시보드가 동봉돼 재무 영향을 실시간으로 가시화한다: 캐시 적중률(캐시된 대 전체 프롬프트 토큰)을 추적해 지속 갱신되는 달러 수치로 환산한다 —— 절감을 믿음으로 받아들이게 하지 않고.

왜 주주 명단이 이야기인가

눈에 띄는 것은 라운드 규모가 아니라 누가 수표를 썼는가다. Nvidia·AMD·CoreWeave는 실리콘과 클라우드에서 경쟁자이면서 같은 스타트업에 공동 투자했다. 그런 일치는 공통의 확신을 알린다: KV 캐시 재사용은 추론 스택의 기반 계층이지, 어느 한 곳이 독점하고 싶은 승자독식 제품이 아니다. 추론이 각자의 하드웨어에서 더 싸고 끈적해지면 모두가 득을 본다 —— 그래서 중립적이고 제품화된 캐시 계층은 밀물이다. 자금은 제품, 세 곳과의 하드웨어 수준 통합, 그리고 오픈소스 기여로 간다.

왜 중요한가

이는 “추론의 해” 경제학을 한 라운드에 결정화한 것이다. 모델이 데모에서 프로덕션으로 넘어가면 비용 중심은 학습에서 서빙으로 옮겨가고, 가장 싼 토큰은 결코 재계산하지 않는 것이다. 캐싱·라우팅·양자화가 진짜 마진 레버가 되고 있으며 —— 자본은 이제 모델 자체뿐 아니라 모델과 사용자 사이의 배관으로 흐른다. KV 캐싱을 기업 인프라로 바꾸는 스타트업이, 그것이 돌아가는 하드웨어 3사로부터 투자받는 것은 가치가 어디로 이동하는지의 분명한 표식이다.

실무 노트

어느 규모로든 LLM을 서빙한다면 무엇보다 먼저 캐시 적중률을 측정하라 —— 재사용 계층이 얼마나 절감해줄지를 예측하는 단일 숫자다. 공유 프리픽스가 많은 워크로드(같은 코퍼스에 대한 RAG, 긴 고정 시스템 프롬프트, 멀티턴 채팅)에서 10배급 승리가 가능하고; 대부분 고유한 프롬프트의 워크로드는 효과가 훨씬 작다. 격리 문제도 저울질하라: 요청 간 계산 상태를 재사용하는 캐시는 단단한 테넌트 경계가 필요하며, 그렇지 않으면 한 사용자의 맥락이 다른 사용자에게 새어들 위험이 있다. 절감은 진짜지만, “공유 캐시”와 “데이터 격리”는 기본으로 물려받는 것이 아니라 의도적으로 설정해야 할 트레이드오프다.

덜 다뤄진 관점

추론 계층이 KV 캐싱 같은 공유 원시 요소를 중심으로 범용화되면 경쟁 프런티어는 한 단계 위로 옮겨간다 —— 캐싱·라우팅·양자화를 함께 오케스트레이션해 가장 싸고 안정적인 토큰으로 만드는 쪽으로. 이는 모델 라우팅에서 펼쳐지는 같은 명제다: 모델은 점점 교체 가능한 백엔드가 되고, 오래가는 사업은 지능의 배송을 최적화하는 쪽이다. 하드웨어 벤더 자신이 지원하는 Tensormesh는, 이 배관 계층이 한 회사를 이룰 만큼 크고 —— 경쟁자조차 자리를 원할 만큼 중심적이라는 베팅이다.