Cloudflare Infire — 분리형 LLM 추론으로 vLLM 대비 20% 향상, Unweight 22% 무손실 압축
Cloudflare의 Rust 기반 Infire 엔진이 프리필/디코드 분리 아키텍처로 H100 풀로드 시 vLLM 0.10 대비 20% 높은 처리량 달성. Unweight는 15–22% 무손실 가중치 압축 실현.
Cloudflare의 Rust 기반 Infire 엔진이 프리필/디코드 분리 아키텍처로 H100 풀로드 시 vLLM 0.10 대비 20% 높은 처리량 달성. Unweight는 15–22% 무손실 가중치 압축 실현.
Jules(Gemini 3 Pro 기반)가 전 세계 퍼블릭 베타 출시. GitHub 레이블 트리거 Action과 새 「Jules Tools」CLI 제공. Claude Code에 대한 첫 번째 진지한 비동기 GitHub 네이티브 경쟁자.
Agent 365가 사용자당 월 $15로 GA. 각 에이전트에 독립 Entra ID와 Defender MCP 위협 탐지 제공. Agent Framework 1.0은 A2A·MCP 상호운용 내장 오픈소스 다중 에이전트 기반.
GR00T N1.7 오픈 VLA 로봇 파운데이션 모델이 상업 조기 액세스로 전환. 젠슨 황이 현 최고 VLA 대비 2배 이상 작업 성공률의 GR00T N2 예고.
GitHub Copilot in VS가 클라우드 에이전트 세션, 프로필 단위 커스텀 에이전트, .claude/skills/와 .agents/skills/에서 skill 로딩, 런타임 재현으로 수정 검증을 수행하는 Debugger 에이전트를 추가했습니다.
Cursor가 TypeScript SDK(@cursor/sdk)를 출시했습니다. 데스크톱, CLI, Web에서 공유되는 런타임, harness, 모델에 프로그래밍 방식으로 접근할 수 있으며 토큰 기반 과금입니다.
Mistral Medium 3.5는 128B 파라미터 dense 모델로 256K 컨텍스트를 지원합니다. Mistral은 Vibe에 클라우드 remote agent를, Le Chat에 Work Mode를 함께 추가했습니다.
vLLM v0.20.0: 커밋 752개, 기여자 320명. CUDA 13.0 기본화, PyTorch 2.11, Transformers v5, Python 3.14, FlashAttention 4 기본화, TurboQuant 2-bit KV cache 4배 용량.
Cursor 3.2가 /multitask로 비동기 서브에이전트 병렬 실행, Agents Window에서 worktrees, 여러 폴더와 repo를 가로지르는 multi-root workspace를 도입했습니다.
GPT-5.5와 GPT-5.5 Pro가 4월 23일 ChatGPT와 Codex에 출시됐고 4월 24일 API가 공개됩니다. OpenAI는 Terminal-Bench 2.0 82.7%를 발표했고, FrontierMath에서 Opus 4.7을 앞섰다고 밝혔습니다.
Claude Design(리서치 프리뷰)은 자연어로 프로토타입, 슬라이드, 원페이지 문서를 만들고, 회사 코드베이스나 디자인 파일에서 디자인 시스템을 추출해 일관되게 적용합니다.
Anthropic이 Claude 제품, API, Bedrock, Vertex, Microsoft Foundry에서 Claude Opus 4.7을 출시했습니다. 코딩과 장기 에이전트 작업 성능이 향상됐고 비전 해상도는 약 3.75 MP로 확대됐으며 가격은 동결입니다.