May 15, 2026Capsule v0.3.0

Capsule v0.3.0

改进

多后端推理支持——跨 CPU、GPU（Metal/CUDA/Vulkan）和 NPU 的自动后端选择
支持可配置块大小的流式 token 生成
零拷贝内存模型，运行时与模型层之间共享缓冲区
扩展 GGUF、ONNX 和 CoreML 格式支持

性能提升

GPU 后端推理吞吐量提升 32%，得益于零拷贝内存架构
模型加载时间减少 45%，通过优化的权重映射实现

错误修复

修复了超大上下文窗口导致的 GGUF 加载崩溃问题
修复了 Metal 后端线程同步竞态条件

💙 感谢我们的贡献者

@user123 — 报告了 GGUF 加载崩溃问题
@ml-researcher — 在 Snapdragon X Elite 上测试了 NPU 后端