所有更新
Capsule v0.3.0
Capsule v0.3.0
改进
- 多后端推理支持——跨 CPU、GPU(Metal/CUDA/Vulkan)和 NPU 的自动后端选择
- 支持可配置块大小的流式 token 生成
- 零拷贝内存模型,运行时与模型层之间共享缓冲区
- 扩展 GGUF、ONNX 和 CoreML 格式支持
性能提升
- GPU 后端推理吞吐量提升 32%,得益于零拷贝内存架构
- 模型加载时间减少 45%,通过优化的权重映射实现
错误修复
- 修复了超大上下文窗口导致的 GGUF 加载崩溃问题
- 修复了 Metal 后端线程同步竞态条件
💙 感谢我们的贡献者
- @user123 — 报告了 GGUF 加载崩溃问题
- @ml-researcher — 在 Snapdragon X Elite 上测试了 NPU 后端