所有更新
Capsule v0.3.0

Capsule v0.3.0

改进

  • 多后端推理支持——跨 CPU、GPU(Metal/CUDA/Vulkan)和 NPU 的自动后端选择
  • 支持可配置块大小的流式 token 生成
  • 零拷贝内存模型,运行时与模型层之间共享缓冲区
  • 扩展 GGUF、ONNX 和 CoreML 格式支持

性能提升

  • GPU 后端推理吞吐量提升 32%,得益于零拷贝内存架构
  • 模型加载时间减少 45%,通过优化的权重映射实现

错误修复

  • 修复了超大上下文窗口导致的 GGUF 加载崩溃问题
  • 修复了 Metal 后端线程同步竞态条件

💙 感谢我们的贡献者

  • @user123 — 报告了 GGUF 加载崩溃问题
  • @ml-researcher — 在 Snapdragon X Elite 上测试了 NPU 后端