所有更新
Workshop v0.2.0
Workshop v0.2.0
改进
- 全精度和量化 GGUF 转换流水线
- 用于量化感知转换的可配置校准数据集
- .nvx 打包:模型 + 分词器 + 推理配置于单一可部署产物
- 基于差量的模型版本控制,支持 diff 和合并工具
- 支持大型模型集合的批量处理
性能提升
- 量化流水线吞吐量提升 28%,通过并行化张量运算实现
- Delta diff 计算优化——10B 参数以上模型速度提升 4 倍
错误修复
- 修复了 MHA 架构 GGUF 转换中注意力头映射错误的问题
- 修复了分词器配置超过 64KB 时 .nvx 包损坏的问题