TLLM_QMM 剥离了 Nvidia 的 TensorRT-LLM 中量化内核的实现,去除了对 NVInfer 的依赖,并提供了易于使用的 Pytorch 模块。我们修改了去量化和权重预处理,以与流行的量化算法(如 AWQ 和 GPTQ)对齐,并将它们与新的 FP8 量化结合在一起。
最近更新: 5个月前Arcanist is the CLI to Differential, Facebook's code review tool. Currently an unstable preview release.
最近更新: 5个月前