@tochenzm
cc 暂无简介
一个堪称“开源 AI 大模型入门说明书",提供了一套完整的开源大模型学习指南,涵盖环境配置、模型部署和微调等步骤
原创 100+ 架构图,系统讲解大模型、强化学习,涵盖:LLM / VLM 等大模型原理、训练算法(RL、RLHF、GRPO、DPO、SFT 与 CoT 蒸馏等)、效果优化与 RAG 等
一个复现deepseek R1 训练过程的项目
DeepGEMM 是一个 FP8 通用矩阵乘法(GEMMs)库,可以用在Dense上,也可以用在MoE上。 该库用 CUDA 编写,安装时无需编译,内置了JIT(Just-In-Time)模块! 注意,依然仅支持Hopper GPU,解决了 FP8 累计计算不精确的情况。该库仅包含一个核心内核函数,大约有 300 行代码,大道至简
一个 pdf 读取的项目
Kimi开源产品
一个 用于大模型 微调的框架
一个大模型推理的框架