所有star的仓库都会放在这里。可以根据需求创建不同的星选集来管理它们。
一个基于C++编写的高性能文本符号替换工具, 支持多线程将多文本按照制定规则将符号替换, 不依赖任何第三方库
最近更新:
9个月前
手写 Triton 融合算子并应用于 qwen2 模型推理
最近更新:
1年前
针对CUDA上的单精度矩阵乘法做一些比较容易想到的优化
最近更新:
1年前
红黑树的简单模版,用于k-v的键值对,可用于map和set的封装。包含了红黑树的核心功能,包括插入,旋转,删除。阅读过很多gitee有关红黑树的代码,几乎都有这样那样的问题,后自己实现了一个,基本没有问题。
最近更新:
1年前
MHA, MQA, GQA, MLA 相关原理及简要实现
最近更新:
1年前
用 pytorch 模拟实现 flash_attn v1/v2 的核心算法
最近更新:
1年多前
三种方法在 pytorch 中调用自定义 cuda 算子
最近更新:
1年多前
跟着原论文主要框架走,像搭积木一样一步一步构建出一个基础的Transformer模型
最近更新:
1年多前
【纯 numpy 手写】使用 numpy 实现部分经典机器学习算法:逻辑回归 | 决策树 | 神经网络 | 线性 SVM | 朴素贝叶斯 | K-Means
最近更新:
1年多前