diff --git a/docs/zh/server/quickstart/releasenotes/key_features.md b/docs/zh/server/quickstart/releasenotes/key_features.md index 31159f04fd15467f589921fc82d3d379a4b210da..88650ea61ecf2893b972cf32886af1f83cac0bf3 100644 --- a/docs/zh/server/quickstart/releasenotes/key_features.md +++ b/docs/zh/server/quickstart/releasenotes/key_features.md @@ -16,17 +16,6 @@ sysHAX大语言模型推理优化方案当前支持DeepSeek、Qwen、baichuan、 - 数据中心场景:sysHAX通过上述技术,利用CPU填充推理任务,充分利用CPU资源,增加大模型并发量与吞吐量。 -#### 故障分组检测 - -AI 集群在训练过程中不可避免会发生性能劣化,导致性能劣化的原因很多且复杂。现有方案是在发生性能劣化之后利用日志分析,但是从日志收集到问题定界根因诊断以及现 网闭环问题需要长达 3-4 天之久。基于上述痛点问题,我们设计了一套在线慢节点定界方 案,该方案能够实时在线观测系统关键指标,并基于模型和数据驱动的算法对观测数据进行实时分析给出劣慢节点的位置,便于系统自愈或者运维人员修复问题。 - -基于分组的指标对比技术提供了 AI 集群训练场景下的慢节点/慢卡检测能力。这项技术通过 sysTrace实现,新增内容包括配置文件、算法库、慢节点空间维度对比算法和慢节点时间维度对比,最终输出慢节点异常时间、异常指标以及对应的慢节点/慢卡 ip, 从而提高系统的稳定性和可靠性。该特性主要功能如下: - -- 配置文件:主要包括待观测指标类型、指标算法配置参数以及数据接口,用于初始化慢节点检测算法。 -- 算法库:包括常用的时序异常检测算法 spot 算法,k-sigma 算法,异常节点聚类算法和相似度度量算法。 -- 数据:采集到的各个节点的指标数据,以时序序列表示。 -- 指标分组对比:包括组内空间异常节点筛选和单节点时间异常筛选。组内空间异常节点筛选根据异常聚类算法输出异常节点;单节点时间异常筛选根据单节点历史数据进行时序异常检测判断节点是否异常。 - #### 异构融合GMem 在后摩尔时代,GPU、TPU 和 FPGA 等专用异构加速器设备正不断涌现,它们与 CPU 类似,需要将数据放在本地内存(例如 LPDDR 或 HBM)中以提高计算速度。加速器厂商们也不可避免地需要开发复杂的内存管理系统。 现行加速器内存管理方案存在诸多缺陷: @@ -67,7 +56,7 @@ openEuler Intelligence 智能调优功能目前支持智能shell入口。 AI 集群在训练过程中不可避免会发生性能劣化,导致性能劣化的原因很多且复杂。现有方案是在发生性能劣化之后利用日志分析,但是从日志收集到问题定界根因诊断以及现网闭环问题需要长达 3-4 天之久。基于上述痛点问题,我们设计了一套在线慢节点定界方案,该方案能够实时在线观测系统关键指标,并基于模型和数据驱动的算法对观测数据进行实时分析给出劣慢节点的位置,便于系统自愈或者运维人员修复问题。 -该特性主要功能如下: +基于分组的指标对比技术提供了 AI 集群训练场景下的慢节点/慢卡检测能力。这项技术通过 sysTrace 实现,新增内容包括配置文件、算法库、慢节点空间维度对比算法和慢节点时间维度对比,最终输出慢节点异常时间、异常指标以及对应的慢节点/慢卡 ip, 从而提高系统的稳定性和可靠性。该特性主要功能如下: - 配置文件:主要包括待观测指标类型、指标算法配置参数以及数据接口,用于初始化慢节点检测算法。 - 算法库:包括常用的时序异常检测算法 spot 算法,k-sigma 算法,异常节点聚类算法和相似度度量算法。