# GLM-ASR-mac **Repository Path**: lmdown/GLM-ASR-mac ## Basic Information - **Project Name**: GLM-ASR-mac - **Description**: GLM-ASR-Nano: A robust, open-source speech recognition model with 1.5B parameters. 对原项目添加了mps(mac电脑M芯片)的支持,使用Gradio搭建可视化界面。 - **Primary Language**: Python - **License**: Apache-2.0 - **Default Branch**: main - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-12-17 - **Last Updated**: 2025-12-17 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # GLM-ASR [Readme in English](README.md)

👋 加入我们的 微信 社区

## 模型介绍 **GLM-ASR-Nano-2512** 是一款鲁棒的开源语音识别模型,参数量为 **1.5B**。 该模型专为应对真实世界的复杂场景而设计,在多项基准测试中超越 OpenAI Whisper V3,同时保持紧凑的模型规模。 核心能力包括: * **卓越的方言支持** 除标准普通话和英语外,模型针对**粤语**及其他方言进行了深度优化,有效填补了方言语音识别领域的空白。 * **低音量语音鲁棒性** 专门针对**"低语/轻声"**场景进行训练,能够捕捉并准确转录传统模型难以识别的极低音量音频。 * **SOTA 性能** 在同类开源模型中实现**最低平均错误率 (4.10)**,在中文基准测试(Wenet Meeting、Aishell-1 等)中展现出显著优势。 ## 基准测试 我们将 GLM-ASR-Nano 与主流开源和闭源模型进行了对比评测。结果表明,**GLM-ASR-Nano (1.5B)** 表现优异,尤其在复杂声学环境下优势明显。 ![bench](resources/bench.png) 说明: * Wenet Meeting 反映了包含噪声和语音重叠的真实会议场景。 * Aishell-1 是标准普通话基准测试集。 ## 模型下载 | Model | Download Links | |-------------------|------------------------------------------------------------------------------------------------------------------------------------------------------------| | GLM-ASR-Nano-2512 | [🤗 Hugging Face](https://huggingface.co/zai-org/GLM-ASR-Nano-2512)
[🤖 ModelScope](https://modelscope.cn/models/ZhipuAI/GLM-ASR-Nano-2512) | ## 推理 `GLM-ASR-Nano-2512` 可通过 `transformers` 库轻松集成。 我们将支持 `transformers 5.x` 以及 `vLLM`、`SGLang` 等推理框架。 ### 环境依赖 ```bash pip install -r requirements.txt sudo apt install ffmpeg ``` ### 示例代码 ```shell python inference.py --checkpoint_dir zai-org/GLM-ASR-Nano-2512 --audio examples/example_en.wav # 英文 python inference.py --checkpoint_dir zai-org/GLM-ASR-Nano-2512 --audio examples/example_zh.wav # 中文 ``` 对于上述两段示例音频,模型能够生成准确的转录结果: ```shell be careful not to allow fabric to become too hot which can cause shrinkage or in extreme cases scorch 我还能再搞一个,就算是非常小的声音也能识别准确 ```