为方便访问引入,来源:https://github.com/modelscope/DiffSynth-Studio.git 与 ModelScope 深度集成,模型可直接从 ModelScope 或 Hugging Face 下载。
eSpeak NG 基于 eSpeak 引擎,由乔纳森·达丁顿 (Jonathan Duddington)创建,使用“共振峰合成”方法,开源软件文本转语音合成器,用于 Linux、Windows、Android 等作系统。它支持 100 多种语言和口音。 来源:https://github.com/espeak-ng/espeak-ng
Rhasspy Piper是一个开源的语音合成工具,由Rhasspy团队开发,旨在为用户提供自然流畅的语音合成服务。它支持多种语言和语音模型,并允许用户根据自己的需求进行定制和扩展。 来源:https://github.com/OHF-Voice/piper1-gpl(原https://github.com/rhasspy/piper的新址)
Rhasspy Piper是一个由Rhasspy团队开发的开源的语音合成工具,旨在为用户提供自然流畅的语音合成服务。它支持多种语言和语音模型,并允许用户根据自己的需求进行定制和扩展。 来源:https://github.com/rhasspy/piper
MeloTTS的ONNX实现,个人认为是目前资源占用、功能、音色结合最好的项目。 来源:https://github.com/season-studio/MeloTTS-ONNX
ChatTTS 是一个 专为对话场景优化的开源 TTS 模型,中文自然度极高,支持多音色(通过 seed 控制),轻量、可本地运行(CPU/GPU 均可)。 来源:https://github.com/2noise/ChatTTS
SpeechBrain is an open-source PyTorch toolkit that accelerates Conversational AI development, i.e., the technology behind speech assistants, chatbots, and large language models.
从https://github.com/JelteF/PyLaTeX导入的 PyLaTeX 是一个 用 Python 编写、用于生成 LaTeX 源代码的开源库,它允许你通过面向对象的方式构建 LaTeX 文档,而无需手动拼接字符串或管理复杂的 .tex 语法。特别适合自动化生成技术报告、实验记录、证书、发票、论文附录等结构化文档。
来源https://github.com/davisking/dlib,作者: Davis King,一个非常流行的C++ 工具库。 最常用于人脸识(包括检测、关键点定位、特征提取),还包括图像处理、目标检测、机器学习算法、数值计算、多线程等功能。类似于 C++ 世界的 Scikit-learn + OpenCV 的部分功能 + NumPy 的部分功能。 我用于构建支持cuda/cudnn的发行包
DDCS 全称 Docker Desktop Chinese Script,即Docker汉化脚本。 这个版本的汉化包已经不支持最新Docker界面的汉化,但提供了手工解决方案。