⭐ 当前 Star 数: 15785 📈 趋势 Star 数: 345 📋 项目介绍: SoTA open-source TTS 💡 推荐语: Resemble AI 开源的Chatterbox项目,作为当前最先进的文本转语音工具,以其高质量的语音合成效果赋能开发者和创作者轻松打造自然流畅的AI语音
⭐ 当前 Star 数: 12011 📈 趋势 Star 数: 629 📋 项目介绍: 💾 Self-hosted online file converter. Supports 1000+ formats ⚙️ 💡 推荐语: ConvertX是一个支持1000多种格式的自托管在线文件转换工具,让你完全掌控数据转换过程,无需依赖第三方服务
Deep-Live-Cam 的强大之处在于其实时处理能力: - 嘴部遮罩 (Mouth Mask)保留原始嘴部,实现更精准的口型同步 - 多人脸映射 (Face Mapping)同时为画面中的多个人物换上不同的脸 - 你的电影,你的脸,实时观看换脸后的电影 - 现场表演与直播为直播和表演增添无限创意 - 制作病毒式 Meme创造属于你的下一个爆款Meme 谨慎用于合适的场合,否则违反法律,都不好看
Vosk 是一个离线开源语音识别工具包,它的优点在于: 轻量:Vosk 提供轻量级的模型(小于 50MB 大小),可以用于低功耗平台(例如 Android、树莓派之类) 多编程语言、多平台支持:Python、Java、Node.js、C#、C++、Rust、Go 等 多语种支持:支持二十多种语言的识别(包括中文) 实时性:实时性语音识别场景下,vosk 的延迟非常低
主要包含身份证正反面背景比对及身份证水印识别 使用模型及环境为modelscope的 - 证件照获取使用的模型:damo/cv_resnet_carddetection_scrfd34gkps - 证件照上文字ocr使用的模型:damo/cv_resnet18_ocr-detection-db-line-level_damo