# midscene-js **Repository Path**: mirrors/midscene-js ## Basic Information - **Project Name**: midscene-js - **Description**: 视觉模型驱动,支持全平台的 UI 自动化 SDK 功能特性 用自然语言编写自动化脚本 描述你的目标和步骤,Midscene 会为你规划和操作用户界面 - **Primary Language**: TypeScript - **License**: MIT - **Default Branch**: main - **Homepage**: https://www.oschina.net/p/midscene-js - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-12-26 - **Last Updated**: 2026-01-03 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README
视觉模型驱动,支持全平台的 UI 自动化 SDK
## 📣 v1.0 正式发布公告 > **我们已发布 v1.0 版本。** 目前已在 npm 发布。 > v1.0 文档与代码请查看 [https://midscenejs.com/](https://midscenejs.com/) 以及 `main` 分支。 > v0.x 文档与代码请查看 [https://v0.midscenejs.com/](https://v0.midscenejs.com/) 以及 `v0` 分支。 > v1.0 变更记录: [https://midscenejs.com/zh/changelog](https://midscenejs.com/zh/changelog) ## 案例 在 Web 浏览器中自主注册 Github 表单,并通过所有字段校验。 此外还有这些实战案例: * [iOS 自动化 - 美团下单咖啡](https://midscenejs.com/zh/showcases#ios) * [iOS 自动化 - Twitter 自动点赞 @midscene_ai 首条推文](https://midscenejs.com/zh/showcases#ios) * [Android 自动化 - 懂车帝查看小米 SU7 参数](https://midscenejs.com/zh/showcases#android) * [Android 自动化 - Booking 预订圣诞酒店](https://midscenejs.com/zh/showcases#android) * [MCP 集成 - Midscene MCP 操作界面发布 prepatch 版本](https://midscenejs.com/zh/showcases#mcp) 更多实战案例请点击查看:[案例展示](https://midscenejs.com/zh/showcases) 社区案例: [车机大屏测试中的机械臂 + 视觉 + 语音方案](https://midscenejs.com/zh/showcases#社区案例) ## 💡 特性 ### 用自然语言编写自动化脚本 - 描述你的目标和步骤,Midscene 会为你规划和操作用户界面。 - 使用 Javascript SDK 或 YAML 格式编写自动化脚本。 ### Web & Mobile App & 任意界面 - **Web 自动化**: 可以[与 Puppeteer 集成](https://midscenejs.com/zh/integrate-with-puppeteer),[与 Playwright 集成](https://midscenejs.com/zh/integrate-with-playwright)或使用[桥接模式](https://midscenejs.com/zh/bridge-mode)来控制桌面浏览器。 - **Android 自动化**: 使用 [Javascript SDK](https://midscenejs.com/zh/android-getting-started) 配合 adb 来控制本地 Android 设备。 - **iOS 自动化**: 使用 [Javascript SDK](https://midscenejs.com/zh/ios-getting-started) 配合 WebDriverAgent 来控制本地 iOS 设备。 - **任意界面自动化**: 使用 [Javascript SDK](https://midscenejs.com/zh/integrate-with-any-interface) 来控制你自己的界面。 ### 工具 - **用于调试的可视化报告**: 通过我们的测试报告和 Playground,你可以轻松理解、回放和调试整个过程。 - [**使用缓存,提高执行效率**](https://midscenejs.com/zh/caching): 使用缓存能力重放脚本,提高执行效率。 - **MCP**: Midscene 提供 MCP 服务,将 Midscene Agent 的原子操作暴露为 MCP 工具,上层 Agent 可以用自然语言检查和操作界面。[文档](https://midscenejs.com/zh/mcp)。 ### 三种类型的 API - [**交互 API**](https://midscenejs.com/zh/api#interaction-methods): 与用户界面交互。 - [**数据提取 API**](https://midscenejs.com/zh/api#data-extraction): 从用户界面和 DOM 中提取数据。 - [**实用 API**](https://midscenejs.com/zh/api#more-apis): 实用函数,如 `aiAssert()` (断言), `aiLocate()` (定位), `aiWaitFor()` (等待)。 ## 👉 无需代码,快速体验 - **[Chrome 插件](https://midscenejs.com/zh/quick-experience)**: 通过 [Chrome 插件](https://midscenejs.com/zh/quick-experience) 立即开始体验,无需编写代码。 - **[Android Playground](https://midscenejs.com/zh/android-getting-started)**: 内置的 Android Playground 可以控制你的本地 Android 设备。 - **[iOS Playground](https://midscenejs.com/zh/ios-getting-started)**: 内置的 iOS Playground 可以控制你的本地 iOS 设备。 ## ✨ 视觉语言模型驱动 Midscene.js 在 UI 操作上采用纯视觉(pure-vision)路线:元素定位和交互只基于截图完成。支持视觉语言模型,例如 `Qwen3-VL`、`Doubao-1.6-vision`、`gemini-3-pro` 和 `UI-TARS`。在数据提取和页面理解场景中,需要时仍可选择附带 DOM 信息。 * UI 操作采用纯视觉定位,不再提供 DOM 提取兼容模式。 * 适用于 Web、移动端、桌面应用,甚至 `