# midscene **Repository Path**: hate_me/midscene ## Basic Information - **Project Name**: midscene - **Description**: No description available - **Primary Language**: Unknown - **License**: MIT - **Default Branch**: main - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2026-04-23 - **Last Updated**: 2026-04-23 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README
AI 驱动、视觉感知,适用于全平台的 UI 自动化。
## 📣 Midscene Skills 已上线! 使用 [Midscene Skills](https://github.com/web-infra-dev/midscene-skills) 搭配 [OpenClaw](https://github.com/OpenClaw/OpenClaw) 控制任意平台 ## 案例 * [Web 自动化 - 在浏览器中自动注册 GitHub 表单并通过所有字段校验](https://midscenejs.com/zh/showcases#web) * [iOS 自动化 - 美团下单咖啡](https://midscenejs.com/zh/showcases#ios) * [iOS 自动化 - 自动点赞 @midscene_ai 的第一条推文](https://midscenejs.com/zh/showcases#ios) * [Android 自动化 - 懂车帝:查看小米 SU7 参数](https://midscenejs.com/zh/showcases#android) * [Android 自动化 - 预订圣诞节酒店](https://midscenejs.com/zh/showcases#android) * [MCP 集成 - Midscene MCP UI prepatch 版本发布](https://midscenejs.com/zh/showcases#mcp) * [车机测试中的机械臂 + 视觉 + 语音方案](https://midscenejs.com/zh/showcases#community-showcases) ## 💡 特性 ### 用自然语言编写自动化 - 描述你的目标和步骤,Midscene 会为你规划并操作用户界面。 - 使用 Javascript SDK 或 YAML 编写自动化脚本。 ### Web + 移动 App + 任意界面 - **Web 自动化**: 可与 [Puppeteer](https://midscenejs.com/zh/integrate-with-puppeteer)、[Playwright](https://midscenejs.com/zh/integrate-with-playwright) 集成,或使用 [Bridge Mode](https://midscenejs.com/zh/bridge-mode) 控制桌面浏览器。 - **Android 自动化**: 使用 [Javascript SDK](https://midscenejs.com/zh/android-getting-started) 搭配 adb 控制本地 Android 设备。 - **iOS 自动化**: 使用 [Javascript SDK](https://midscenejs.com/zh/ios-getting-started) 搭配 WebDriverAgent 控制本地 iOS 设备与模拟器。 - **任意界面自动化**: 使用 [Javascript SDK](https://midscenejs.com/zh/integrate-with-any-interface) 控制你自己的界面。 ### 面向开发者 - **三类 API**: - [交互 API](https://midscenejs.com/zh/api#interaction-methods): 与用户界面交互。 - [数据提取 API](https://midscenejs.com/zh/api#data-extraction): 从用户界面与 DOM 中提取数据。 - [工具 API](https://midscenejs.com/zh/api#more-apis): `aiAssert()`、`aiLocate()`、`aiWaitFor()` 等实用函数。 - **MCP**: Midscene 提供 MCP 服务,将 Midscene Agent 的原子操作暴露为 MCP 工具,让上层 Agent 可以用自然语言检查和操作 UI。[文档](https://midscenejs.com/zh/mcp) - [**缓存加速**](https://midscenejs.com/zh/caching): 通过缓存回放脚本,更快得到结果。 - **调试体验**: Midscene.js 提供可视化回放报告、内置 playground 和 Chrome 插件,简化调试流程。这些正是开发者真正需要的工具。 ## 👉 零代码快速体验 - **[Chrome 插件](https://midscenejs.com/zh/quick-experience)**: 通过 [Chrome 插件](https://midscenejs.com/zh/quick-experience) 立刻在浏览器内体验,无需编写代码。 - **[Android Playground](https://midscenejs.com/zh/android-getting-started)**: 内置 Android playground,可控制本地 Android 设备。 - **[iOS Playground](https://midscenejs.com/zh/ios-getting-started)**: 内置 iOS playground,可控制本地 iOS 设备。 ## ✨ 视觉语言模型驱动 Midscene.js 在 UI 操作上完全采用纯视觉路线:元素定位与交互仅基于截图。它支持 `Qwen3-VL`、`Doubao-1.6-vision`、`gemini-3-pro`、`UI-TARS` 等视觉语言模型。在数据提取与页面理解场景中,你仍可按需选择携带 DOM。 * UI 操作使用纯视觉定位;不再保留 DOM 提取模式。 * 支持 Web、移动端、桌面端,甚至 `