# selenium_test **Repository Path**: lddsdu/selenium_test ## Basic Information - **Project Name**: selenium_test - **Description**: abcfafafafasf - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2024-06-12 - **Last Updated**: 2024-07-03 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 采用selenium操作浏览器获取网页信息 ## 抽取线上召回结果使用方法 1. 运行 ```shell $ bash main.sh ``` 2. 扫码弹出的登录框 (15s内) 3. 查看产出文件 ``` $ ls -lth outputs/ ``` ## 注意事项 - selenium 直接操作浏览器,所以不能将其隐藏,否则导致读取页面元素错误 ## 需要find_element新的元素,建议使用 CssSelector - 例如 ![mypnr](assets/demo.png) 复制得到的内容为 `#su` ## 获取query对应的行业分类方法 ```shell $ bash main2.sh ``` 通过命令行产出获取 ## 构建pair的方法 1. 将策略 infer 的结果(paddlecloud机器上) copy 到 mac 上。 ```shell $ ls -lth stra_input.jsonl ``` 2. 执行操作产出对比文件(.csv) ```shell $ bash compare_stra_base.sh ``` ## 构建fake的候选集 1. 将策略 infer 结果 copy 到 mac 上。 ```shell $ ls -lth stra_input.jsonl ``` 2. 执行构建,产出假的候选样本到 `fake_doc_candidates` ```shell $ bash gen_fake_posi.sh ```