# MdxScraper

**Repository Path**: libo_3019/MdxScraper

## Basic Information

- **Project Name**: MdxScraper
- **Description**: No description available
- **Primary Language**: Unknown
- **License**: GPL-3.0
- **Default Branch**: main
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2025-02-28
- **Last Updated**: 2025-02-28

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# MdxScraper

## 简介

一句话：根据指定词汇，从MDX字典提取内容并输出为HTML、PDF或JPG。

详情：MdxScraper 是在 [MdxConverter](https://github.com/noword/MdxConverter) 基础上升级改造：

1. 提升词典兼容性：
    * 内置并升级mdict-query，支持多mdd的词典。
    * 兼容有或无CSS文件的词典。
    * 兼容html中img标签的多种写法。
    * 兼容支持png、jpg、jpeg、gif等常见图片格式。
    * 支持同一个页面多次重复引用同一图片的情形，如读音图标等。
2. 提升跨平台兼容性：
    * 文件路径名，兼容跨平台的多种的写法。
    * wkhtmltopdf安装目录，兼容跨平台的多种情形。
3. 重构程序，更加便捷、易用、强健和友好：
    * 采用配置文件方式，而非命令行参数，配合conda可以一键输出，更便捷。
    * 丰富配置选项，包括输入输出文件、词典文件、PDF排版、CSS等，更强大。
    * 输出信息增加程序状态、查询统计、输出地址、耗时等信息，体验更友好。
    * 备份原始词汇，并与输出文件放在一起，方便归档调阅，数据安全有保障。
    * 增加时间戳到输出文件名，方便归档查阅所有输出文件，文件管理更方便。

## 安装

1. 安装以下第三方库
    * pip install imgkit
    * pip install pdfkit
    * pip install openpyxl
    * pip install chardet
    * pip install base64
    * pip install bs4

2. 安装wkhtmltopdf
    * https://wkhtmltopdf.org/downloads.html

## 使用

1. 配置参数：settings.py
2. 运行程序：python MdxScraper.py

## 高级技巧

* 上述“使用”中的第2条，在实际操作时，其实还挺麻烦的：
    1. 启动命令行：cmd 或 terminal等
    2. 查询conda环境：conda env list
    3. 激活conda环境：conda activate MdxScraper
    4. 输入命令：python MdxScraper.py
* 为简化上述步骤，可使用以下高级技巧，只要双击一个快捷键即可完成。
    - 说明1: 本技巧非必须，是可选项。
    - 说明2: 本技巧适用Window平台，其他平台同理。

1. 安装：使用miniconda配置独立的MdxScraper运行环境，避免其他程序干扰
    * 建立conda环境：conda create -n MdxScraper python
    * 进入conda环境：conda activate MdxScraper
    * 安装第三方库：同上“安装”章节
2. 配置：在程序根目录下创建快捷键Conda MdxScraper.lnk
    * 右键/属性/目标/修订并填入：
    ```
    %windir%\System32\cmd.exe "/K" C:\Users\YOURNAME\miniconda3\Scripts\activate.bat C:\Users\YOURNAME\miniconda3\envs\MdxScraper & cd c:\Apps\MdxScraperLocal\ & MdxScraper.py
    ```
    * 修订内容：请根据您的电脑配置信息，更改上述miniconda和MdxScraper的相关目录
    * 目的：双击该快捷键即可一步到位——启动命令行/激活conda中的MdxScraper环境/执行程序MdxScraper.py
3. 改进后的实际操作：
    * 配置参数：settings.py
    * 运行程序：双击快捷键Conda MdxScraper.lnk，完成

## 案例演示

* 输入（支持txt、json和excel）
    * input\words_to_lookup.txt
    * input\words_to_lookup.json
    * input\words_to_lookup.xlsx

* 输出（支持html、pdf和jpg）
    * ![html](lib/images/html.jpg)