# HetCodeNet **Repository Path**: tankplus/het-code-net ## Basic Information - **Project Name**: HetCodeNet - **Description**: HScode分类项目网络 - **Primary Language**: Python - **License**: MulanPSL-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 2 - **Created**: 2024-11-27 - **Last Updated**: 2024-11-27 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 海关编码 海关编码即HS编码,是商品在进出海关时对商品进行分类的编码,以数字编码的形式代表和识别跨境贸易的货物。海关商品编码承载了关税和非关税政策的各项信息。每一个海关编码对应一类商品,如编码"6201939000"对应的商品是"化纤制男式防寒短上衣"。 我们要做的是通过商品的文字描述预测其海关编码。 # 数据收集 ## 数据来源 | 数据来源 | 商品编码 | 商品名称 | 申报要素 | 商品描述 | 数据量 | 爬虫协议 | | --- | --- | --- | --- | --- | --- | --- | | [海关总署重点商品查询](http://www.customs.gov.cn/customs/302427/302442/zdspcx/index.html) | 8位或10位 | 商品名称+关键词 | 具体要素,形式良好 | 有 | 16273 | 允许爬取,无限制 | | [商务部外贸实务查询](http://wmsw.mofcom.gov.cn/wmsw/toolBox/getschResultInfo?id=22265) | 8位或10位 | 关键词 | 要素要求 | 无 | 9万左右 | 无 | | [365area](https://www.365area.com/hscate) | 10位 | 商品名称 | 具体要素,有的不匹配 | 无 | 未知 | 允许爬取,无限制 | | [新通关网](http://hs.bianmachaxun.com/query/detail.php?word=8205400000) | 10位 | 关键词 | 具体要素,形式良好 | 无 | 未知 | 无 | [《中华人民共和国海关进出口商品规范申报目录》(2021年版)](http://www.customs.gov.cn/customs/302249/302270/302272/3495167/index.html) ## 数据分类 数据位置在:data_processing\data ### 商品编码结构 | 数据名称 | 数据来源 | 数据信息 | | --- | --- | --- | | code_structure.json | 海关总署网站 | 商品编码详细的层级结构 | | 商品编码结构_365area.json | 365area网站 | 商品编码简略层级结构,含已废除信息 | | data.json | | 各章节下的编码 | ### 商品编码 | 数据名称 | 数据来源 | 数据量 | 字段 | | --- | --- | --- | --- | | 海关总署重点商品编码.csv | 海关总署网站 | 16229 | 商品编码;商品名称;商品规格;关键字;商品描述 | | 商务部商品归类.csv | 商务部网站 | 96421 | 商品编码;商品名称;关键词;申报要素数据 | | 365area商品编码.csv | 365area网站 | 145430 | 商品编码;商品名称;商品规格 | | 新通关网商品编码.csv | 新通关网 | 143480 | 商品编码;商品名称;商品规格 | ### 申报要素 | 数据 | 来源 | | --- | --- | | elements.csv | 《中华人民共和国海关进出口商品规范申报目录》 | # 数据清洗 目前仅清洗了新通关网的数据 ## 自动数据处理 代码在 data_processing\new_customs.py 处理之后的数据在 data_handle\data\hscode
新通关网 143480 01无申报要素 15
02仅品名 240 020101去重得到149
03单申报要素 4521 0301竖线分隔2577 030101去重得到1813
0302分号分隔 164
0303其他 1780 030301去重得到1131
04多申报要素 138704 0401竖线分隔 127103 040101 规格等于要素 58863 040101去重得到 47745
040102 规格大于要素14341 040102去重得到10825
040103 规格小于要素53999 040103去重得到42001条
04 02分号分隔 4989 040201规格等于要素 2395 040201去重得到 2016
040202规格大于要素 518 040202去重得到 448
040203规格小于要素 2076 040203去重得到 1762
04 03其余 6612

总计
去重:107852
ic| codes_num: 6116 ic| goods_num: 65197 ic| key_words_num: 37391 ic| relations_num: 2586 ic| my_values_num: 162668 ## 手工处理数据 ### 数据处理需求 给数据处理人员看的。 #### 数据介绍 企业在进出口商品时,要将商品的海关编码报给海关,海关通过商品对应的海关编码对某一类商品统一管理。一个海关编码对应一类商品,如编码"6201939000"对应的商品是"化纤制男式防寒短上衣"。要处理的数据是 json 格式的,如下: ```json id: { "商品编码": "72119000", "品名": "铁卷", "关键词": "铁卷", "申报要素1":"申报要素内容1", "申报要素2":"申报要素内容2", …… }, ``` #### 数据处理规则 ![无标题.png](%E6%B5%B7%E5%85%B3%E7%BC%96%E7%A0%81%E9%A2%84%E6%B5%8B%E9%A1%B9%E7%9B%AE.assets/1627357834256-018b31a6-dd57-4681-bce3-e911ddd70b2c.png) 1. 将品名中的无意义的数字、英文去掉 1. 将申报要素和申报要素内容对齐 1. 将没有合适内容的申报要素置为空 ![无标题2.png](%E6%B5%B7%E5%85%B3%E7%BC%96%E7%A0%81%E9%A2%84%E6%B5%8B%E9%A1%B9%E7%9B%AE.assets/1627357840776-ce9e9ef4-63c5-4555-a0a8-e64d8976385c.png) 4. 无用的申报要素内容置为空 ![无标题3.png](%E6%B5%B7%E5%85%B3%E7%BC%96%E7%A0%81%E9%A2%84%E6%B5%8B%E9%A1%B9%E7%9B%AE.assets/1627357846014-ecea26b3-d757-472c-bab7-dabc6ea2e029.png) 5. 申报要素内容中无用的信息删掉 #### 注意事项 - 如果不知道怎么改,在数据的 id 前(引号内)加负号; - “CAS号”的格式应该是连字符连接的三个数字,如:“7732-18-5”。 - “无升贴水”是无意义的 ### 数据处理人员招募 | 数据 | 人员 | 估计出错个数 | 修改之后估计出错个数 | 修改个数 | 是否合格 | 预计支出(¥) | | --- | --- | --- | --- | --- | --- | --- | | 030101 单申报要素竖线分隔 1813条 | 王娜(已收) | 181 | 0/40 | 1349 | 是 | 144(18*8) | | 030301 单申报要素无分隔符 1331条 | 晁海强(已收) | 100 | | | | | | 040101 多申报要素竖线分隔要素=内容 47745条 | | 7639 | | | | | | 040102 多申报要素竖线分隔要素>内容 10825条 | | 6062 | | | | | | 040103 多申报要素竖线分隔要素<内容 42001条 | | 4200 | | | | | | 040201 多申报要素分号分隔要素=内容 2016条 | 晁海强(已收) | 600 | 1/40 | 1069 | 是 | 176(22*8) | | 040202 多申报要素分号分隔要素>内容 448条 | 王娜(已收) | 250 | | | | | | 040203 多申报要素分号分隔要素<内容 2076条 | 孙宏伟(已收) | 1000 | | | | | | 总计 | | 20030 | | | | | # 基准算法 GCN GraphSage GIN SVM