# HetCodeNet **Repository Path**: tankplus/het-code-net ## Basic Information - **Project Name**: HetCodeNet - **Description**: HScode分类项目网络 - **Primary Language**: Python - **License**: MulanPSL-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 2 - **Created**: 2024-11-27 - **Last Updated**: 2024-11-27 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 海关编码 海关编码即HS编码,是商品在进出海关时对商品进行分类的编码,以数字编码的形式代表和识别跨境贸易的货物。海关商品编码承载了关税和非关税政策的各项信息。每一个海关编码对应一类商品,如编码"6201939000"对应的商品是"化纤制男式防寒短上衣"。 我们要做的是通过商品的文字描述预测其海关编码。 # 数据收集 ## 数据来源 | 数据来源 | 商品编码 | 商品名称 | 申报要素 | 商品描述 | 数据量 | 爬虫协议 | | --- | --- | --- | --- | --- | --- | --- | | [海关总署重点商品查询](http://www.customs.gov.cn/customs/302427/302442/zdspcx/index.html) | 8位或10位 | 商品名称+关键词 | 具体要素,形式良好 | 有 | 16273 | 允许爬取,无限制 | | [商务部外贸实务查询](http://wmsw.mofcom.gov.cn/wmsw/toolBox/getschResultInfo?id=22265) | 8位或10位 | 关键词 | 要素要求 | 无 | 9万左右 | 无 | | [365area](https://www.365area.com/hscate) | 10位 | 商品名称 | 具体要素,有的不匹配 | 无 | 未知 | 允许爬取,无限制 | | [新通关网](http://hs.bianmachaxun.com/query/detail.php?word=8205400000) | 10位 | 关键词 | 具体要素,形式良好 | 无 | 未知 | 无 | [《中华人民共和国海关进出口商品规范申报目录》(2021年版)](http://www.customs.gov.cn/customs/302249/302270/302272/3495167/index.html) ## 数据分类 数据位置在:data_processing\data ### 商品编码结构 | 数据名称 | 数据来源 | 数据信息 | | --- | --- | --- | | code_structure.json | 海关总署网站 | 商品编码详细的层级结构 | | 商品编码结构_365area.json | 365area网站 | 商品编码简略层级结构,含已废除信息 | | data.json | | 各章节下的编码 | ### 商品编码 | 数据名称 | 数据来源 | 数据量 | 字段 | | --- | --- | --- | --- | | 海关总署重点商品编码.csv | 海关总署网站 | 16229 | 商品编码;商品名称;商品规格;关键字;商品描述 | | 商务部商品归类.csv | 商务部网站 | 96421 | 商品编码;商品名称;关键词;申报要素数据 | | 365area商品编码.csv | 365area网站 | 145430 | 商品编码;商品名称;商品规格 | | 新通关网商品编码.csv | 新通关网 | 143480 | 商品编码;商品名称;商品规格 | ### 申报要素 | 数据 | 来源 | | --- | --- | | elements.csv | 《中华人民共和国海关进出口商品规范申报目录》 | # 数据清洗 目前仅清洗了新通关网的数据 ## 自动数据处理 代码在 data_processing\new_customs.py 处理之后的数据在 data_handle\data\hscode
| 新通关网 143480 | 01无申报要素 15 | |||
| 02仅品名 240 | 020101去重得到149 | |||
| 03单申报要素 4521 | 0301竖线分隔2577 | 030101去重得到1813 | ||
| 0302分号分隔 164 | ||||
| 0303其他 1780 | 030301去重得到1131 | |||
| 04多申报要素 138704 | 0401竖线分隔 127103 | 040101 规格等于要素 58863 | 040101去重得到 47745 | |
| 040102 规格大于要素14341 | 040102去重得到10825 | |||
| 040103 规格小于要素53999 | 040103去重得到42001条 | |||
| 04 02分号分隔 4989 | 040201规格等于要素 2395 | 040201去重得到 2016 | ||
| 040202规格大于要素 518 | 040202去重得到 448 | |||
| 040203规格小于要素 2076 | 040203去重得到 1762 | |||
| 04 03其余 6612 | ||||
| 总计 |
去重:107852 |