# Tencent2020_Preliminary **Repository Path**: doubo151/Tencent2020_Preliminary ## Basic Information - **Project Name**: Tencent2020_Preliminary - **Description**: 2020年腾讯广告算法大赛 - **Primary Language**: Python - **License**: GPL-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2020-05-10 - **Last Updated**: 2022-06-01 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README ### 2020腾讯广告算法大赛 > 题目:广告受众基础属性预估 #### 排名 217名。赛后官方公布有11000人参赛. ![avatar](./doc/rank.png) #### 赛题描述 本届算法大赛的题目来源于一个重要且有趣的问题。众所周知,像用户年龄和性别这样的人 口统计学特征是各类推荐系统的重要输入特征,其中自然也包括了广告平台。这背后的假设 是,用户对广告的偏好会随着其年龄和性别的不同而有所区别。许多行业的实践者已经多次 验证了这一假设。然而,大多数验证所采用的方式都是以人口统计学属性作为输入来产生推 荐结果,然后离线或者在线地对比用与不用这些输入的情况下的推荐性能。本届大赛的题目 尝试从另一个方向来验证这个假设,即以用户在广告系统中的交互行为作为输入来预测用户 的人口统计学属性。 我们认为这一赛题的“逆向思考”本身具有其研究价值和趣味性,此外也有实用价值和挑战 性。例如,对于缺乏用户信息的实践者来说,基于其自有系统的数据来推断用户属性,可以 帮助其在更广的人群上实现智能定向或者受众保护。与此同时,参赛者需要综合运用机器学 习领域的各种技术来实现更准确的预估。 具体而言,在比赛期间,我们将为参赛者提供一组用户在长度为 91 天(3 个月)的时间窗 口内的广告点击历史记录作为训练数据集。每条记录中包含了日期(从 1 到 91)、用户信息 (年龄,性别),被点击的广告的信息(素材 id、广告 id、产品 id、产品类目 id、广告主 id、广告主行业 id 等),以及该用户当天点击该广告的次数。测试数据集将会是另一组用户 的广告点击历史记录。提供给参赛者的测试数据集中不会包含这些用户的年龄和性别信息。 本赛题要求参赛者预测测试数据集中出现的用户的年龄和性别. #### 核心目标 根据用户的历史点击item以及item的内容属性来预测用户的**性别**和**年龄** #### 评估方式 年龄预测和性别预测将分别评估准确率,两者之和将被用作参赛者的打分