5月21日,知乎联合清华大学对外开放基于知乎的大规模富文本查询和推荐数据集“ZhihuRec”。该数据集包含了知乎上的1亿个行为数据,是目前为止,国内用于个性化推荐的最大的实际交互数据集。
作为一个大型数据集,ZhihuRec具有社交化问答场景中的详细信息,覆盖了知乎10天内、79.8万用户、16.5万个问题、55.4万个回答、24万个作者、7万话题以及50.1万用户搜索行为日志,保留了完整的用户交互(例如点击、跳过、搜索等)、时机和内容信息,且所有数据均经过脱敏处理。
该数据集可用于评估常规top-N推荐、顺序推荐和上下文感知推荐中的算法应用,还可用于集成搜索和推荐以及带有负反馈的推荐。 此外,该数据集不仅可以用于推荐研究,还可以应用于用户建模(例如,性别预测,用户兴趣预测),搜索和推荐系统的组合以及其他有趣的主题。
个性化推荐技术已经广泛应用于购物、视频、阅读、社交等互联网场景。但开放式大规模真实场景数据集十分罕有。ZhihuRec数据集的开放,不仅丰富了开放式大规模真实场景数据集的研究样本,更填补了推荐系统中用户交互日志的空白。
知乎成立十年来,聚集了超过3 .53亿条内容,每天会新增超过2000万条创作和互动,为中文互联网贡献了宝贵的文本财富。
2018年,知乎曾联合中国信息检索学术会议(CCIR)、清华大学计算机系信息检索课题组(THUIR)共同举办了“移动环境下知识分享平台上的内容推荐”大赛,首次在比赛中开放ZhihuRec数据集,吸引了众多高校和企业技术团队参赛和关注。此次知乎联合清华大学将该数据集进一步丰富并全面开放,旨在通过更大范围的数据开源,为行业算法技术突破与演进提供更多数据和场景支持。