200+机器学习竞赛最全分析:超550万美元总奖金,人人都用PyTorch,2070也能夺冠
发布时间: 2023-07-11

新智元报道

编辑:编辑部

【新智元导读】2022年,200多个机器学习竞赛的最全分析报告来了。打比赛有这篇就够了。

2012年,ImageNet竞赛中,Hinton和他的学生Alex Krizhevsky设计的卷积神经网络AlexNet一举夺得了冠军。

十年过去,机器学习领域依旧不断结出AI之果。2022年,是机器学习竞赛重要一年。

200多场竞赛覆盖了广泛的研究领域,包括CV、NLP、表格数据、机器人技术、时间序列分析等等。

最新报告回顾了2022年所举办有关机器学习竞赛的情况,主要分为两个部分。

在「机器学习竞赛格局」中,报告简要回顾了竞赛情况和每个竞赛平台的活动,以及奖金和比赛类型。

展开全文

在「制胜策略」上,重点关注了比赛的获胜者,以及获胜的原因。另外,报告还研究了建模类型的趋势、编程语言的偏好、交叉验证方法和其他细节。

报告亮点

-比赛获胜者大都集中在一套共同的工具上:Python、PyData、PyTorch和梯度提升的决策树。

-不过,在表格数据方面,深度学习仍然没有取代梯度提升的决策树。尽管当与增强方法联合使用时,它似乎经常增加价值。

-Transformers继续在NLP中占据主导地位,并开始在计算机视觉中与卷积神经网络竞争。

-尽管单一模型解决方案也确实获胜,但大型模型在获胜者中更为常见。

-目前,有几个活跃的机器学习竞赛平台,以及数十个专门为个人竞赛而构建的网站。

-大约50%的获奖者是单独获奖;50%的人是首次获奖;30%的人以前曾多次获奖。

-一些人在训练其解决方案的硬件上还进行大量投资。有的使用免费硬件的人,像Google Colab等,仍然能够赢得比赛。

-值得一提的是,所有竞赛平台总奖池超过5万美元。

机器学习竞赛格局

值得注意的比赛和趋势

奖金最大的比赛是由美国垦务局赞助的DrivenData的Snowcast Showdown。

参赛者可以获得500万美元奖金,通过提供准确的美国西部不同地区的雪水当量估计值。与往常一样,DrivenData出色的获奖者文章和详细的解决方案报告非常值得一读。

2022年最受欢迎的比赛是Kaggle的信用违约预测大赛(American Express Default Prediction),预测客户是否会偿还贷款。

共有4000多个团队参赛,奖金为10万美元,比赛结果前四名的团队便可获奖。

第一名是由一个首次单独获奖的的团队获得,该团队采用了神经网络和LightGBM模型的组合。

最大的独立竞赛是斯坦福大学的人工智能审计挑战赛, 它为最佳「模型、解决方案、数据集和工具」提供了71000美元的奖池,以提高人们审计人工智能系统的非法歧视的能力。

还有三个都是围绕财务预测的比赛,都在Kaggle上进行:JPX的东京证券交易所预测,Ubiquant的市场预测,以及G-Research的加密货币预测。

计算机视觉

2022年最大一类的机器学习竞赛是计算机视觉问题,总计有40多个竞赛,超过1万美元的奖金池。

其中就包括上面提到的Snowcast Showdown,以及卫星图像中发现浮油、从扫描中识别颈椎骨折、在器官活检中分割功能组织单元和在农业图像中计数害虫等问题。

2022年至少有四场比赛,专门涉及建立模型以识别特定物种或个体动物的保护工作。至少有5场比赛专注于分析医学或生物图像。

自然语言处理

第二大类别是自然语言处理(NLP)竞赛,共有500多场比赛,总奖金超过14万美元。

大多数大型纯NLP竞赛都在Kaggle上,Kaggle举办了三个基于NLP的竞赛,专注于教育的不同方面:分割论文,评估语言能力, 以及预测有效论证。

还有一些比赛是将NLP与其他能力结合起来,比如NLP + 搜索,NLP+强化学习。

顺序决策

除了强化学习(RL)在过去十年中的成功,以及Atari DQN,AlphaGo等其他重大成果, 一类新型机器学习问题越来越受欢迎——顺序决策问题。

与典型的训练集/测试集的监督学习设置不同,这些问题为参与者提供了一个随时间变化的环境,以及一组可以在给定的时间段采取的可能行动。

比如,这个环境可以表示游戏世界、或者电力网络或运输网络的模拟。

在游戏世界中,参赛者可以相互匹配(麻省理工学院的Battlecode竞赛),或者完成某些任务(MineRL BASALT竞赛中中在我的世界建造房子)。

2020年,Kaggle便推出了此类模拟竞赛。AIcrowd也举办了一些这样的比赛。

2022年共举办了超过25场此类互动比赛,总奖金300多万美元。而且它们并不都是在模拟环境中运行的竞赛。

在真实机器人挑战赛(NeurIPS 2022官方竞赛)中,参与者必须学习控制三指机器人将立方体移动到目标位置或将其放置在空间中的某个点,并朝着正确的方向。

参赛者的算法每周在物理机器人上运行,并被用来更新排行榜。这场竞赛颁发了5千美元的奖金,还能在NeurIPS研讨会上发表演讲并获得学术荣誉。

此外,还有其他类型的比赛,比如,图形学习、优化、AutoML、音频处理、安全/隐私、元学习、因果推理、时间序列预测,以及分析/可视化。

平台

机器学习竞赛生态系统是由每年运行多项比赛的几个大型平台组成, 以及许多专门举办个人比赛的网站。

还有与之比肩的ML Contests,可以查看所有平台上正在进行的竞赛。

不同平台会有所不同,比如:

-Kaggle是最成熟的平台之一,2017年被谷歌收购, 拥有最大的社区,最近已达到10万用户。在Kaggle上举办资助的比赛可能非常昂贵。除了举办比赛外,Kaggle还允许用户托管数据集,笔记本和模型。

-CodaLab是一个开源竞赛平台,由巴黎萨克雷大学维护。任何人都可以注册,并主持或参加比赛。免费的中央处理器可用于推理,比赛组织者也可以使用自己的硬件作为补充。

-Zindi是一个较小的平台,有一个非常活跃的社区,专注于连接在非洲拥有数据科学家的组织。Zindi还举办面对面的黑客马拉松和社区活动。

-DrivenData专注于举办具有社会影响力的比赛,并为NASA和其他组织举办过比赛。赛后都会有描述解决方案的深入研究报告。

-AIcrowd最初是洛桑联邦理工学院的一个研究项目,现在是五大竞赛平台之一。它已经举办了几次官方的NeurIPS比赛。

报告中还排除了一些其他有趣的平台:因为它们没有举办符合我们标准的比赛,或者因为他们在2022年没有举行任何比赛。比如:

-Numerai是一家众包量化基金,自成立以来已向数据科学家支付了超过44万美元。

-Makridakis公开预测中心研究并举办时间序列预测竞赛。2022年没有截止日期的比赛,但M6比赛于2023年1月结束。

-microprediction正在进行时间序列预测挑战赛,奖金有大约50,000美元。Slack组有1,000名用户,大约有500个现场自主算法进行预测。

-Crunchdao是一家众包量化基金,有2000多名数据科学家分摊奖金。

-OpenML是一个用于共享数据集、算法和实验的开放平台。它托管5000个数据集和24个基准测试套件,允许研究人员以开放和可重复的方式审查不同算法的性能。

-CodaBench是一个新平台,目前处于测试阶段,支持CodaLab式的竞赛。有奖金和截止日期,以及OpenML式的持续基准测试。

-Hugging Face于2023年2月推出竞赛平台。

学界

在大型平台上举办的比赛的大部分奖金来自工业界,但机器学习竞赛已经有多年丰富的学术历史——正如Isabelle Guyon今年在NeurIPS的邀请演讲中所讨论的那样。

NeurIPS是全球顶级学术机器学习会议之一,并且一直是介绍最多论文的所在地,并见证了过去十年中ML的重大进展:AlexNet,GAN,Transformers,和 GPT-3。

NeurIPS于2014年首次举办了机器学习挑战(CiML)研讨会, 自2017年以来一直设置了专门的比赛赛道。

从那时起,比赛数量和总奖池都逐年稳步增长,到2022年奖金达到40万美元。

另外,其他机器学习会议也举办了比赛,包括CVPR,ICPR,IJCAI,ICRA,ECCV,PCIC和AutoML。

奖金

在那些提供金钱奖励或学术荣誉的比赛中,大约有一半的奖金超过了1万美元。

通常,与著名学术会议相关的比赛为获奖者提供旅行补助,使他们能够参加会议。

微信