“悟道”是国内首个超大规模预训练模型研究项目,由北京智源人工智能研究院(下称“智源研究院”)于2020年10月正式发起。项目组建来自清华、北大、中科院计算所、人大等顶尖AI科学家团队超过100人,共同进行预训练模型研发工作。

目前,“悟道”项目团队在预训练领域取得了一系列模型、算法、应用上的突破,其中包括了1.75万亿参数的全球最大通用预训练模型,实现对国外领先技术的追赶和并跑。

为深入挖掘预训练模型的应用价值、推动预训练前沿技术的创新进步,智源研究院成立悟道科研基金,面向高校学者等科研团体,开放征集预训练相关科研项目,诚邀研究团队积极报名申请,探索预训练前沿技术与应用,共创预训练领域新高度。具体通知如下:

一、项目重点方向

申请的项目需要是预训练理论、算法、工具、模型、应用等相关方面的研究,具体方向包含但不限于:

1. 预训练理论:

· 预训练模型鲁棒性(Robustness)和泛化性(Generalization)提升

· 预训练模型在外分布数据(out-of-distribution data)上的过度自信问题解决

· 预训练模型的认知和知识学习(包括认知架构、知识增强、知识支持、知识监督等)

2. 预训练技术:

· 预训练模型的持续学习(Continual Learning)技术

· 预训练模型的提示学习(Prompt Tuning)技术

· 预训练模型的高效计算框架(包括数据移动、并行策略、包装器和插件等)

· 大规模预训练赋能的知识获取

3. 预训练模型:

· 构建融合因果信息的预训练模型(利用因果推断的技术来对样本分布进行调整)面向信息检索,融合互联网结构或模型知识的预训练模型

· 全正样本的预训练模型(不再依赖于负样本,以暂停梯度优化的方式只用正样本做预训练。在一定程度上可以避免由于弱相关关系导致的false negative pairs对训练结果的影响)

· 融合知识图谱的预训练语言模型

· 分子图的预训练模型(利用zinc这样的大规模无标签分子数据集进行预训练,然后在一些特定任务上进行finetune,实现比较高的下游任务精度(最理想的是实现化学精度))

· 化学分子的表征与条件生成预训练模型

4. 悟道预训练模型应用:

· 基于智源大规模中文预训练模型的语言生成模型和应用(尤其是开放端语言生成,如故事生成、散文生成、长文本生成等)

· 基于智源大规模中文预训练模型的对话生成模型和应用(尤其是考虑情感、个性、知识等特性的多轮对话生成)

· 基于智源大规模多模态预训练模型的创新应用实例(例如视频细粒度检索、背景音乐推荐、视音场景对话系统等)

二、申请人及所在单位条件

(一)悟道科研基金申请人应具备以下条件:

1.拥有人工智能相关学科博士学位。

2.在具有独立法人资格的高校院所从事人工智能领域科学研究工作。

3.在预训练模型领域具备较好的研究基础、较强的科研兴趣和前沿科技创新能力。提出的研究项目应具有较高科学价值和应用前景。

(二)所在单位应具备如下条件:

具有独立法人资格的高校院所,管理规范,业务及财务制度健全。

三、申请方式

填写附件1《悟道科研基金_项目申请书模板》,并提交电子版材料。

四、资助方式

智源研究院将组织项目评审工作,择优进行支持。每个项目提供周期为一年的科研经费支持,包括20万元经费资助及价值30万的算力资助(算力赞助来源包括:华为云、金山云、百度智能云、腾讯云、火山引擎)。经费资助应用于本项目相关的科研任务实施,实行负面清单管理,不得用于捐赠、投资、赞助、罚款及支付在职人员学历教育经费等支出。

五、申请材料提交

(一)第一期申请截止至2021年9月30日,请将《悟道科研基金_项目申请书》电子版提交至wudaokyjj@baai.ac.cn 。

电子版材料命名方式:“悟道科研基金-项目名称-项目承担人姓名”

(二)确认获得资助后,需提交纸质版材料,签字盖章齐全,一式二份,单独装订。

六、咨询邮箱

wudaokyjj@baai.ac.cn

 

附件:1.《悟道科研基金_项目申请书模板》

 

 

 

北京智源人工智能研究院

2021年8月25日