2024年10月14日上午,信息学院成功举办了“Happy Hour”2024年第14期线上学术交流会。在此次交流会上,西安交通大学数学与统计学院的孟德宇教授发表了题为“数据自动筛选——从算法到理论”的学术报告。
孟教授在报告中首先指出,在研究大模型预训练所使用的语料库时,可以发现数据中存在严重的质量问题。他探讨了使用高质量数据能够提高大模型的收敛速度,但现有的手工规则数据筛选策略在实际开发大模型时面临巨大挑战。例如,对于同一个大模型预训练语料库,采用不同的数据筛选策略会对模型性能产生显著影响;此外,数据筛选算法中不同的超参数设置(如筛选数量)也会对模型性能产生显著影响;而且,大模型开发中数据筛选策略的选择和超参数设置的计算成本远远超过了大模型预训练本身的计算成本。
孟教授强调,现有的大模型技术需要消耗大量的人力和物力,通过手工设置规则从预训练语料库中筛选出高质量数据,以改善大模型在下游任务中的性能。他重点介绍了自己的理论方法成果,这些成果已被纳入伊利诺伊大学香槟分校(UIUC)计算机科学系的元学习课程教程,作为数据自选择的典型方法供学生探讨和学习。此外,这些理论方法成果还被领域内的权威学者在顶级会议的教程报告中作为典型方法介绍,并被收录于爱思唯尔出版社出版的元学习教科书中。
在报告的最后,孟德宇教授对处理数据偏差方法的未来研究方向进行了展望。
在交流环节中,师生们积极提问,孟教授耐心解答,使得本次学术报告不仅加深了师生对大模型技术预训练的理解,也拓宽了他们在人工智能算法研究方面的视野。
孟德宇教授,西安交通大学教授,博导。长江学者,国家“万人计划”青年拔尖人才,中国工业与应用数学学会副理事长,任西安交大大数据算法与分析技术国家工程实验室机器学习教研室负责人。共发表论文100余篇,其中包括IEEE汇刊论文40余篇,CCF A类会议论文40余篇,谷歌引用万余次。目前主要聚焦于元学习、可解释深度学习等机器学习与计算机视觉领域的基础研究问题。