必威betway西汉姆联首届人工智能优秀论文分享会暨科技论文写作课程总结于12月20日晚七点在D阶教室举行。本次活动由必威betway西汉姆联朱跃生教授发起,在必威betway西汉姆联研究生会,助教余旺博、段新晴等同学配合下举办。
众所周知,智能芯片及人工智能技术的快速发展,为各行各业提供了产业升级转型的重要驱动力。信息学科迎来新一轮的智能化热潮。近年来,信工学院的学生在各导师团队的引领下,科研综合素质及能力日益提升,包括前沿领域研究方向及热点的捕捉,研究方法的创新,以及科技论文的写作水平,顶会顶刊的选择、投稿(rebuttal,major的response),参会演讲能力等等。朱教授利用承担的必威betway西汉姆联课程建设课题,在老师及学生的帮助下收集了近年来我院发表在顶会顶刊的优秀论文,共有几百篇,北大信工的研究成果令人十分震撼。
近来,社会上各领域的企业和大厂纷纷组织各种顶会顶刊的优秀论文分享会,旨在让从业人员分享原创研究的创新点,受到从业人员和投资人的热烈欢迎。我们在学校内举办顶会顶刊的优秀论文分享会,让学长学姐有机会向学弟学妹分享他们的科研成果,实现内部学术资源的共享和传承。
本次活动邀请了多位教师参与点评,参与教师有深圳研究生院党委副书记邹月娴教授,必威betway西汉姆联副院长王荣刚教授,助理教授刘梦源老师,助理教授罗桂波老师。本次活动邀请了六位优秀的同学介绍近期在顶会顶刊上发表的高水平论文,并深入分享关于论文写作的心得体会,为同学们提供了一个交流学术成果、分享写作心得的平台。六位分享者以深入浅出的语言,生动形象地呈现了复杂课题的研究亮点,并分享了在科研与写作过程中遇到的困难与解决方法。
顶会顶刊的优秀论文分享会能够给科研人员分享原创研究的创新点,为同学们的科研提供启示和帮助。受到最近社会上各领域企业组织各种顶会顶刊的优秀论文分享会的启发,朱跃生教授决定将分享会引入校园中。在老师及同学们的帮助下,朱教授收集了近年来我院发表在顶会顶刊的数百篇优秀论文,在此基础上,邀请优秀的学生代表给同学们分享他们的科研成果,为同学们带来更多灵感火花。
首先,彭瑞同学分享了自己发表在NeurIPS上在神经表面重建上的研究成果GenS:Generalizable Neural Surface Reconstruction from Multi-View Images,彭同学首先在宏观上对三维重建整个方向的背景应用与基础算法做了概述,使同学们对该领域有大致的了解,随后对GenS这篇工作的研究动机、研究方法以及之后的改进方案做了详细汇报,着重说明了GenS在提升模型泛化性上的显著优势,引发了老师和同学们的深刻思考,邹月娴教授在对本篇工作给予肯定的同时,对机器学习相关领域研究的汇报方式给出指导意见。
马子平同学则分享了自己在IJCAI会议上的重要工作:Robust steganography without embedding based on secure container synthesis and iterative message recovery,马同学针对传统隐写算法的普遍问题,提出基于图像生成的鲁棒无嵌入隐写算法SI-SWE,在汇报流程中马同学详细的阐述的该工作的研究背景、实现细节以及实验设置,并展示了该工作在多个数据集上的出色效果以及实际应用价值。此工作的汇报引起了老师同学们在隐写算法与stable diffusion模型结合的方向上的积极讨论。
牟冲同学聚焦Text-to-Image问题,介绍了Stable Diffusion(SD)模型在图像生成方面的优势,并阐述了该模型在生成图片结构方面仍具有一定的改进空间。基于此,牟冲同学等提出了T2I-Adapter方法,希望能在不改变SD模型的生成能力的前提下,为SD提供更精准的生成控制。该方法主要建立在“扩散生成过程中图像的主体信息在迭代早期过程就已确定”的基础上,实验表明,该方法可以对图像生成结果实现更精准的控制,并且也具有一定的泛化性。该文章累计引用量173次,GitHub开源代码累计2.8K次Star。汇报结束后,同学们就模型对图像生成结果的控制程度等方面提出了一些问题。老师们对T2I-Adapter的巧妙设计表示肯定,同时也针对模型在其他数据集的迁移能力提出了一些疑问,牟冲同学都一一给予了回答。
杨邦同学等人聚焦人工智能在电商领域的应用,研究如何在大规模视觉-语言预训练模型的基础上自动地为电商产品生成合适的标题。现有的方法主要是基于编码器-解码器框架,需要大量的配对数据,无法应对新产品标注稀缺问题。杨邦同学等人因此提出了多模态提示学习(Multimodal Prompt Learning)框架来高效地捕获产品特征和相关写作风格。实验表明,所提方法能够有效降低对新产品标注数据的依赖。此外,该工作还通过消融实验反映了多模态提示相比单模态提示的优越性。汇报结束后,老师们肯定了论文工作的创新性,也对论文的改进提出了一些建设性建议。
李文豪同学及同门蔡家伦同学分享的是发表在TMM 2022上的“Exploiting Temporal Contexts With Strided Transformer for 3D Human Pose Estimation”,目前谷歌学术引用量140+,Github Star 320+。尽管从视频中估计三维人体姿态取得了巨大的进展,但如何充分利用冗余的二维姿态序列来学习生成单个三维姿态的代表性表示仍是一个开放性的问题。本文针对视频中姿态数据的冗余性问题与Transformer应用于长序列数据的复杂性问题,提出了用于视频三维人体姿态估计的Strided Transformer,它在序列长度方面压缩模型并以一种全局到局部的方式逐渐聚合信息到姿态序列的单个向量的表示,以此让它效率地处理更大的时间感受野,从而估计出更准确的三维人体姿态。该工作在Human3.6M和HumanEva-I两个具有挑战性的基准数据集上进行了评估,并以较少的参数获得了最先进的结果。分享结束后,在场的同学积极地和蔡家伦同学请教讨论,包括例如如何降低模型的参数量和所需数据量,在已有的资源里将模型训练起来等问题,同学们收获匪浅。
最后一位同学是2020级的博士生张若楠同学,她分享的论文主题是“PointOT: Interpretable Geometry-Inspired Point Cloud Generative Model via Optimal Transport”,该论文发表在T-CSVT 2022中。点云生成模型因其逼真的生成潜力而受到越来越多的关注。然而,现有的方法大多采用深度神经网络模型进行连续映射,通常会引起模态崩溃和混合问题。因此,张若楠同学设计了一个几何启发的点云生成框架,称为PointOT。PointOT将生成模型解耦为两个独立的子任务:点云的流形学习和分布转换,根据每个子任务的需求提出相应的实例,分别通过点云自动编码器(AE)和半连续最优转换(SCOT)映射建立实例。值得一提的是,该工作从几何角度给出了理论解释,分析了点云生成模型中模态坍缩和混合的根本原因。分享结束后,在场同学积极和张若楠同学讨论如何获取更高质量的点云,提升3D点云的性能等问题。刘梦源老师和罗桂波老师也对该工作做了深入的点评和探讨。
本次人工智能优秀论文分享会暨科技论文写作课程总结活动圆满结束。六位同学分享了他们的研究成果和心路历程,为同学们揭示了学术研究与论文创作的方方面面。尽管时值期末,同学们的参与热情依旧高涨,展现了同学们对于前沿知识和写好科技论文的渴望。此次活动不仅加强了同学们在学术领域的交流合作,还激发了他们对科技论文写作的热情。在人工智能技术日新月异的年代,分享与交流是推动科学前进的重要动力。感谢每一位参与者,让我们共同见证了这场精彩而有意义的学术分享会。在本次分享会结束后,学院还会陆续举行一系列分享会,涵盖智能芯片,科学智能等领域,欢迎对这些主题感兴趣的同学积极报名参与。
必威betway西汉姆联研究生会供稿
发稿人:刘旭东,野庆弘,刘羽茜,郭子瑜
摄影:李润楠