2025 ACM 中国图灵大会之 SigAI China 分论坛

SIGAI China的工作宗旨: 围绕人工智能各个专业领域开展学术/技术交流,尤其鼓励学科交叉融合发展;促进学术和产业的紧密结合,促进AI技术的产业落地,推动我国自主知识产权向产业界的成果转化;协助ACM China开展学术交流,提升在国家科技活动和国际学术方面的影响力。

组织机构

主办单位:北京大学人工智能研究院

组织委员会

主席

王亦洲(北京大学)

潘纲(浙江大学)

梁玮(北京理工大学)

刘航欣(北京通用人工智能研究院)

程序委员会主席

魏平(西安交通大学)

张拳石(上海交通大学)

曲延云(厦门大学)

黄思远(北京通用人工智能研究院)

本地主席

高源 (深圳人工智能与机器人研究院、香港中文大学(深圳))

联络主席

晏玉霞(北京理工大学)

会议日程

日期(2025-10-11)地点(会议室)
时间 内容 讲者 主持人
14:00 - 14:35 Vision, Language, and Knowledge Representation in the Human Brain 毕彦超
(北京大学)
刘航欣
ACM SIGAI China联合主席
14:35 - 15:10 AI加速科研创新的思考与探索 欧阳万里
(香港中文大学、上海人工智能实验室)
15:10 - 15:45 ASearcher::基于AReaL的端到端强化学习搜索智能体 吴翼
(清华大学)
15:45 - 16:00

茶歇

16:20 - 16:55 基于行列式的互信息:解决多任务同伴预测与带噪声学习问题的“一石二鸟”之策 孔雨晴
(北京大学)

刘航欣
ACM SIGAI China联合主席

16:55 - 17:30 多模态统一建模:扩散与自回归之争 袁粒
(北京大学深圳研究生院)

日期(2025-10-12)地点(会议室)

14:00 - 14:35 Efficient LLM Serving via Lossy Computation 胡侠
(上海人工智能实验室)

高源
ACM SIGAI China本地主席

14:35 - 15:10 迈向通用具身操作:三维世界模型构建与可扩展强化学习 唐彦嵩
(清华大学深圳国际研究生院)
15:10 - 15:45 AGI的安全之困、技术之思和治理之辨 陈岳峰
(阿里巴巴集团安全部)
15:45 - 16:00

茶歇

16:20 - 16:55 From Scratch to Gold How AI is Learning to Solve and Discover Mathematics 张弛
(北京字节跳动科技有限公司)

高源
ACM SIGAI China本地主席

16:55 - 17:30 攻克Scaling Law和机理可靠性 张拳石
(上海交通大学)
毕彦超

北京大学

Vision, Language, and Knowledge Representation in the Human Brain

报告人简介:

Yanchao Bi is a Boya professor in School of Psychological and Cognitive Sciences, IDG/McGovern Institute for Brain Research, and Institute for Artificial Intelligence, at Peking University. She received her PhD from the Department of Psychology, Harvard University, working on the cognitive process of language production in the laboratory of Dr. Alfonso Caramazza. In 2006 she established her laboratory at Beijing Normal University and moved to Peking University in 2024. Her lab focuses on the study of functional and neural architecture associated with semantic memory, knowledge representation, and language processing, using cognitive psychology, cognitive neuroscience, multi-modal neuroimaging, computation modeling and other research methods.

报告简介:

Human brain stores tremendous amount of knowledge about this world, which is the foundation of object recognition, language, thought, and reasoning. What’s the neural codes of semantic knowledge representation? Is the knowledge “roses are red” simply the memory trace of perceiving the color of roses, stored in the brain circuits within color-sensitive neural systems? What about knowledge that is not directly perceived by senses, such as “freedom” or “rationality”? I will present a set of studies from my lab that addresses this issue, including object color (and other visual) knowledge in several populations (congenitally blind humans, color blind humans, and typically developed macaques), and semantic neural representation in individuals with early language experience deprivation. The findings point to the existence of two different types of knowledge coding in different regions of the human brain – one conservative, based on sensory experiences, and one based on language-derived machinery that support fully nonsensory information, with the latter further modulating the former.

欧阳万里

香港中文大学

AI加速科研创新的思考与探索

报告人简介:

欧阳万里,香港中文大学教授,上海人工智能实验室科学智能中心领军科学家,曾任悉尼大学电子信息工程学院研究主任。其团队在ImageNet和COCO竞赛多次获得第一。获IEEE TCSVT期刊最佳论文,ACL杰出论文,两篇文章入选paperdigest CVPR/ICCV最有影响力的文章。入选「人工智能全球2000位最具影响力学者榜」前100名学者。担任人工智能领域顶级期刊TPAMI,IJCV副编。担任CVPR2023、NeurIPS2024、NeurIPS2025、ICCV2025资深领域主席,AAAI24、CVPR2021、ICCV2021领域主席。其团队现已推出书生·风乌(气象)、书生·丰登(育种)、书生·翼飞(翼型设计)、书生·鉴原(化学)、书生·言普(谱学)等科学领域模型。

报告简介:

以深度学习为代表的人工智能算法取得了飞速的发展,并大规模地应用到人类的生产生活实践中。将人工智能技术应用到科技创新,利用人工智能算法解决加速科研创新,减少科研成本和提升科研创新高度已经成为产学研关注的重点。本次报告将介绍在设计人工智能方法加速科研创新的思考,以及在物质、生命、地球、工业设计等领域的探索。

吴翼

清华大学

ASearcher:基于AReaL的端到端强化学习搜索智能体

报告人简介:

吴翼,清华大学交叉信息研究院助理教授,回国前曾任OpenAI全职研究员,研究领域为深度强化学习,多智能体学习,推理模型,人机交互等。2019年在美国加州大学伯克利分校获得博士学位,师从Stuart Russell教授;2014年本科毕业于清华大学交叉信息院计算机科学实验班(姚班),代表作包括强化学习泛化性早期工作Value Iteration Network,多智能体学习最高引算法 MAPPO/MADDPG,OpenAI多智能体捉迷藏项目等,还曾获得顶级会议NIPS2016 best paper award和ICRA2024 best demo award finalist.

报告简介:

在ASearcher项目中,我们将展示通过端到端大规模强化学习训练,可以仅使用单一开源模型模型、以极简的智能体设计,在复杂搜索问题上实现极强的智能体能力。ASearcher首先通过合成数据agent workflow实现了高质量Agent RL数据合成;接着基于AReaL框架的全异步强化学习实现在训练时单prompt高达128次Agent环境交互的大规模Agent RL训练,最终在XBench和Gaia测试集上实现超越OpenAI DeepRearch的表现。

孔雨晴

北京大学

基于行列式的互信息:解决多任务同伴预测与带噪声学习问题的“一石二鸟”之策

报告人简介:

孔雨晴,现任北京大学前沿计算研究中心长聘副教授,博士生导师,北京大学博雅青年学者。2018年8月博士毕业于密歇根大学安娜堡分校计算机系,理论计算机方向。2013年6月毕业于中国科学技术大学数学系。主要研究方向是理论计算机与经济学的交叉方向,包括机制设计、信息激励、群体智慧等。在J. ACM,ACM EC,WWW,WINE,ITCS,ACM TEAC,SODA,NeurIPS,ICML,ICLR,AAAI,IJCAI,ECCV等会议期刊发表若干论文,担任ACM EC、WINE和ICALP等会议的程序委员会成员,并担任CCF A类会议WINE 2023的程序委员会主席,以及CCF计算经济专业组的执行委员。

报告简介:

在现实世界中,我们常常会遇到两个棘手的问题:其一是如何判断谁更诚实——当没有“标准答案”时,很难区分一个人是真心说实话,还是随口编造;其二是如何训练可靠的 AI——在医学影像分类等场景中,我们拿到的往往是一份“带噪声的参考答案”,其中的标签可能错误百出,而传统模型极易被这些噪声误导。看似不相关的两大挑战,却可以通过同一个工具来应对:基于行列式的互信息(Determinant based Mutual Information, DMI)。在群体激励场景中(如产品评价或同行互评),传统机制往往需要依赖大量评分才能逐渐逼近真实情况,而 DMI 机制只需少量评分就能确保“说真话”是参与者的最优策略;在 AI 学习场景中(如医疗图像分类),传统的损失函数会被噪声标签带偏,导致模型性能下降,而 DMI 的独特数学性质则保证了,即使在高度混乱的标签环境下,模型的训练与评估依然能接近于“无噪声数据”的表现。

袁粒

北京大学深圳研究生院

多模态统一建模:扩散与自回归之争

报告人简介:

袁粒,北京大学科学智能学院(深圳研究生院)助理教授、博士生导师、入选国家高层次青年人才计划、国家优秀留学生奖(归国类)、2023年福布斯亚洲30U30名单等,主持国家科技创新2030重大项目课题和国自然基金等。 研究方向是视觉为中心的多模态机器学习,代表性学术工作包括VOLO, T2T-ViT等深度神经网络框架,以第一/通讯作者在国际期刊和顶会上发表论文40余篇,包括Nature Computational Science、IEEE TPAMI/CVPR等,谷歌学术引用一万余次,代表性应用工作包括ChatExcel、Open-Sora Plan视频生成开源计划。

报告简介:

多模态理解和生成两个领域蓬勃发展,当前主流多模态理解模型主要借助大语言模型作为理解和逻辑推理的“中枢”,以自回归式Transformer(AutoRegressive Transformer)为主干模型,而多模态生成以扩散式Transformer (Diffusion Transformer)作为主要模型。多模态生成领域一直在尝试自回归式生成,而近期学术界开始利用Diffusion构建多模态理解(大语言模型),两个领域在尝试对方的建模方式,预示着对多模态理解和生成在逐步走向统一的期望,而以自回归还是扩散建模来统一理解和生成仍有待争论,本次报告重点讲解两种建模方式的各自优势,并以此探讨自回归和扩散建模谁将作为主干来统一多模态,亦或者如何混搭两种建模的方案优劣,最后探讨生成理解统一架构目前存在的挑战。

胡侠

上海人工智能实验室

Efficient LLM Serving via Lossy Computation

报告人简介:

胡侠教授现任上海人工智能实验室主任助理、领军科学家。他曾任美国莱斯大学正教授、数据科学中心主任,并作为联合创始人兼首席科学家参与创立AIPOW公司。胡教授长期致力于机器学习和人工智能领域的研究,在ICLR、NeurIPS、KDD、WWW、SIGIR等国际顶级会议及期刊上发表论文200余篇,论文被引用次数超过30,000次。他主导开发的自动机器学习开源系统AutoKeras已成为最常用的AutoML框架之一;其提出的NCF算法及系统(单篇论文被引超8000次)被纳入主流人工智能框架TensorFlow的官方推荐;此外,他开发的异常检测系统已在NVidia、通用电气、Trane、苹果等企业的产品中得到广泛应用。胡教授曾获ICML、WWW、WSDM、INFORMS等会议最佳论文奖或提名,以及美国国家科学基金委杰出青年奖、KDD Rising Star Award和IEEE Atluri学者奖等荣誉。他现任ACM TIST和Big Data期刊副主编、DMKD编委,并曾担任WSDM 2020大会主席及ICHI 2023、CHASE 2025医学信息学会议大会主席。

报告简介:

Large language models (LLMs) have exhibited human-like conversational abilities. Yet, scaling LLMs to longer contexts, such as extracting information from lengthy articles—one of the most fundamental tasks in healthcare applications—poses significant challenges. The primary issues are their inability to handle contexts beyond pre-training lengths and system constraints that make deployment difficult, as memory requirements for inference increase with context length. The key idea to overcome these challenges is that LLMs are extremely robust to noise from lossy computation, such as low-precision computation. Following this insight, we will discuss recent advancements in serving LLMs at scale, particularly in handling longer contexts. To address the algorithmic challenge, I will share our recent work on extending LLM context length to at least 8× longer by coarsening the positional information of distant tokens. To address the system challenge, I will discuss our recent efforts in quantizing the intermediate states of past tokens to 2-bit numbers, leading to a 8x memory efficiency and 3.5x wall-clock time speedup without harming performance. Finally, I will highlight our latest projects applying LLMs in healthcare, particularly how we utilize retrieval techniques for long contexts to mitigate the hallucination problem in healthcare chatbots.

唐彦嵩

清华大学深圳国际研究生院

迈向通用具身操作:三维世界模型构建与可扩展强化学习

报告人简介:

唐彦嵩,清华大学深圳国际研究生院副教授、博士生导师、科研处副处长。分别在清华大学自动化系获得工学学士和博士学位,并于英国牛津大学从事博士后工作。主要从事具身智能、计算机视觉、模式识别等领域的相关工作,以第一/通讯作者发表TPAMI等IEEE汇刊和CVPR等CCF-A类会议论文30余篇,主持广东省杰青、国家重点研发计划课题、中国科协青托等项目,获2024年公安部科学技术奖一等奖、2024年广东省科学技术奖(科技进步)二等奖和国际顶会竞赛冠军3项,担任CVPR、ICLR等国际会议领域主席、国际期刊JVCI编委以及中国人工智能学会模式识别专业委员会(CAAI-PR)常务委员兼副秘书长等学术职务。

报告简介:

通用具身操作是当前具身智能领域的前沿研究方向之一,其背后的挑战在于如何在训练和推理时实现计算的扩展。本次报告将首先从空间维度出发,介绍课题组在基于高斯泼溅的三维世界模型方面的一系列工作,以及其如何建模场景演变规律,并有效扩展训练时计算规模;其次,将从时间维度出发,介绍课题组近期将可扩展强化学习引入视觉语言动作模型的一系列工作,以及其如何建模长时程的操作,并有效扩展推理时的计算规模。

陈岳峰

阿里巴巴集团安全部

AGI的安全之困、技术之思和治理之辨

报告人简介:

陈岳峰,阿里巴巴集团安全部AI安全负责人,全面主导大模型与生成式人工智能的安全技术体系建设。他长期致力于人工智能安全的前沿研究与规模化工程落地,在大模型安全评测、价值观对齐(Safety Alignment)、多层防御护栏(Guardrails)等核心技术方向积累了深厚经验,并成功推动多项创新成果在实际业务场景中广泛应用。他在 NeurIPS、ICLR、CVPR、IEEE TPAMI、IJCV、IEEE TIFS 等国际顶级会议与期刊上发表学术论文 40 余篇,并多次牵头组织 AI 安全相关 Workshop,积极推动学术界与工业界的协同创新。其研究成果已深度集成至大模型安全、内容安全、知识产权保护等核心产品体系,为通义千问、阿里云百炼等平台提供坚实的安全保障。

报告简介:

本报告探讨了前沿人工智能面临的安全挑战,提出“安全优先”的AGI发展范式。通过原生嵌入式护栏、建设性对齐与隐空间可解释性分析等技术创新,构建“共生安全防御”体系,并倡导以开源、众测、协同治理推动AI向安全、可靠、可信方向发展。

张弛

北京字节跳动科技有限公司

From Scratch to Gold: How AI is Learning to Solve and Discover Mathematics

报告人简介:

Dr. Chi Zhang is a research scientist at ByteDance Seed. He was previously a full-time research scientist at the Beijing Institute for General Artificial Intelligence (BIGAI). Dr. Zhang obtained his Ph.D. in Computer Science from the University of California, Los Angeles (UCLA), under the supervision of Professor Song-Chun Zhu. He has also worked with Professor Dit-Yan Yeung at the Hong Kong University of Science and Technology and Professor Deng Cai at his alma mater, Zhejiang University.

His research interests include abstract reasoning, active reasoning, and applied research for challenging problems, with a recent focus on mathematics and AI. One of his recent publications is titled "Proposing and solving olympiad geometry with guided tree search."

Dr. Zhang is an active member of the academic community, serving as a reviewer for numerous prestigious conferences and journals, including CVPR, ICCV, ECCV, NeurIPS, ICLR, ICML, AAAI, IEEE Transactions on Image Processing (TIP), and Psychological Review.

报告简介:

Proving mathematical theorems at the International Mathematical Olympiad (IMO) level represents a significant milestone in automated reasoning. However, progress for machine learning approaches has been hampered by a critical bottleneck: the scarcity of human proofs translated into machine-verifiable formats. This data scarcity problem is particularly acute in domains like Euclidean geometry.

This talk explores a paradigm-shifting approach that circumvents this challenge by generating vast amounts of synthetic data from scratch. We will first examine the architecture and success of AlphaGeometry and TongGeometry, neuro-symbolic systems that learns to prove complex geometry theorems without human demonstrations. By training a neural language model on synthetically generated theorems and proofs, the models learn intuition, guiding a symbolic deduction engine through the creative and challenging steps of a proof, such as auxiliary constructions. Building on this foundation, we will discuss the evolution towards systems like Seed-Prover, which further enhance automated reasoning through strategies that are both deep and broad. Not only can they produce human-readable solutions and even discover generalized versions of existing theorems, but their underlying framework offers a promising blueprint for overcoming data scarcity in other complex scientific domains.

张拳石

上海交通大学

Scaling Law的桎梏和100%机理可靠性是否是大模型无解的难题?

报告人简介:

张拳石,上海交通大学电院计算机学院长聘副教授,博士生导师,入选国家级海外高层次人才引进计划,获ACM China新星奖。于2014年获得日本东京大学博士学位,于2014-2018年在加州大学洛杉矶分校(UCLA)从事博士后研究。张拳石在神经网络可解释性方向取得了多项具有国际影响力的创新性成果。张拳石承担了TMLR的责任编辑,CCF-A类会议NeurIPS 2024, 2025的领域主席,IJCAI 2020和IJCAI 2021的可解释性方向的Tutorial,并先后担任了AAAI 2019, CVPR 2019, ICML 2021大会可解释性方向的分论坛主席。

报告简介:

“无法严谨解释全部决策机理”和“Scaling Law的桎梏”是大模型发展路径中两大核心瓶颈,但是从内在机理层面却殊途同归地指向同一根因——缺少对大模型表征和泛化性根因的严谨解释与建模。目前大部分可解释性研究依然停留在工程技术层面,无法在机理层面直接解释模型的表征和泛化能力。张拳石团队所提出的基于等效交互可解释性理论体系,从机理层面部分解决了上述问题,证明了神经网络内在复杂表征逻辑可以被严谨且全面地概括为稀疏的交互概念,并基于交互概念可以充分解释神经网络的性能根因,从而跳出黑盒训练范式,有针对性地实时监控并修复模型表征缺陷。初步的实验证明相关算法可以有效评测并提升神经网络的决策机理的可靠性,提升模型训练效率,摆脱Scaling Law的桎梏。