2024年5月31日Arxiv人工智能相关论文

CSDN 2024-07-11 13:01:02 阅读 54

cs.AI: KerasCV 和 KerasNLP:视觉和语言的增强功能

原标题: KerasCV and KerasNLP: Vision and Language Power-Ups

作者: Matthew Watson, Divyashree Shivakumar Sreepathihalli, Francois Chollet, Martin Gorner, Kiranbir Sodhia, Ramesh Sampath, Tirth Patel, Haifeng Jin, Neel Kovelamudi, Gabriel Rasskin, Samaneh Saadat, Luke Wood, Chen Qian, Jonathan Bischof, Ian Stenbit

机构: 谷歌 LLC 美国 Keras 团队

摘要: 我们推出了 Keras 领域包 KerasCV 和 KerasNLP,这是 Keras API 的扩展,用于计算机视觉和自然语言处理工作流,能够在 JAX、TensorFlow 或 PyTorch 上运行。这些领域包旨在实现快速实验,侧重于易用性和性能。我们采用模块化、分层设计:在库的最低抽象级别,我们提供用于创建模型和数据预处理流程的构建模块,而在库的最高抽象级别,我们提供了针对流行架构(如 Stable Diffusion、YOLOv8、GPT2、BERT、Mistral、CLIP、Gemma、T5 等)的预训练“任务”模型。任务模型具有内置的预处理、预训练权重,并且可以在原始输入上进行微调。为了实现高效训练,我们支持所有模型的 XLA 编译,并通过 tf.data API 的编译图运行所有预处理的 TensorFlow 操作。这些库完全开源(Apache 2.0 许可),并可在 GitHub 上获取。

论文链接: https://arxiv.org/pdf/2405.20247

cs.AI: 大语言模型上的上下文注入攻击

原标题: Context Injection Attacks on Large Language Models

作者: Cheng’an Wei, Kai Chen, Yue Zhao, Yujia Gong, Lu Xiang, Shenchen Zhu

机构: 中国科学院信息工程研究所 中国科学院大学网络空间安全学院 四川大学网络空间安全学院

摘要: 大语言模型(LLMs)如ChatGPT和Llama-2已经在现实世界的应用中变得普遍,展现出令人印象深刻的文本生成性能。LLMs基本上是从输入数据保持静态且缺乏明确结构的情况下发展而来的。为了能够随时间进行交互,基于LLM的聊天系统必须将额外的上下文信息(即聊天历史)整合到它们的输入中,遵循预定义的结构。本文指出这种整合如何会使LLMs暴露于来自不受信任来源的误导性上下文,并且无法区分系统和用户输入,从而允许用户注入上下文。我们提出了一种系统的方法论,用于进行旨在引发不允许的响应的上下文注入攻击,通过引入虚假上下文。这可能导致非法行为、不当内容或技术误用。我们的上下文制造策略、接受引诱和词匿名化,有效地创造了具有误导性的上下文,可以与攻击者定制的提示模板结构化,通过恶意用户消息实现注入。对ChatGPT和Llama-2等现实世界LLMs的全面评估证实了所提出的攻击的有效性,成功率达到97%。我们还讨论了可以用于攻击检测和开发更安全模型的潜在对策。我们的发现提供了关于在交互和结构化数据场景中部署LLMs所面临挑战的见解。

论文链接: https://arxiv.org/pdf/2405.20234

cs.AI: ESG-FTSE:一份带有ESG相关标签和使用案例的新闻文章语料库

原标题: ESG-FTSE: A corpus of news articles with ESG relevance labels and use cases

作者: Mariya Pavlova, Bernard Casey, Miaosen Wang

机构: 伦敦帝国学院 谷歌DeepMind SOCial ECONomic RESearch London and Frankfurt

摘要: 我们提出了 ESG-FTSE,这是第一个由具有环境、社会和治理(ESG)相关注释的新闻文章组成的语料库。近年来,由于气候变化的紧迫性,投资者和监管机构已将ESG投资推向主流。这导致ESG评分的崛起,以评估投资的社会责任证书。尽管对ESG评分的需求很高,但它们的质量却差异很大。可以应用定量技术来改进ESG评分,从而实现负责任的投资。为了为ESG和金融文本挖掘建立资源,我们开创了ESG-FTSE语料库。我们进一步提出了首个ESG注释模式。它有三个级别:二元分类(相关与不相关的新闻文章)、ESG分类(与ESG相关的新闻文章)和目标公司。我们进行了ESG相关性检测的监督和无监督学习实验,以证明该语料库可以在不同环境中用于得出准确的ESG预测。关键词:语料库注释,ESG标签,注释模式,新闻文章,自然语言处理

论文链接: https://arxiv.org/pdf/2405.20218

cs.AI: 一个QuantLLM适用于所有:一次微调量化LLM以实现高效部署

原标题: One QuantLLM for ALL: Fine-tuning Quantized LLMs Once for Efficient Deployments

作者: Ke Yi, Yuhui Xu, Heng Chang, Chen Tang, Yuan Meng, Tong Zhang, Jia Li

机构: 华南理工大学 香港科技大学 清华大学 Salesforce AI Research

摘要: 大语言模型(LLMs)已经迅速发展,但面临着巨大的内存需求。虽然量化已经显示出对LLMs有希望,但目前的方法通常需要长时间的训练来减轻量化损失带来的性能下降。然而,将LLMs部署到不同资源约束的多样化场景(例如服务器和个人电脑)需要针对每个应用重复训练,这加剧了长时间训练的问题。鉴于此,通过一次性训练能够产生多样化的下游应用最佳子网的一次性训练(OFA)超网络具有优势。然而,当前语言模型的规模阻碍了效率,并放大了子网之间权重共享的干扰。我们首次尝试将一次性训练框架扩展到大语言模型。具体地,我们解耦共享权重以消除干扰,并引入低秩适配器以提高训练效率。此外,我们观察到传统均匀采样存在训练资源分配不均衡的问题。我们引入了非参数调度器来调整每种量化配置的采样率,实现对具有不同需求的子网之间更平衡的分配。我们在LLaMA2家族上验证了这种方法,并下游评估证实了我们在面对多种场景时能够保持高性能的能力,同时显著减少部署时间。

论文链接: https://arxiv.org/pdf/2405.20202

cs.AI: 使用大语言模型进行编程练习生成的现状调研研究

原标题: A Survey Study on the State of the Art of Programming Exercise Generation using Large Language Models

作者: Eduard Frankford, Ingo Höhn, Clemens Sauerwein, Ruth Breu

机构: 因斯布鲁克大学

摘要: 本文分析了大语言模型(LLMs)在编程练习生成能力方面的情况。通过一项调查研究,我们定义了现有技术水平,提取了它们的优势和劣势,并最终提出了一个评估矩阵,帮助研究人员和教育工作者决定哪种LLM最适合编程练习生成用例。我们还发现,多个LLM能够生成有用的编程练习。然而,存在挑战,比如LLM可能轻松解决由LLM生成的练习。本文为LLM在教育中的整合持续讨论做出了贡献。

论文链接: https://arxiv.org/pdf/2405.20183

cs.AI: MSSC-BiMamba: 使用双向曼巴进行多模态睡眠阶段分类和睡眠障碍早期诊断

原标题: MSSC-BiMamba: Multimodal Sleep Stage Classification and Early Diagnosis of Sleep Disorders with Bidirectional Mamba

作者: Chao Zhanga, Weirong Cuia, Jingjing Guo

机构: 澳门理工大学

摘要: 背景和目标:监测睡眠状态对评估睡眠质量和诊断睡眠障碍至关重要。传统的手动分期方法不仅耗时,而且受主观判断的影响,导致结果不一致。本研究通过深度学习技术开发了一种自动睡眠分期和睡眠障碍分类模型,旨在提高诊断准确性和效率。

方法:考虑到多导睡眠监测多通道多导睡眠监测(PSG)的特点,我们设计了一个睡眠状态分类模型MSSC-BiMamba,它将高效通道注意(ECA)机制与双向状态空间模型(BSSM)相结合。ECA模块允许对来自不同传感器通道的数据进行加权,从而放大各种传感器输入的影响。此外,mamba的实施使模型能够有效捕捉PSG数据的多维特征和长程依赖性。

结果:开发的模型在睡眠分期任务上表现出色。此外,在ISRUC和Sleep-EDF组合数据集上评估时,该模型在睡眠健康预测方面表现出0.952的准确性。

结论:我们的模型是第一个将双向Mamba应用于复杂PSG数据的睡眠分期,显示出与传统Transformer风格模型相比在计算和内存效率上的显著提升。这种方法不仅使健康监测更加便捷,还扩大了先进医疗技术的应用范围,从而通过创新技术增强睡眠健康管理。

论文链接: https://arxiv.org/pdf/2405.20142

cs.AI: 无需形状约束的AND-OR树上平衡不等式的分离和坍塌

原标题: Separation and Collapse of Equilibria Inequalities on AND-OR Trees without Shape Constraints

作者: Fuki Ito, Toshio Suzuki

机构: 东京都立大学

摘要: 在这里,我们研究了AND-OR树计算的随机复杂性,即通过对算法施加各种限制来找到该树根的布尔值的最小成本,而对树形状没有限制。当树满足关于对称性的某种条件时,Saks和Wigderson(1986)提出的方向算法,即特殊的随机算法,被认为可以实现随机复杂性。此外,已知存在一种树的示例,它非常不平衡,以至于没有方向算法可以实现随机复杂性(Vereshchagin 1998)。在本研究中,我们旨在确定一般随机布尔决策树与其特殊情况——方向算法之间的偏差出现在何处。在本文中,我们展示了对于任何AND-OR树,随机深度优先算法(与方向算法相比形成更广泛的类别)具有与方向算法相同的均衡。因此,我们得到了关于任意AND-OR树的均衡不等式的坍缩结果。这意味着存在一种情况,即使深度优先算法也不能是最快的,从而导致均衡不等式的分离结果。此外,引入了一种新算法作为分离结果证明的关键概念。

论文链接: https://arxiv.org/pdf/2405.20138

cs.AI: 基于结构感知的车道图 Transformer 模型用于车辆轨迹预测

原标题: A Structure-Aware Lane Graph Transformer Model for Vehicle Trajectory Prediction

作者: Sun Zhanbo, Dong Caiyin, Ji Ang, Zhao Ruibin, Zhao Yu

机构: 清华大学 哈尔滨工业大学

摘要: 准确预测周围车辆的未来轨迹对自动驾驶车辆的安全运行至关重要。本研究提出了一种具有结构感知能力的Lane Graph Transformer(LGT)模型。其关键贡献在于将地图拓扑结构编码到注意力机制中。为了解决不同方向的车道信息变化,引入了四个相对位置编码(RPE)矩阵来捕捉地图拓扑结构的局部细节。此外,还采用了两个最短路径距离(SPD)矩阵来捕捉两个可访问车道之间的距离信息。数值结果表明,所提出的LGT模型在Argoverse 2数据集上实现了显著更高的预测性能。具体而言,与Argoverse 2基线模型(最近邻)相比,minFDE

6

_6

6​指标降低了60.73%,b-minFDE

6

_6

6​指标与基线LaneGCN模型相比降低了2.65%。此外,消融实验表明,考虑地图拓扑结构导致b-minFDE

6

_6

6​指标下降了4.24%,验证了该模型的有效性。

论文链接: https://arxiv.org/pdf/2405.20121

cs.AI: 跨视图知识融合的异构联邦学习交叉训练

原标题: Cross-Training with Multi-View Knowledge Fusion for Heterogenous Federated Learning

作者: Zhuang Qi, Lei Meng, Weihao He, Ruohan Zhang, Yu Wang, Xin Qi, Xiangxu Meng

机构: 空字符串

摘要: 联邦学习受益于跨训练策略,这使得模型能够在来自不同来源的数据上进行训练,以提高泛化能力。然而,不同来源之间的数据异质性可能会导致模型在进行跨训练以适应新任务或数据来源时逐渐忘记先前获得的知识。我们认为,整合个性化和全局知识以从多个角度收集信息可能会提高性能。为实现这一目标,本文提出了一种通过融合多视角信息增强联邦学习的新方法。具体而言,所提出的方法,称为FedCT,包括三个主要模块,其中一致性感知知识广播模块旨在优化模型分配策略,增强客户之间的协作优势,并实现高效的联邦学习过程。多视角知识引导表示学习模块利用来自全局和局部视图的融合原型知识,增强模型交换前后局部知识的保留,以及确保局部和全局知识之间的一致性。基于混合特征增强模块聚合丰富信息,进一步增加特征空间的多样性,使模型能够更好地区分复杂样本。在性能比较、消融研究、深入分析和案例研究方面进行了大量实验。结果表明,FedCT减轻了来自局部和全局视图的知识遗忘,使其优于最先进的方法。

论文链接: https://arxiv.org/pdf/2405.20046

cs.AI: 通过引入视觉模态实现高效的大语言模型越狱

原标题: Efficient LLM-Jailbreaking by Introducing Visual Modality

作者: Zhenxing Niu, Yuyao Sun, Haodong Ren, Haoxuan Ji, Quan Wang, Xiaoke Ma, Gang Hua, Rong Jin

机构: 西安电子科技大学 西安交通大学 Wormpex AI Research Meta

摘要: 这篇论文关注对大型语言模型(LLMs)进行越狱攻击,诱使它们对有害用户查询生成不良内容。与以往直接针对LLMs的LLM越狱攻击不同,我们的方法首先通过将视觉模块整合到目标LLM中构建了一个多模态大型语言模型(MLLM)。随后,我们进行了高效的MLLM越狱攻击,生成了越狱嵌入embJS。最后,我们将embJS转换为文本空间,以促进对目标LLM的越狱攻击。与直接LLM越狱攻击相比,我们的方法更加高效,因为MLLM比纯LLM更容易受到越狱攻击。此外,为了提高越狱攻击的成功率(ASR),我们提出了一种图像-文本语义匹配方案,以识别合适的初始输入。大量实验证明,我们的方法在效率和有效性方面均超过了当前的最先进方法。此外,我们的方法表现出了更强的跨类别越狱能力。

论文链接: https://arxiv.org/pdf/2405.20015

cs.AI: 在执法中对抗人工智能的策略:希腊、意大利和西班牙公民的跨国比较

原标题: Strategies to Counter Artificial Intelligence in Law Enforcement: Cross-Country Comparison of Citizens in Greece, Italy and Spain

作者: Petra Saskia Bayerl, Babak Akhgar, Ernesto La Mattina, Barbara Pirillo, Ioana Cotoi, Davide Ariu, Matteo Mauri, Jorge Garcia, Dimitris Kavallieros, Antonia Kardara, Konstantina Karagiorgou

机构: 谢菲尔德哈勒姆大学 工程Ingegneria Informatica 中心安全研究中心PLURIBUS ONE S.r.l. Vicomtech 希腊伯罗奔尼撒大学 安全研究中心KEMEA

摘要: 本文调查了公民对执法机构利用人工智能(AI)的反制策略。基于希腊、意大利和西班牙三个国家的信息,我们展示了十种特定反制策略的可能性差异。我们进一步确定了增加反制策略倾向的因素。我们的研究通过展示公民在面对执法机构利用AI能力时的有意识、战略性选择,为安全焦点的AI应用对社会影响提供了重要的新视角。

论文链接: https://arxiv.org/pdf/2405.19970

cs.AI: HOLMES: 使用多个检测器检测对抗样本

原标题: HOLMES: to Detect Adversarial Examples with Multiple Detectors

作者: Jing Wen

机构: 香港大学

摘要: 深度神经网络(DNNs)很容易受到对图像添加的一些不可察觉但有目的的噪音的欺骗,并错误地对其进行分类。先前的防御工作主要集中在重新训练模型或检测噪音上,但要么显示出有限的成功率,要么受到新对抗性示例的攻击。我们观察到,与集中在对抗性图像或DNN模型内部不同,由不同算法生成的对抗性示例可以基于DNN的输出(logits)进行识别。Logit可以作为外部特征来训练检测器。因此,我们提出了HOLMES(Hierarchically Organized Light-weight Multiple dEtector System),通过检测潜在的对抗性示例来加强DNN,以最小化它们在实际中可能带来的威胁。HOLMES能够以高准确率和低误报率区分来自多种攻击的\textit{未知}对抗性示例,甚至在自适应模型中也优于单一检测器系统。为了确保HOLMES中检测器的多样性和随机性,我们采用了两种方法:为每个标签训练专用检测器和使用前k个logits训练检测器。我们的有效且廉价的策略既不修改原始DNN模型,也不需要其内部参数。HOLMES不仅与各种学习模型兼容(甚至仅使用外部API),而且还可以作为其他防御措施的补充,以实现更高的检测率(甚至可以完全保护系统免受各种对抗性示例的影响)。

论文链接: https://arxiv.org/pdf/2405.19956

cs.AI: 学习战略性讨论:《一夜狼人》案例研究

原标题: Learning to Discuss Strategically: A Case Study on One Night Ultimate Werewolf

作者: Xuanfa Jin, Ziyan Wang, Yali Du, Meng Fang, Haifeng Zhang, Jun Wang

机构: 中国科学院自动化研究所 中国科学院大学 伦敦国王学院 利物浦大学 伦敦大学学院 南京人工智能研究院

摘要: 沟通是人类社会的基本方面,促进了人们之间信息和信念的交流。尽管大语言模型(LLMs)取得了进展,但最近使用这些模型构建的智能体经常忽视对讨论策略的控制,而这在沟通场景和游戏中是至关重要的。作为著名沟通游戏狼人的变体,一夜狼人(ONUW)要求玩家制定战略性的讨论策略,因为潜在的角色变化增加了游戏的不确定性和复杂性。在这项工作中,我们首先介绍了一夜狼人游戏两种情景中完美贝叶斯均衡(PBEs)的存在:一种带有讨论,一种没有。结果表明,讨论通过影响玩家的信念,极大地改变了他们的效用,强调了讨论策略的重要性。基于分析得到的见解,我们提出了一个由强化学习(RL)训练的讨论策略来确定适当的讨论策略的RL指导语言智能体框架。我们在几种一夜狼人游戏设置上的实验结果证明了我们提出的框架的有效性和普适性。

论文链接: https://arxiv.org/pdf/2405.19946

cs.AI: P

2

^2

2-ViT:全量化视觉Transformer的二次幂后训练量化和加速

原标题: P

2

^2

2-ViT: Power-of-Two Post-Training Quantization and Acceleration for Fully Quantized Vision Transformer

作者: Huihong Shi, Xin Cheng, Wendong Mao, Zhongfeng Wang

机构: 清华大学 哈工大

摘要: Vision Transformers(ViTs)在计算机视觉任务中表现出色,但占用内存且计算密集,这对资源受限设备上的部署构成挑战。为了解决这一限制,先前的研究已经探索了ViT定制的量化算法,但保留了浮点缩放因子,这会产生不可忽略的重新量化开销,限制了ViTs的硬件效率,并促使寻求更适合硬件的解决方案。为此,我们提出了\emph{P

2

^2

2-ViT},这是第一个基于二的幂(PoT)后训练量化和加速框架,用于加速完全量化的ViTs。具体来说,{在量化方面},我们探索了一种专门的量化方案,以有效地使用PoT缩放因子对ViTs进行量化,从而最小化重新量化开销。此外,我们提出了粗到细的自动混合精度量化,以实现更好的精度和效率的权衡。{在硬件方面},我们开发了{一个专门的基于块的加速器},具有多个定制的子处理器,分别处理ViTs的不同类型的操作,减轻了可重构的开销。此外,我们设计了{一个定制的行静态数据流},以抓住我们的PoT缩放因子引入的流水线处理机会,从而增强吞吐量。大量实验证实了P

2

^2

2-ViT的有效性。{特别是,与具有浮点缩放因子的对应物相比,我们提供了具有PoT缩放因子的可比甚至更优越的量化性能。此外,我们实现了与GPU的图灵张量核心相比高达

10.1

×

\mathbf{10.1\times}

10.1×的加速和

36.8

×

\mathbf{36.8\times}

36.8×的节能,以及与SOTA量化型ViT加速器相比高达

1.84

×

\mathbf{1.84\times}

1.84×的更高计算利用效率。代码可在\url{this https URL}获取。

论文链接: https://arxiv.org/pdf/2405.19915

Github: https://github.com/shihuihong214/P2-ViT

cs.AI: 解读人类移动性:利用大语言模型推断轨迹的语义

原标题: Deciphering Human Mobility: Inferring Semantics of Trajectories with Large Language Models

作者: Yuxiao Luo, Zhongcai Cao, Xin Jin, Kang Liu, Ling Yin

机构: 深圳高级技术研究院 中国科学院

摘要: 理解人类的移动模式对于各种应用至关重要,从城市规划到公共安全。个体轨迹,如手机定位数据,虽然富含时空信息,但通常缺乏语义细节,限制了其用于深入移动性分析的效用。现有方法可以从这些数据中推断基本的日常活动顺序,但在理解复杂的人类行为和用户特征方面缺乏深度。此外,它们在依赖难以获取的辅助数据集(如出行调查)方面存在困难。为了解决这些限制,本文通过三个关键维度定义了轨迹语义推断:用户职业类别、活动顺序和轨迹描述,并提出了利用大语言模型(LLM)推断轨迹语义的Trajectory Semantic Inference with Large Language Models(TSI-LLM)框架,全面深入地利用LLM推断轨迹语义。我们采用增强时空属性的数据格式化(STFormat)并设计了一个包含上下文的提示,使LLM能够更有效地解释和推断轨迹数据的语义。对真实世界轨迹数据集的实验验证证明了TSI-LLM在解读复杂人类移动模式方面的有效性。本研究探讨了LLM在增强轨迹数据语义分析方面的潜力,为更复杂和易于访问的人类移动性研究铺平了道路。

论文链接: https://arxiv.org/pdf/2405.19850

cs.AI: 人工智能时代的终身学习挑战:计算思维的视角

原标题: Lifelong learning challenges in the era of artificial intelligence: a computational thinking perspective

作者: Margarida Romero (LINE, COMUE UCA, ULaval, Mnemosyne)

机构: Université Côte d’Azur, France

摘要: 人工智能(AI)的快速发展给教育和职场技能带来了重大挑战,需要掌握人工智能以便在工作场所进行人工智能与人类的协作。随着人工智能不断重塑行业和就业市场,如何在终身学习中考虑人工智能素养的定义变得日益关键(Cetindamar等,2022年;Laupichler等,2022年;Romero等,2023年)。像任何新技术一样,人工智能既带来希望也引发恐惧,而当今的人工智能也带来了重大挑战(Cugurullo&Acheampong,2023年;Villani等,2018年)。它也引发了关于我们人类本质的深刻问题。机器会超越设计它的人类的智能吗?所谓的人工智能与我们人类智能之间会有怎样的关系?人工智能与人类的协作如何才能得到规范,以符合可持续发展目标(SDGs)?本文从计算思维、批判性思维和创造性能力的角度,对人工智能时代终身学习的挑战进行了审视,并强调了对组织管理和领导的影响。

论文链接: https://arxiv.org/pdf/2405.19837

cs.AI: 人工智能安全:通往世界末日的攀登?

原标题: AI Safety: A Climb To Armageddon?

作者: Herman Cappelen, Josh Dever, John Hawthorne

摘要: 这篇论文提出了一个观点,即某些人工智能安全措施,与其减轻存在风险,可能反而加剧了存在风险。在某些关键假设下 - 人工智能失败的不可避免性,人工智能系统在失败时的能力与造成的伤害严重程度之间的预期相关性,以及安全措施在人工智能系统失败之前使其变得更加强大的倾向 - 安全工作具有负预期效用。该论文考察了三种应对策略:乐观主义、缓解和整体主义。每种策略都面临着源自人工智能安全领域固有特征的挑战,我们称之为瓶颈效应、完美障碍和平衡波动。这一观点的出人意料的稳健性迫使重新审视围绕人工智能安全的核心假设,并指出了进一步研究的几个途径。

论文链接: https://arxiv.org/pdf/2405.19832

cs.AI: Growing Tiny Networks: Spotting Expressivity Bottlenecks and Fixing Them Optimally

不断增长的微型网络:发现表达能力瓶颈并进行最佳修复

原标题: Growing Tiny Networks: Spotting Expressivity Bottlenecks and Fixing Them Optimally

作者: Manon Verbockhaven (TAU, LISN), Sylvain Chevallier (TAU, LISN), Guillaume Charpiat (TAU, LISN)

机构: 巴黎-萨克雷大学 法国国家科学研究中心Inria

摘要: 机器学习任务通常被构建为优化问题,其中一个在特定函数空间内寻找最优函数的过程。在实践中,考虑参数化的函数空间,以便能够执行梯度下降。通常选择并固定神经网络架构,并优化其参数(连接权重),得到依赖于架构的结果。然而,这种处理方式迫使函数在训练过程中保持在所选架构可表达的范围内,并阻止跨架构的优化。为了弥补这一点,通常会进行昂贵的架构超参数优化。相反,我们提出在训练过程中动态调整架构。我们展示了,由于试图遵循函数梯度时的表达瓶颈,关于理想架构变化的信息可以从反向传播中提取出来。为此,我们提出了表达瓶颈的数学定义,这使我们能够在训练过程中检测、量化和解决它们,通过在需要时添加合适的神经元。因此,虽然标准方法需要大型网络,以满足表达和优化的需求,我们能够从非常小的神经网络开始,并让它们适当增长。作为概念验证,我们展示了在 CIFAR 数据集上的结果,与大型神经网络的准确性相匹配,同时具有竞争力的训练时间,同时消除了标准架构超参数搜索的需求。

论文链接: https://arxiv.org/pdf/2405.19816

cs.AI: 在设计验证中使用强化学习进行高效刺激生成

原标题: Efficient Stimuli Generation using Reinforcement Learning in Design Verification

作者: Deepak Narayan Gadde, Thomas Nalapat, Aman Kumar, Djones Lettnin, Wolfgang Kunz, Sebastian Simon

机构: Infineon Technologies Dresden GmbH & Co. KG 德累斯顿公司 Infineon Technologies AG 莱茵兰-普法尔茨科技大学凯撒斯劳滕分校

摘要: 现代芯片系统(SoCs)设计复杂性的增加导致了重大的验证挑战,特别是在及时满足覆盖目标方面。目前,覆盖闭环在很大程度上依赖于受限随机和覆盖驱动验证方法,其中随机刺激被限制以验证特定场景并达到覆盖目标。据说这个过程是详尽的,并且消耗了大量项目时间。本文提出了一种新的方法,利用强化学习(RL)生成高效刺激,以达到待验证设计(DUV)的最大代码覆盖。此外,使用元模型创建了一个自动化框架,用于为任何给定的设计生成SystemVerilog测试台和RL环境。所提出的方法应用于各种设计,并且产生的结果证明了RL智能体相比基线随机模拟更快地实现代码覆盖。此外,我们的工作还分析了各种RL智能体和奖励方案。

论文链接: https://arxiv.org/pdf/2405.19815

cs.AI: 具有外星内容和外星元语义的人工智能

原标题: AI with Alien Content and Alien Metasemantics

作者: Herman Cappelen, Josh Dever

摘要: AlphaGo以一种富有创造性和新颖的方式下棋和围棋。我们自然而然地会将内容归因于它,比如说它并不认为如果棋子落后几步,但拥有更多的棋盘空间就是坏事。Cappelen和Dever(2021)提出的框架提供了一种思考AI内容的语义和元语义的方式:AlphaGo是否持有这样的内容,如果是的话,程序的特定状态意味着特定内容的原因是什么?Cappelen和Dever没有考虑的一个突出问题是外星内容的可能性。外星内容是指人类无法表达或无法表达的内容。AlphaGo或其他复杂的AI系统表达外星内容的可能性非常高。此外,这很可能是一个元语义事实:这个事实与AI首次持有内容的方式有关,这将考虑到AI和人类内容的迥异起源。本章从语义和元语义的角度探讨了AI中的外星内容问题。它阐明了对外星内容提出语义和元语义问题的可能回应的逻辑空间,考虑了我们人类是否能够与表达外星内容的实体进行交流的方式,指出澄清这些问题可能对哲学中更“应用”的问题很重要,比如存在风险和可解释性人工智能。

论文链接: https://arxiv.org/pdf/2405.19808

cs.AI: 重新审视卷积神经网络用于轨迹相似性学习

原标题: Revisiting CNNs for Trajectory Similarity Learning

作者: Zhihao Chang, Linzhu Yu, Huan Li, Sai Wu, Gang Chen, Dongxiang Zhang

机构: 浙江大学

摘要: 相似性搜索是在查询轨迹数据中的一种基本但昂贵的操作,这是由于距离计算的二次复杂度。为了减轻长轨迹的计算负担,神经网络已被广泛应用于相似性学习,每个轨迹被编码为高维向量,以便使用线性复杂度进行相似性搜索。鉴于轨迹数据的序贯性质,先前的努力主要致力于利用RNN或Transformer。

在本文中,我们认为将轨迹作为序贯数据的常见做法导致过度关注捕获两个序列之间的长期全局依赖性。相反,我们的调查揭示了局部相似性的关键作用,促使重新审视简单的CNN用于轨迹相似性学习。我们引入了ConvTraj,结合了1D和2D卷积,分别捕获轨迹的序贯和地理分布特征。此外,我们进行了一系列理论分析,以证明ConvTraj的有效性。在三个真实世界的大规模数据集上的实验结果表明,ConvTraj在轨迹相似性搜索中实现了最先进的准确性。由于ConvTraj的简单网络结构,对于拥有160万条轨迹的波尔图数据集,训练和推断速度分别提高了至少240倍和2.16倍。源代码和数据集可以在\textit{\url{this https URL}}找到。

论文链接: https://arxiv.org/pdf/2405.19761

Github: https://github.com/Proudc/ConvTraj

cs.AI: 通过强化学习中内在动态特征学习任务相关的序列表示

原标题: Learning Task-relevant Sequence Representations via Intrinsic Dynamics Characteristics in Reinforcement Learning

作者: Dayang Liang, Jinyang Lai, Yunlong Liu

机构: 清华大学 哈尔滨工业大学

摘要: 学习与任务相关的状态表示对于解决视觉深度强化学习中的场景泛化问题至关重要。先前的工作通常建立了一个自监督的辅助学习器,通过引入元素(例如奖励和动作)来通过行为相似性度量从观察中提取任务相关的状态信息。然而,这些方法通常忽略了元素之间的固有关系(例如动态关系),这些关系对于学习准确的表示是至关重要的,它们也局限于单步度量,这阻碍了在长期动态转换中区分短期相似的任务/行为信息。为了解决这些问题,我们提出了一种基于内在动态特征驱动的序列表示学习方法(DSR),该方法基于常见的深度强化学习框架。具体而言,受到底层系统中状态转移的事实的启发,它通过对与状态转移相关的动力学方程进行建模来约束编码器的优化,从而促使潜在的编码信息满足状态转移过程,并因此区分状态空间和噪声空间。此外,为了改进基于动态约束的编码相似任务的能力,DSR还从序列元素的频域和多步预测的角度顺序建模固有的动力学方程关系。最后,实验结果表明,DSR在Distracting DMControl Benchmark中取得了显著的性能提升,平均提高了78.9%以上的基线。进一步的结果表明,它在CARLA模拟器中的真实世界自主驾驶任务中也取得了最佳性能。此外,t-SNE可视化的定性分析结果验证了我们的方法在视觉任务上具有优越的表示能力。

论文链接: https://arxiv.org/pdf/2405.19736

cs.AI: 空间数据智能基础模型研究:中国2024年空间数据智能战略发展白皮书

原标题: Research on Foundation Model for Spatial Data Intelligence: China’s 2024 White Paper on Strategic Development of Spatial Data Intelligence

作者: Shaohua Wang (1), Xing Xie (2), Yong Li (3), Danhuai Guo (4), Zhi Cai (5), Yu Liu (6), Yang Yue (7), Xiao Pan (8), Feng Lu (9), Huayi Wu (10), Zhipeng Gui (10), Zhiming Ding (11), Bolong Zheng (12), Fuzheng Zhang (13), Tao Qin (2), Jingyuan Wang (14), Chuang Tao (15), Zhengchao Chen (1), Hao Lu (16), Jiayi Li (10), Hongyang Chen (17), Peng Yue (10), Wenhao Yu (18), Yao Yao (18), Leilei Sun (14), Yong Zhang (5), Longbiao Chen (19), Xiaoping Du (20), Xiang Li (21), Xueying Zhang (22), Kun Qin (10), Zhaoya Gong (6), Weihua Dong (23), Xiaofeng Meng (24) ((1) Aerospace Information Research Institute, Chinese Academy of Sciences,(2) Microsoft Research Asia, (3) Tsinghua University, (4) Beijing University of Chemical Technology, (5) Beijing University of Technology, (6) Peking University, (7) Shenzhen University, (8) Shijiazhuang Tiedao University, (9) Institute of Geographic Sciences and Natural Resources Research, Chinese Academy of Sciences, (10) Wuhan University, (11) Institute of Software, Chinese Academy of Sciences, (12) Huazhong University of Science and Technology, (13) Kuaishou Natural Language Processing Center and Audio Center, (14) Beijing University of Aeronautics and Astronautics, (15) Shanghai Figure Interesting Information Technology Co., Ltd., (16) SuperMap Software Co., Ltd., (17) Zhejiang Lab, (18) China University of Geosciences (Wuhan), (19) Xiamen University, (20) Key Laboratory of Digital Earth, Chinese Academy of Sciences, (21) East China Normal University, (22) Nanjing Normal University, (23) Beijing Normal University, (24) Renmin University of China)

机构: 中国科学院空天信息创新研究院 微软亚洲研究院 清华大学 北京化工大学 北京工业大学 深圳大学 石家庄铁道大学 中国科学院地理科学与资源研究所 武汉大学 中国科学院软件研究所 华中科技大学 快手自然语言处理中心和音频中心 北京航空航天大学 维智科技 北京超图软件股份有限公司 之江实验室 中国地质大学(武汉) 厦门大学 中国科学院数字地球重点实验室 华东师范大学 南京师范大学 北京师范大学 中国人民大学

摘要: 这份报告侧重于空间数据智能大模型,深入探讨了这些模型的原理、方法和前沿应用。它对空间数据智能大模型的定义、发展历史、当前状况和趋势进行了深入讨论,以及它们所面临的挑战。报告系统地阐明了空间数据智能大模型的关键技术及其在城市环境、航空航天遥感、地理学、交通运输等场景中的应用。此外,它总结了空间数据智能大模型在城市发展、多模态系统、遥感、智能交通和资源环境等主题中的最新应用案例。最后,报告总结了空间数据智能大模型发展前景的概况和展望。

论文链接: https://arxiv.org/pdf/2405.19730

cs.AI: 像人一样评分:用大语言模型重新思考自动评估

原标题: Grade Like a Human: Rethinking Automated Assessment with Large Language Models

作者: Wenjing Xie, Juxin Niu, Chun Jason Xue, Nan Guan

机构: 香港城市大学 阿布扎比人工智能大学

摘要: 尽管大型语言模型(LLMs)已被用于自动评分,但它们尚未达到与人类相同水平的性能,特别是在评分复杂问题时。现有研究集中在评分过程中的一个特定步骤上:使用预定义的评分标准进行评分。然而,评分是一个包含其他关键步骤的多方面过程,如评分标准设计和评分后审查。迄今为止,缺乏系统性研究探索LLMs提升整个评分过程的潜力。

在本文中,我们提出了一个基于LLM的评分系统,涵盖整个评分过程,包括以下关键组成部分:1)制定评分标准,不仅考虑问题本身,还考虑学生答案,从而更准确地反映学生的表现。2)在评分标准的指导下,为每个学生提供准确一致的分数,以及定制的反馈。3)进行评分后审查,以更好地确保准确性和公平性。此外,我们收集了一个名为OS的新数据集,来自一门大学操作系统课程,并在我们的新数据集和广泛使用的Mohler数据集上进行了大量实验。实验证明了我们提出的方法的有效性,为基于LLMs开发自动评分系统提供了一些新的见解。

论文链接: https://arxiv.org/pdf/2405.19694

cs.AI: 知识图谱调优:基于人类反馈的实时大语言模型个性化

原标题: Knowledge Graph Tuning: Real-time Large Language Model Personalization based on Human Feedback

作者: Jingwei Sun, Zhixu Du, Yiran Chen

机构: 杜克大学

摘要: 大语言模型(LLMs)已经在各种自然语言处理任务中展现出了非凡的熟练度。一旦部署,LLMs会遇到具有个性化事实知识的用户,并且这种个性化知识会通过用户与LLMs的互动持续地得到体现。为了增强用户体验,实时模型个性化至关重要,使LLMs能够根据人-LLM互动中用户的反馈来调整用户特定的知识。现有方法大多需要反向传播来微调模型参数,这会带来高计算和内存成本。此外,这些方法存在着低可解释性,这会在长期使用过程中对模型性能造成不可预见的影响,因为用户的个性化知识会不断积累。为了解决这些挑战,我们提出了知识图调整(KGT)的新方法,该方法利用知识图(KGs)来个性化LLMs。KGT从用户的查询和反馈中提取个性化的事实知识三元组,并优化知识图,而无需修改LLM参数。我们的方法通过避免反向传播来提高计算和内存效率,并通过使知识图调整对人类可理解来确保可解释性。对包括GPT-2、Llama2和Llama3在内的最先进的LLMs进行的实验表明,KGT显著提高了个性化性能,同时降低了延迟和GPU内存成本。最终,KGT为用户与LLMs互动期间的实时LLM个性化提供了一种有效、高效和可解释的解决方案。

论文链接: https://arxiv.org/pdf/2405.19686

其他链接: http://extensively.To

cs.AI: 使用相互传输集成实现准确可靠的预测

原标题: Accurate and Reliable Predictions with Mutual-Transport Ensemble

作者: Han Liu, Peng Cui, Bingning Wang, Jun Zhu, Xiaolin Hu

机构: 清华大学 百川科技

摘要: 深度神经网络(DNNs)在各种任务中取得了显著的成功,特别是在预测准确性方面。然而,在复杂的现实场景中,特别是在安全关键应用中,仅有高准确性是不够的。可靠的不确定性估计至关重要。现代DNNs通常使用交叉熵损失进行训练,往往在处理模糊样本时过于自信。为了改善不确定性校准,已经开发了许多技术,但它们往往会影响预测准确性。为了解决这一挑战,我们提出了“相互传输集成”(MTE)方法。该方法引入了一个共同训练的辅助模型,并通过主模型和辅助模型的预测分布之间的Kullback-Leibler(KL)散度来自适应地正则化交叉熵损失。我们对各种基准进行了广泛的研究,以验证我们方法的有效性。结果表明,MTE能够同时提高准确性和不确定性校准。例如,在CIFAR-100数据集上,我们的MTE方法在ResNet34/50上相对于先前的最先进方法取得了显著的改进,绝对准确性提高了2.4%/3.7%,ECE的相对减少为42.3%/29.4%,类别ECE的相对减少为11.6%/15.3%。

论文链接: https://arxiv.org/pdf/2405.19656

cs.AI: 释放医学多模态预训练中空间和时间信息的力量

原标题: Unlocking the Power of Spatial and Temporal Information in Medical Multimodal Pre-training

作者: Jinxia Yang, Bing Su, Wayne Xin Zhao, Ji-Rong Wen

机构: 清华大学 哈尔滨工业大学

摘要: 医学视觉语言预训练方法主要利用医学图像和放射学报告之间的对应关系。尽管现成的多模态医学数据集中提供了多视角空间图像和图像-报告对的时间序列,但大多数现有方法并没有充分利用这些广泛的监督信号。在本文中,我们介绍了Med-ST框架,用于对细粒度空间和时间建模,以利用胸部X光多个空间视图和时间历史记录的信息。对于空间建模,Med-ST采用了Mixture of View Expert (MoVE)架构,以整合来自前后视图的不同视觉特征。为了实现更全面的对齐,Med-ST不仅建立了整个图像和文本之间的全局对齐,还引入了文本标记和图像空间区域之间的模态加权局部对齐。对于时间建模,我们提出了一种新颖的跨模态双向循环一致性目标,通过正向映射分类(FMC)和反向映射回归(RMR)来实现。通过从简单到复杂地感知时间信息,Med-ST可以学习时间语义。跨四个不同任务的实验结果表明了Med-ST的有效性,特别是在时间分类任务中。我们的代码和模型可在此网址获得。

论文链接: https://arxiv.org/pdf/2405.19654

Github: https://github.com/SVT-Yang/MedST

cs.AI: 基于多尺度图卷积滤波的少样本故障诊断技术,用于工业领域。

原标题: Few-shot fault diagnosis based on multi-scale graph convolution filtering for industry

作者: Mengjie Gan, Penglong Lian, Zhiheng Su, Jiyang Zhang, Jialong Huang, Benhao Wang, Jianxiao Zou, Shicai Fan

机构: 彭道尔伯恩大学

摘要: 工业设备故障诊断经常面临诸如故障数据稀缺、复杂的操作条件和各种类型的故障等挑战。在这些条件下,信号分析、数据统计学习和传统的深度学习技术由于对大量数据的需求以及需要进行迁移学习以适应新的故障模式而受到限制。为了在有限样本条件下有效利用信息并提取不同领域中故障的固有特征,本文介绍了一种采用多尺度图卷积滤波(MSGCF)的故障诊断方法。MSGCF通过在图卷积滤波器块内集成本地和全局信息融合模块,增强了传统的图神经网络(GNN)框架。这一进展有效地减轻了与图卷积层过多堆叠相关的过度平滑问题,同时保留了广泛的感受野。它还减少了在少样本诊断中过拟合的风险,从而增强了模型的表征能力。对帕德博恩大学轴承数据集(PU)的实验表明,本文提出的MSGCF方法在准确性上超过了替代方法,为少样本学习场景中的工业故障诊断提供了有价值的见解。

论文链接: https://arxiv.org/pdf/2405.19642

cs.AI: 利用开源大型语言模型,使用智能路由器对健康社会决定因素进行编码。

原标题: Leveraging Open-Source Large Language Models for encoding Social Determinants of Health using an Intelligent Router

作者: Akul Goel, Surya Narayanan Hari, Belinda Waltman, Matt Thomson

机构: 加州理工学院 洛杉矶县卫生服务部

摘要: 社会健康决定因素(SDOH)在患者健康结果中起着重要作用。疾病控制中心(CDC)引入了一组名为Z-码的ICD-10编码的子集,以正式承认和衡量卫生保健系统中的SDOH。然而,这些代码很少在患者的电子健康记录(EHR)中进行注释,而在许多情况下,需要从临床记录中推断出来。先前的研究表明,大型语言模型(LLMs)在从EHR中提取非结构化数据方面表现出了潜力。然而,由于有成千上万种具有独特架构和训练集的模型可供选择,很难选择一个在编码任务上表现最佳的模型。此外,临床记录包含可信的健康信息,这使得使用商业供应商的闭源语言模型变得困难,因此,识别可以在卫生机构内运行并在SDOH任务上表现出高性能的开源LLMs是一个紧迫的问题。在这里,我们介绍了一种智能路由系统,用于SDOH编码,该系统使用语言模型路由器将医疗记录数据定向到展现出特定SDOH代码上最佳性能的开源LLMs。智能路由系统在5个代码上表现出97.4%的准确性,包括无家可归和食品不安全,与GPT-4o等闭源模型相当。为了训练路由系统和验证模型,我们还引入了一种合成数据生成和验证范式,以增加训练数据的规模,而无需隐私保护的医疗记录。总之,我们展示了一种智能路由架构,将输入路由到任务最优语言模型,以实现在一组医疗编码子任务中的高性能。

论文链接: https://arxiv.org/pdf/2405.19631

cs.AI: 关系建模和蒸馏,用于学习带有嘈杂标签的数据

原标题: Relation Modeling and Distillation for Learning with Noisy Labels

作者: Xiaming Che, Junlin Zhang, Zhuang Qi, Xin Qi

机构: 汕头大学 山东大学 苏州科技大学

摘要: 学习带有嘈杂标签已成为增强模型鲁棒性的有效策略,使模型能够更好地容忍不准确的数据。现有方法要么专注于优化损失函数以减轻噪声干扰,要么设计程序来检测潜在噪声并纠正错误。然而,由于模型过度拟合嘈杂标签而导致的表征学习困境通常会削弱它们的有效性。为解决这一问题,本文提出了一种关系建模和蒸馏框架,通过自监督学习模拟样本间关系,并利用知识蒸馏增强对潜在关联的理解,从而减轻嘈杂标签的影响。具体而言,所提出的方法,称为RMDNet,包括两个主要模块,其中关系建模(RM)模块实施对所有数据学习表示的对比学习技术,这是一种有效消除噪声标签对特征提取干扰的无监督方法。关系引导的表示学习(RGRL)模块利用从RM模块学习的样本间关系来校准嘈杂样本的表示分布,从而能够提高模型在推理阶段的泛化能力。值得注意的是,所提出的RMDNet是一个即插即用的框架,可以将多种方法整合到其中以获得优势。在两个数据集上进行了大量实验,包括性能比较、消融研究、深入分析和案例研究。结果显示,RMDNet能够为嘈杂数据学习出有区分性的表示,从而比现有方法表现出更优异的性能。

论文链接: https://arxiv.org/pdf/2405.19606

cs.AI:OccSora:4D占据生成模型作为自动驾驶的世界模拟器

原标题: OccSora: 4D Occupancy Generation Models as World Simulators for Autonomous Driving

作者: Lening Wang, Wenzhao Zheng, Yilong Ren, Han Jiang, Zhiyong Cui, Haiyang Yu, Jiwen Lu

机构: 北航大学 清华大学 加州大学伯克利分校

摘要: 理解3D场景的演变对于有效的自动驾驶至关重要。虽然传统方法通过个体实例的运动模拟场景的发展,但世界模型作为一种生成性框架出现,用于描述一般场景动态。然而,大多数现有方法采用自回归框架进行下一个标记的预测,这种方法在建模长期时间演变方面效率低下。为了解决这个问题,我们提出了一种基于扩散的4D占据生成模型OccSora,用于模拟自动驾驶的3D世界发展。我们使用4D场景标记器来获取紧凑的离散时空表示,用于4D占据输入,并实现长序列占据视频的高质量重建。然后,我们在时空表示上学习扩散Transformer,并生成基于轨迹提示的4D占据。我们在广泛使用的nuScenes数据集上进行了大量实验,使用Occ3D占据注释。OccSora可以生成真实的3D布局和时间一致性的16秒视频,展示了其理解驾驶场景的空间和时间分布的能力。通过轨迹感知的4D生成,OccSora有潜力成为自动驾驶决策的世界模拟器。代码可在此 https URL 获取。

论文链接: https://arxiv.org/pdf/2405.20337

Github: https://github.com/wzzheng/OccSora

cs.AI: CoSy:评估神经元的文本解释

原标题: CoSy: Evaluating Textual Explanations of Neurons

作者: Laura Kopf, Philine Lou Bommer, Anna Hedström, Sebastian Lapuschkin, Marina M.-C. Höhne, Kirill Bykov

机构: ATB波茨坦大学 德国 波茨坦大学 TU柏林大学 德国 弗劳恩霍夫亨利赫兹研究所 BIFOLD

摘要: 理解深度神经网络(DNNs)复杂性的一个关键方面是能够解释它们潜在表示中学习到的概念。虽然存在各种方法将神经元连接到人类可理解概念的文本描述,但由于缺乏统一的通用定量评估方法,评估这些解释方法的质量在该领域中构成了一个重大挑战。在这项工作中,我们介绍了 CoSy(Concept Synthesis)-- 一个新颖的、与架构无关的框架,用于评估潜在神经元的文本解释质量。在给定文本解释的情况下,我们提出的框架利用一个以文本输入为条件的生成模型来创建代表文本解释的数据点。然后,将神经元对这些解释数据点的响应与对控制数据点的响应进行比较,从而提供给定解释的质量估计。我们通过一系列元评估实验确保了我们提出的框架的可靠性,并通过对计算机视觉任务的基准测试中各种基于概念的文本解释方法的见解,展示了实际价值,表明测试的解释方法在质量上存在显著差异。

论文链接: https://arxiv.org/pdf/2405.20331

cs.AI: 4DHands:使用Transformer在4D中重建交互式手部

原标题: 4DHands: Reconstructing Interactive Hands in 4D with Transformers

作者: Dixuan Lin, Yuxiang Zhang, Mengcheng Li, Yebin Liu, Wei Jing, Qi Yan, Qianying Wang, Hongwen Zhang

机构: 北京师范大学 清华大学 联想

摘要: 在本文中,我们介绍了4DHands,这是一种从单目输入中恢复交互式手部网格及其相对运动的稳健方法。我们的方法解决了以往方法的两个主要局限性:缺乏处理各种手部图像输入的统一解决方案,以及忽视图像中两只手的位置关系。为了克服这些挑战,我们开发了基于Transformer的架构,具有新颖的tokenization和特征融合策略。具体而言,我们提出了一种关系感知的双手tokenization(RAT)方法,将位置关系信息嵌入手部token中。通过这种方式,我们的网络可以处理单手和双手输入,并明确利用相对手部位置,有助于在现实场景中重建复杂的手部交互。由于这种tokenization指示了两只手的相对关系,它还支持更有效的特征融合。为此,我们进一步开发了一个时空交互推理(SIR)模块,用注意力融合4D中的手部token,并将其解码为3D手部网格和相对时间运动。我们的方法的有效性在几个基准数据集上得到了验证。在野外视频和现实场景中的结果表明,我们的方法在交互式手部重建方面表现出卓越的性能。更多视频结果可以在项目页面找到:https://此URL。

论文链接: https://arxiv.org/pdf/2405.20330

Github: https://4dhands.github.io

cs.AI:

S

3

\textit{S}^3

S3高斯:自监督街道高斯用于自动驾驶

原标题:

S

3

\textit{S}^3

S3Gaussian: Self-Supervised Street Gaussians for Autonomous Driving

作者: Nan Huang, Xiaobao Wei, Wenzhao Zheng, Pengju An, Ming Lu, Wei Zhan, Masayoshi Tomizuka, Kurt Keutzer, Shanghang Zhang

摘要: 街景的逼真三维重建是开发自动驾驶真实世界模拟器的关键技术。尽管神经辐射场(NeRF)在驾驶场景中的有效性,但三维高斯飞溅(3DGS)因其更快的速度和更明确的表示而成为一个有前途的方向。然而,大多数现有的街道3DGS方法需要跟踪的三维车辆边界框来分解静态和动态元素以进行有效重建,从而限制了它们在野外场景中的应用。为了促进高效的三维场景重建而无需昂贵的注释,我们提出了一种自监督的街道高斯(

S

3

\textit{S}^3

S3Gaussian)方法,以从四维一致性中分解动态和静态元素。我们用三维高斯来表示每个场景以保留明确性,并进一步配备了一个时空场网络来紧凑地建模四维动态。我们在具有挑战性的Waymo-Open数据集上进行了大量实验,以评估我们方法的有效性。我们的

S

3

\textit{S}^3

S3Gaussian展示了分解静态和动态场景的能力,并在不使用三维注释的情况下取得了最佳性能。代码可在此 https URL 上获得。

论文链接: https://arxiv.org/pdf/2405.20323

Github: https://github.com/nnanhuang/S3Gaussian/

cs.AI: 改进修正流的训练

原标题: Improving the Training of Rectified Flows

作者: Sangyun Lee, Zinan Lin, Giulia Fanti

机构: 卡内基梅隆大学 微软研究院

摘要: 扩散模型已经展现出在图像和视频生成方面具有巨大潜力,但从最先进的模型中进行采样需要对生成ODE进行昂贵的数值积分。解决这个问题的一种方法是修正流,它们迭代地学习平滑的ODE路径,不太容易受到截断误差的影响。然而,修正流仍然需要相对较多的函数评估(NFEs)。在这项工作中,我们提出了改进的技术来训练修正流,使它们能够在低NFE设置中与知识蒸馏方法竞争。我们的主要见解是,在现实设置下,使用 Reflow 算法进行修正流训练的单次迭代就足以学习几乎直线轨迹;因此,目前使用多次 Reflow 迭代的做法是不必要的。因此,我们提出了改进修正流一轮训练的技术,包括 U形时间步长分布和 LPIPS-Huber 预度量。借助这些技术,在 CIFAR-10 上的 1 NFE 设置中,我们将之前的 2-修正流的 FID 改进了高达 72%。在 ImageNet 64×64 上,我们改进的修正流在一步和两步设置中均优于最先进的蒸馏方法,如一致性蒸馏和渐进蒸馏,并且在 FID 上与改进的一致性训练(iCT)的性能相媲美。代码可在此 https URL 找到。

论文链接: https://arxiv.org/pdf/2405.20320

Github: https://github.com/sangyun884/rfpp

cs.AI: ParSEL:使用语言进行参数化形状编辑

原标题: ParSEL: Parameterized Shape Editing with Language

作者: Aditya Ganeshan, Ryan Y. Huang, Xianghao Xu, R. Kenny Jones, Daniel Ritchie

机构: 布朗大学 美国

摘要: 能够通过自然语言编辑3D资产的能力,为促进3D内容创作的民主化提供了一个引人注目的范例。然而,虽然自然语言通常有效地传达一般意图,但并不适合精确规定操作。为了解决这一问题,我们引入了 ParSEL,这是一个能够通过自然语言实现对高质量3D资产进行可控编辑的系统。给定一个分割的3D网格和一个编辑请求,ParSEL会生成一个参数化的编辑程序。调整程序参数允许用户精确控制编辑的幅度,从而探索形状变化。为了推断与输入编辑请求相符的编辑程序,我们利用了大型语言模型(LLMs)的能力。然而,我们发现LLMs擅长识别初始编辑操作,但通常无法推断完整的编辑程序,并且产生的输出违反了形状语义。为了克服这一问题,我们引入了分析编辑传播(AEP),这是一种算法,它通过额外的操作扩展种子编辑,直到形成完整的编辑程序。与以往的方法不同,AEP通过集成计算机代数系统进行几何分析,搜索与一系列可能的用户编辑兼容的分析编辑操作。在实验中,我们证明了ParSEL通过自然语言请求,相对于其他系统设计,能够有效地实现对3D对象的可控编辑。

论文链接: https://arxiv.org/pdf/2405.20319

cs.AI: DITTO-2:音乐生成的蒸馏扩散推理时间 T 优化

原标题: DITTO-2: Distilled Diffusion Inference-Time T-Optimization for Music Generation

作者: Zachary Novack, Julian McAuley, Taylor Berg-Kirkpatrick, Nicholas Bryan

机构: 加利福尼亚大学圣地亚哥分校 Adobe Research

摘要: 可控音乐生成方法对基于人工智能的音乐创作至关重要,但目前受限于速度、质量和控制设计的权衡。特别是扩散推断时间 T 优化(DITTO)提供了最先进的结果,但比实时慢了超过10倍,限制了实际应用。我们提出了蒸馏扩散推断时间 T 优化(或 DITTO-2),这是一种加速推断时间优化控制并解锁比实时更快生成的新方法,适用于诸如音乐修补、扩展、强度、旋律和音乐结构控制等各种应用。我们的方法通过(1)通过高效的修改一致性或一致性轨迹蒸馏过程对预训练的扩散模型进行蒸馏,以实现快速抽样(2)使用我们的蒸馏模型进行推断时间优化,采用一步抽样作为高效的替代优化任务,以及(3)使用我们估计的噪声潜变量进行最佳质量、快速、可控生成的最终多步抽样生成(解码)。通过彻底评估,我们发现我们的方法不仅加速了生成速度超过10-20倍,同时还同时提高了控制粘附性和生成质量。此外,我们将我们的方法应用到最大化文本粘附度(CLAP 分数)的新应用,并展示我们可以将无条件扩散模型转换为产生最先进文本控制的模型。声音示例可在此 https URL 找到。

论文链接: https://arxiv.org/pdf/2405.20289

Github: https://ditto-music.github.io/ditto2/

cs.AI: 灵活的 SE(2) 图神经网络及其在偏微分方程代理模型中的应用

原标题: Flexible SE(2) graph neural networks with applications to PDE surrogates

作者: Maria Bånkestad, Olof Mogren, Aleksis Pirinen

机构: 斯德哥尔摩大学 瑞典皇家理工学院

摘要: 本文提出了一种新颖的方法,用于构建对2D旋转和平移等变的图神经网络,并利用它们作为非网格域上的PDE替代物。我们展示了将表示与主轴对齐可以让我们规避许多约束,同时保持SE(2)等变性。通过将我们的模型应用为流体流动模拟的替代物,并对非等变模型进行彻底的基准测试,我们展示了在数据效率和准确性方面取得的显著收益。

论文链接: https://arxiv.org/pdf/2405.20287

cs.AI: CV-VAE:一种用于潜在生成视频模型的兼容视频VAE

原标题: CV-VAE: A Compatible Video VAE for Latent Generative Video Models

作者: Sijie Zhao, Yong Zhang, Xiaodong Cun, Shaoshu Yang, Muyao Niu, Xiaoyu Li, Wenbo Hu, Ying Shan

机构: 腾讯AI实验室

摘要: 视频的时空压缩,利用诸如变分自动编码器(VAE)等网络,在 OpenAI 的 SORA 和许多其他视频生成模型中起着至关重要的作用。例如,许多类似大语言模型(LLM)的视频模型在 VQVAE 框架中学习来自 3D VAE 的离散 Token 分布,而大多数基于扩散的视频模型捕获由 2D VAE 提取的连续潜在空间分布而无需量化。时间压缩简单地通过均匀帧采样实现,导致相邻帧之间的运动不平滑。目前,在研究界缺乏一个常用的连续视频(3D)VAE,用于扩散式视频模型的潜在空间。此外,由于当前的扩散式方法通常使用预训练的文本到图像(T2I)模型实现,直接训练视频VAE而不考虑与现有T2I模型的兼容性将导致它们之间存在潜在空间差距,即使使用T2I模型作为初始化,也需要大量计算资源来弥合这一差距。为了解决这个问题,我们提出了一种用于训练视频VAE的方法,即 CV-VAE,其潜在空间与给定图像VAE(例如 Stable Diffusion(SD)的图像VAE)兼容。通过提出的新颖潜在空间正则化,实现了兼容性,其中包括使用图像VAE制定正则化损失。由于潜在空间的兼容性,视频模型可以在真正的时空压缩潜在空间中无缝地从预训练的T2I或视频模型中进行训练,而不仅仅是在等间隔采样视频帧。有了我们的CV-VAE,现有视频模型可以在最小微调的情况下生成四倍更多的帧。进行了大量实验来证明所提出的视频VAE的有效性。

论文链接: https://arxiv.org/pdf/2405.20279

cs.AI: 深度SSM架构的长度无关泛化界限与稳定性约束

原标题: Length independent generalization bounds for deep SSM architectures with stability constraints

作者: Dániel Rácz, Mihály Petreczky, Bálint Daróczy

机构: HUN-REN SZTAKI ELTE Univ. Lille CNRS Centrale Lille UMR 9189 CRIStAL

摘要: 许多最先进的长序列训练模型,例如S4、S5或LRU,由将状态空间模型(SSMs)与神经网络相结合的顺序块组成。在本文中,我们提供了一个适用于这类具有稳定SSM块的体系结构的PAC界限,该界限不依赖于输入序列的长度。在文献中,强加SSM块的稳定性是一种标准做法,已知它有助于性能。我们的结果为使用稳定SSM块提供了理论上的理由,因为所提出的PAC界限随着SSM块稳定度的增加而减小。

论文链接: https://arxiv.org/pdf/2405.20278

cs.AI: 训练高效的密度量子机器学习

原标题: Training-efficient density quantum machine learning

作者: Brian Coyle, El Amine Cherrat, Nishant Jain, Natansh Mathur, Snehal Raj, Skander Kazdaghli, Iordanis Kerenidis

机构: QC Ware 印度理工学院 IRIF CNRS - 巴黎大学

摘要: 量子机器学习需要强大、灵活和高效可训练的模型才能成功解决具有挑战性的问题。在这项工作中,我们提出了密度量子神经网络,这是一种学习模型,它将一组可训练的酉矩阵进行随机化。这些模型通过参数化量子电路泛化了量子神经网络,并允许在量子硬件上在表达能力和高效训练性之间进行权衡。我们通过将其应用于两种最近提出的模型族来展示这种形式的灵活性。第一种是交换块量子神经网络(QNNs),它们具有高效的可训练性,但在表达能力上可能受到限制。第二种是正交(保持汉明权重)量子神经网络,它们在数据上提供了明确定义和可解释的转换,但在量子设备上的大规模训练具有挑战性。密度交换 QNNs 提高了容量,几乎没有梯度复杂度开销,而密度正交神经网络具有二次到常数梯度查询优势,并且几乎没有性能损失。我们进行了关于合成平移不变数据和 MNIST 图像数据的数值实验,并进行了超参数优化以支持我们的发现。最后,我们讨论了与后变分量子神经网络、基于测量的量子机器学习和辍学机制的联系。

论文链接: https://arxiv.org/pdf/2405.20237

cs.AI: Grokfast: 通过放大慢梯度来加速领悟

原标题: Grokfast: Accelerated Grokking by Amplifying Slow Gradients

作者: Jaerin Lee, Bong Gyun Kang, Kihoon Kim, Kyoung Mu Lee

机构: 首尔国立大学 ASRI 电子与通信工程系 人工智能跨学科项目 ironjr luckypanda kihoon96 kyoungmu

摘要: 在机器学习中,被称为“领悟”(grokking)的一个令人困惑的现象是,在接近完美地过拟合训练数据后,延迟泛化是在经过数倍迭代后才实现的。我们的目标是加速在“领悟”现象下模型的泛化,而不是专注于机器学习从业者本身的长时间延迟。通过将参数在训练迭代中的一系列梯度视为随时间变化的随机信号,我们可以将梯度下降下的参数轨迹谱分解为两个部分:快速变化、导致过拟合的部分和慢速变化、引发泛化的部分。这种分析使我们能够通过只有几行代码来加速“领悟”现象超过50倍,这些代码放大了梯度的慢速变化部分。实验证明,我们的算法适用于涉及图像、语言和图表的多样任务,使得这种突然泛化的特殊现象在实践中变得可用。我们的代码可以在 \url{this https URL} 上找到。

论文链接: https://arxiv.org/pdf/2405.20233

Github: https://github.com/ironjr/grokfast

cs.AI: 神经参数对称性的实证影响,或其缺乏

原标题: The Empirical Impact of Neural Parameter Symmetries, or Lack Thereof

作者: Derek Lim, Moe Putterman, Robin Walters, Haggai Maron, Stefanie Jegelka

机构: 麻省理工学院 加州大学伯克利分校 东北大学 特拉维夫大学 德国慕尼黑工业大学

摘要: 许多深度学习中的算法和观察到的现象似乎受参数对称性的影响——即神经网络参数的变换不会改变基础神经网络功能。这些包括线性模连接、模型合并、贝叶斯神经网络推断、元网络以及优化或损失空间的其他特征。然而,关于参数空间对称性与这些现象之间关系的理论分析是困难的。在这项工作中,我们通过引入具有减少参数空间对称性的新神经网络架构,从经验上研究神经参数对称性的影响。我们开发了两种方法,并提供了一些可证明的保证,用于修改标准神经网络以减少参数空间对称性。利用这些新方法,我们进行了一项包括多个任务的全面实验研究,旨在评估去除参数对称性的影响。我们的实验揭示了关于参数对称性的几个有趣观察结果;例如,我们观察到我们的网络之间存在线性模连接,而无需对齐权重空间,我们发现我们的网络允许更快、更有效的贝叶斯神经网络训练。

论文链接: https://arxiv.org/pdf/2405.20231

cs.AI: MOFA-Video:通过在冻结图像到视频扩散模型中进行生成运动场适应来实现可控图像动画

原标题: MOFA-Video: Controllable Image Animation via Generative Motion Field Adaptions in Frozen Image-to-Video Diffusion Model

作者: Muyao Niu, Xiaodong Cun, Xintao Wang, Yong Zhang, Ying Shan, Yinqiang Zheng

机构: 东京大学 腾讯 AI 实验室

摘要: 我们提出了 MOFA-Video,这是一种先进的可控图像动画方法,它利用各种额外的可控信号(如人类地标参考、手动轨迹和另一个甚至提供的视频)或它们的组合从给定图像生成视频。这与以前的方法不同,以前的方法只能在特定的运动领域工作,或者在扩散先验条件下显示出弱的控制能力。为了实现我们的目标,我们设计了几个领域感知的运动场适配器(即 MOFA-Adapters),以控制视频生成管道中的生成运动。对于 MOFA-Adapters,我们考虑视频的时间运动一致性,并首先从给定的稀疏控制条件生成密集的运动流,然后将给定图像的多尺度特征包装为稳定视频扩散生成的引导特征。我们分别为手动轨迹和人类地标训练了两个运动适配器,因为它们都包含有关控制的稀疏信息。训练后,不同领域的 MOFA-Adapters 也可以共同工作,实现更可控的视频生成。

论文链接: https://arxiv.org/pdf/2405.20222

cs.AI: 通过AI反馈直接优化偏好,提升您自己的人类图像生成模型

原标题: Boost Your Own Human Image Generation Model via Direct Preference Optimization with AI Feedback

作者: Sanghyeon Na, Yonggyu Kim, Hyunjoon Lee

机构: Kakao Brain

摘要: 通过文本到图像(T2I)方法生成高质量的人类图像是一项重要但具有挑战性的任务。与一般图像生成不同,人类图像合成必须满足与人体姿势、解剖和与文本提示的对齐相关的严格标准,这使得实现逼真结果特别困难。基于扩散模型的T2I生成的最新进展显示出了希望,但在满足人类特定偏好方面仍然存在挑战。在本文中,我们介绍了一种专门针对人类图像生成的新方法,利用直接偏好优化(DPO)。具体地,我们介绍了一种用于训练人类图像生成模型的专门DPO数据集构建的高效方法,而无需昂贵的人类反馈。我们还提出了一种改进的损失函数,通过最小化伪影和提高图像保真度来增强DPO训练过程。我们的方法展示了其在生成人类图像方面的多功能性和有效性,包括个性化的文本到图像生成。通过全面评估,我们展示了我们的方法在人类图像生成领域取得了显著进展,在自然解剖、姿势和文本图像对齐方面取得了优越的结果。

论文链接: https://arxiv.org/pdf/2405.20216

cs.AI: Nadine: 一个由大语言模型驱动的智能社交机器人,具有情感能力和类人记忆

原标题: Nadine: An LLM-driven Intelligent Social Robot with Affective Capabilities and Human-like Memory

作者: Hangyeol Kang, Maher Ben Moussa, Nadia Magnenat-Thalmann

机构: 日内瓦大学 瑞士 Centre Universitaire d’Informatique

摘要: 在这项工作中,我们描述了我们开发智能和稳健的社交机器人系统的方法,该系统用于 Nadine 社交机器人平台。我们通过集成大语言模型(LLMs)并巧妙地利用这些类型模型的强大推理和指令遵循能力,实现了先进的类人情感和认知能力。与当前最先进的基于LLM的代理不实现类人长期记忆或复杂情感评估相比,这种方法是新颖的。社交机器人的自然性,由多个模块组成,高度依赖于系统的每个组件的性能和能力以及组件的无缝集成。我们构建了一个社交机器人系统,通过多模态输入处理实现生成适当行为,根据识别的用户带来情节性记忆,并模拟机器人与人类伙伴互动引起的情感状态。特别是,我们引入了一个用于社交机器人的LLM-代理框架,SoR-ReAct,在我们的系统中作为交互模块的核心组件。这种设计推动了社交机器人的进步,并旨在提高人机交互的质量。

论文链接: https://arxiv.org/pdf/2405.20189

cs.AI: 使用Transformer和槽编码进行高效物理世界建模

原标题: Transformers and Slot Encoding for Sample Efficient Physical World Modelling

作者: Francesco Petri, Luigi Asprino, Aldo Gangemi

机构: 罗马国家研究委员会认知科学与技术研究所 伯罗奎尼大学和ISTC-CNR

摘要: 世界建模,即构建一个代表世界规则的表示,以预测其演变,对于任何与物理世界互动的智能体来说都是必不可少的能力。最近将Transformer架构应用于从视频输入进行世界建模的应用显示出了样本效率的显著提高。然而,现有方法往往只在图像级别工作,因此忽略了环境由相互作用的对象组成这一事实。在本文中,我们提出了一种将Transformer用于世界建模与槽注意范式相结合的架构,这是一种学习场景中出现的对象表示的方法。我们描述了由此产生的神经架构,并报告了实验结果,显示出在样本效率和训练示例的性能变化减少方面优于现有解决方案。我们的架构和实验的代码可在此https URL上找到。

论文链接: https://arxiv.org/pdf/2405.20180

Github: https://github.com/torchipeppo/transformers-and-slot-encoding-for-wm

cs.AI: LLaMEA:用于自动生成元启发式算法的大语言模型进化算法

原标题: LLaMEA: A Large Language Model Evolutionary Algorithm for Automatically Generating Metaheuristics

作者: Niki van Stein, Thomas Bäck

机构: IEEE 中国科学院计算技术研究所

摘要: 大语言模型(LLMs)如GPT-4已经证明了它们具有理解自然语言和生成复杂代码片段的能力。本文介绍了一种新颖的大语言模型进化算法(LLaMEA)框架,利用GPT模型自动生成和优化算法。给定一组标准和任务定义(搜索空间),LLaMEA迭代地生成、变异和选择算法,基于性能指标和运行时评估的反馈。该框架提供了一种独特的方法,可以生成优化的算法,而无需广泛的先前专业知识。我们展示了该框架如何用于自动生成新的黑盒元启发式优化算法。LLaMEA生成了多个算法,这些算法在五维黑盒优化基准(BBOB)上胜过了最先进的优化算法(协方差矩阵适应进化策略和差分进化)。结果证明了该框架的可行性,并确定了通过LLMs自动生成和优化算法的未来方向。

论文链接: https://arxiv.org/pdf/2405.20132

cs.AI: 使用压缩和动量跟踪实现近乎最优的分散式优化

原标题: Near Optimal Decentralized Optimization with Compression and Momentum Tracking

作者: Rustem Islamov, Yuan Gao, Sebastian U. Stich

机构: 巴塞尔大学 CISPA†

摘要: 通信效率已经引起了重大关注,因为它被认为是分布式和联邦设置中大规模分散式机器学习应用的主要瓶颈。在这种情况下,客户端受限于向其邻居传输少量量化信息的通信图。已经进行了大量努力来解决这一具有挑战性的问题,通过开发具有压缩通信的算法来处理分散式非凸优化问题。尽管付出了相当大的努力,但当前的结果存在各种问题,如与客户端数量的不可扩展性、对大批量的要求,或者有界梯度假设。在本文中,我们介绍了MoTEF,这是一种将通信压缩与动量跟踪和误差反馈相结合的新方法。我们的分析表明,MoTEF实现了大部分期望的性质,并且在任意数据异质性下显著优于现有方法。我们进行了数值实验来验证我们的理论发现,并确认了MoTEF的实际优越性。

论文链接: https://arxiv.org/pdf/2405.20114

cs.AI: 分段、洗牌和拼接:改进时间序列表示的简单机制

原标题: Segment, Shuffle, and Stitch: A Simple Mechanism for Improving Time-Series Representations

作者: Shivam Grover, Amin Jalali, Ali Etemad

机构: 女王大学 加拿大

摘要: 现有的学习时间序列表示的方法保持时间步的时间顺序不变,假设原始顺序对于学习来说是最优的。然而,现实世界时间序列的非相邻部分可能存在强烈的依赖关系。因此,我们提出一个问题:是否存在一种替代的时间序列排列方式,可以实现更有效的表示学习?为了解决这个问题,我们提出了一种简单的即插即用机制,称为Segment, Shuffle, and Stitch (S3),旨在改进现有模型的时间序列表示学习。S3通过从原始序列中创建非重叠的段,并以一种学习到的最适合当前任务的方式对它们进行洗牌。然后重新将洗牌后的段重新连接在一起,并对原始输入进行学习加权求和,以捕捉新洗牌序列和原始序列的信息。S3是模块化的,可以堆叠以创建各种粒度,并且可以添加到许多形式的神经架构,包括CNN或Transformer,计算开销可以忽略不计。通过对多个数据集和最先进的基线模型进行大量实验,我们展示了将S3纳入模型会显著改善时间序列分类和预测任务的性能,在某些数据集上性能提高了高达68%。我们还展示了S3使得学习更加稳定,训练损失曲线和损失曲面相比原始基线更加平滑。代码可在此网址获得。

论文链接: https://arxiv.org/pdf/2405.20082

Github: https://github.com/shivam-grover/S3-TimeSeries

cs.AI: NoiseBoost:通过噪声扰动缓解多模态大语言模型的幻觉

原标题: NoiseBoost: Alleviating Hallucination with Noise Perturbation for Multimodal Large Language Models

作者: Kai Wu, Boyuan Jiang, Zhengkai Jiang, Qingdong He, Donghao Luo, Shengzhi Wang, Qingwen Liu, Chengjie Wang

机构: 腾讯优图实验室 同济大学

摘要: 多模态大语言模型(MLLMs)为理解视觉信息提供了强大的机制,建立在大语言模型的基础上。然而,MLLMs 因生成图像的详细描述时容易出现幻觉而臭名昭著。我们的分析表明,幻觉源于大语言模型固有的总结机制,导致过度依赖语言标记而忽视视觉信息。在本文中,我们提出了NoiseBoost,这是一种广泛适用且简单的方法,通过集成噪声特征扰动来缓解MLLMs的幻觉。噪声扰动作为正则化器,促进视觉和语言标记之间注意权重的平衡分布。尽管简单,NoiseBoost 在常见的训练策略中始终提升MLLMs的性能,包括监督微调和强化学习。此外,NoiseBoost 首创地实现了MLLMs的半监督学习,释放了无标签数据的潜力。全面的实验证明,NoiseBoost 通过人类评估将密集字幕的准确性提高了8.1%,并通过挖掘无标签数据,在使用50%的数据时取得了可比较的结果。代码和模型可在此 https URL 获取。

论文链接: https://arxiv.org/pdf/2405.20081

Github: https://kaiwu5.github.io/noiseboost

cs.AI: 歌声的频谱映射:U-Net辅助的声乐分割

原标题: Spectral Mapping of Singing Voices: U-Net-Assisted Vocal Segmentation

作者: Adam Sorrenti

机构: 多伦多都会大学

摘要: 将人声元素与音乐曲目分离是音频信号处理中长期存在的挑战。本研究着手解决从音乐频谱图中分离人声组件的问题。我们利用短时傅里叶变换(STFT)将音频波形提取为详细的频率-时间频谱图,利用基准MUSDB18数据集进行音乐分离。随后,我们实现了一个UNet神经网络来分割频谱图像,旨在准确地勾画和提取歌声组件。我们使用基于U-Net的模型在音频源分离方面取得了显著的成果。在分离过程中,频率轴归一化与最小/最大缩放以及平均绝对误差(MAE)损失函数的组合实现了最高的信源失真比(SDR)达到了7.1 dB,表明在分离过程中保持原始信号质量的准确性较高。该设置还记录了令人印象深刻的信源干扰比(SIR)和信源伪像比(SAR)分别为25.2 dB和7.2 dB的得分。这些数值明显优于其他配置,特别是那些使用基于分位数的归一化或均方误差(MSE)损失函数的配置。我们的源代码、模型权重和演示材料可以在项目的GitHub存储库中找到:https://github.com/此处为项目的URL。

论文链接: https://arxiv.org/pdf/2405.20059

Github: https://github.com/mbrotos/SoundSeg

cs.AI: Promptus: 可以提示流取代视频流并实现稳定传播吗?

原标题: Promptus: Can Prompts Streaming Replace Video Streaming with Stable Diffusion

作者: Jiangkai Wu, Liming Liu, Yunpeng Tan, Junlin Hao, Xinggong Zhang

机构: 北京大学

摘要: 随着视频流量的指数增长,传统视频流系统在压缩效率和通信容量方面已接近极限。为了进一步降低比特率同时保持质量,我们提出了Promptus,这是一个颠覆性的新系统,它使用稳定扩散来传输提示而不是视频内容,将视频帧转换为一系列“提示”进行传输。为了确保像素对齐,我们提出了基于梯度下降的提示拟合框架。为了实现提示的自适应比特率,引入了基于低秩分解的比特率控制算法。针对提示的帧间压缩,我们提出了基于时间平滑的提示插值算法。对各种视频领域和真实网络跟踪的评估表明,与VAE和H.265相比,Promptus可以将感知质量提高0.111和0.092(以LPIPS为单位),并将严重失真帧的比例降低了89.3%和91.7%。此外,Promptus可以以超过150 FPS的速度实现从提示生成实时视频。据我们所知,Promptus是首次尝试用提示反演替代视频编解码器,并首次使用提示流而不是视频流。我们的工作开启了超越香农极限的高效视频通信新范式。

论文链接: https://arxiv.org/pdf/2405.20032

cs.AI: 生成式人工智能(GAI)在移动和无线网络中的应用:一项调查

原标题: Applications of Generative AI (GAI) for Mobile and Wireless Networking: A Survey

作者: Thai-Hoc Vu, Senthil Kumar Jagatheesaperumal, Minh-Duong Nguyen, Nguyen Van Huynh, Sunghwan Kim, Quoc-Viet Pham

机构: 清华大学 韩国科学技术院

摘要: 人工智能(AI)在近年来多个学科和垂直领域取得的成功推动了移动网络和未来互联网向着融合人工智能的物联网时代的发展。然而,大多数人工智能技术依赖于由物理设备(例如移动设备和网络节点)或特定应用程序(例如健身追踪器和移动游戏)生成的数据。为了规避这一限制,生成式人工智能(GAI),又称人工智能生成内容(AIGC),已经成为一种强大的人工智能范式;这要归功于它有效学习复杂数据分布并生成合成数据以呈现原始数据的能力。这一

论文链接: https://arxiv.org/pdf/2405.20024

cs.AI: DP-IQA:在野外利用扩散先验进行盲图像质量评估

原标题: DP-IQA: Utilizing Diffusion Prior for Blind Image Quality Assessment in the Wild

作者: Honghao Fu, Yufei Wang, Wenhan Yang, Bihan Wen

机构: 南洋理工大学 中国鹏城实验室

摘要: 图像质量评估(IQA)在选择高质量图像和指导一系列应用中的压缩和增强方法中起着关键作用。盲目的IQA评估野外图像的质量,这些图像包含复杂的真实失真,没有参考图像,因此面临更大的挑战。现有方法局限于对局部补丁进行均匀分布建模,并受到低级和高级视觉之间差距的困扰(这是由广泛采用的预训练分类网络引起的)。在本文中,我们提出了一种新颖的IQA方法,称为基于扩散先验的IQA(DP-IQA),它利用了来自预训练扩散模型的先验知识,以弥合图像视觉质量感知中的语义差距。具体而言,我们使用预训练的稳定扩散作为骨干,从去噪U-Net中提取多级特征,在指定的时间步骤进行上采样过程,并解码它们以估计图像质量分数。文本和图像适配器被采用以减轻下游任务的域差异,并纠正由变分自动编码器瓶颈引起的信息丢失。最后,我们将上述模型中的知识蒸馏到基于CNN的学生模型中,显著减少参数以增强适用性,令学生模型出人意料地表现出与教师模型相似甚至更好的性能。实验结果表明,我们的DP-IQA在各种野外数据集上取得了最先进的结果,具有更好的泛化能力,这显示了我们的方法在全局建模和利用扩散的分层特征线索来评估图像质量方面的优越性。

论文链接: https://arxiv.org/pdf/2405.19996

Github: https://github.com/RomGai/DP-IQA

cs.AI: 视频语言评论家:基于语言的机器人可转移奖励函数

原标题: Video-Language Critic: Transferable Reward Functions for Language-Conditioned Robotics

作者: Minttu Alakuijala, Reginald McLean, Isaac Woungang, Nariman Farsad, Samuel Kaski, Pekka Marttinen, Kai Yuan

机构: 阿尔托大学 多伦多都会大学 曼彻斯特大学 英特尔公司

摘要: 自然语言通常是人类为机器人指定任务最容易和最方便的方式。然而,学习将语言与行为联系起来通常需要大量多样化的、语言注释的演示,这些演示是在每个目标机器人上收集的,这是不切实际的。在这项工作中,我们的目标是将要完成的任务与如何完成任务分开,因为前者可以从大量的外部观察数据中受益,而后者只取决于特定的机器人实体。为此,我们提出了视频-语言评论家,这是一个奖励模型,可以使用对比学习和时间排序目标在现成的跨实体数据上进行训练,并将其用于对来自单独的强化学习执行者的行为轨迹进行评分。当在开放式跨实体数据上进行训练时,我们的奖励模型使元世界任务的策略训练比仅稀疏奖励要高效2倍,尽管存在显著的领域差距。在元世界上使用领域内数据,但在具有挑战性的任务泛化设置中,我们进一步展示了比先前的语言条件奖励模型更高效的训练,这些模型要么是用二元分类进行训练,要么使用静态图像,要么不利用视频数据中存在的时间信息。

论文链接: https://arxiv.org/pdf/2405.19988

cs.AI: 在外汇市场中,使用深度强化学习方法进行交易优化,采用多智能体异步分布。

原标题: A Deep Reinforcement Learning Approach for Trading Optimization in the Forex Market with Multi-Agent Asynchronous Distribution

作者: Davoud Sarani, Dr. Parviz Rashidi-Khazaee

机构: 达伊豪德·萨拉尼,帕尔维兹·拉希迪-卡扎伊

摘要: 在今天的外汇市场中,交易者越来越倾向于使用算法交易,利用计算机寻求更多利润。深度学习技术作为机器学习的前沿进展,能够识别金融数据中的模式。交易者利用这些模式执行更有效的交易,遵循算法交易规则。深度强化学习方法(DRL)通过直接根据识别的模式执行交易并评估其盈利能力,相对于传统的深度学习方法具有优势。本研究首次应用了一种多智能体(MA)强化学习框架,采用最先进的异步优势行动者-评论者(A3C)算法。所提出的方法采用多个异步工作者之间的并行学习,每个工作者专门负责跨多个货币对进行交易,以探索针对不同市场条件和货币对量身定制的细致策略的潜力。提出了两种不同的带锁和不带锁的A3C多智能体模型,并在单一货币和多货币上进行了训练。结果表明,两种模型在Proximal Policy Optimization模型上表现出色。带锁的A3C在单一货币训练场景中表现优于其他模型,而不带锁的A3C在多货币场景中表现优于其他模型。研究结果表明,这种方法有助于更广泛和更快速地探索不同货币对,显著提高交易回报。此外,智能体可以在更短的时间内学习到更有利可图的交易策略。

论文链接: https://arxiv.org/pdf/2405.19982

cs.AI: PLA4D:文本到4D高斯喷洒的像素级对齐

原标题: PLA4D: Pixel-Level Alignments for Text-to-4D Gaussian Splatting

作者: Qiaowei Miao, Yawei Luo, Yi Yang

机构: 浙江大学 清华大学

摘要: 随着文本条件扩散模型(DMs)在图像、视频和3D生成方面取得突破,研究界的关注重点已经转向更具挑战性的文本到4D合成任务,这引入了时间维度以生成动态3D对象。在这种背景下,我们确定得分蒸馏采样(SDS),这是一种广泛使用的用于文本到3D合成的技术,由于其具有双面性和纹理不真实问题以及高计算成本,它成为了文本到4D性能的重要障碍。在本文中,我们提出了\textbf{P}ixel-\textbf{L}evel \textbf{A}lignments for Text-to-\textbf{4D} Gaussian Splatting(\textbf{PLA4D}),这是一种利用文本到视频帧作为显式像素对齐目标来生成静态3D对象并将运动注入其中的新方法。具体而言,我们引入了焦点对齐来校准用于渲染的摄像机姿势,以及GS-Mesh对比学习,以从像素级别的渲染图像对比中提炼几何先验。此外,我们开发了使用变形网络的运动对齐来驱动高斯变化,并实现了参考细化以获得平滑的4D对象表面。这些技术使得4D高斯喷溅能够在像素级别与生成的视频对齐几何、纹理和运动。与以往方法相比,PLA4D在更短的时间内产生了具有更好纹理细节的合成输出,并有效地缓解了双面问题。PLA4D完全使用开源模型实现,为4D数字内容创建提供了一种易于访问、用户友好且有前景的方向。我们的项目页面:\href{this https URL}{this https URL}。

论文链接: https://arxiv.org/pdf/2405.19957

Github: https://github.com/MiaoQiaowei/PLA4D.github.io

cs.AI: MM-Lego: 具有最小微调的模块化生物医学多模态模型

原标题: MM-Lego: Modular Biomedical Multimodal Models with Minimal Fine-Tuning

作者: Konstantin Hemker, Nikola Simidjievski, Mateja Jamnik

摘要: 学习在物理、化学或生物系统中的整体计算表示需要能够在同一模型内处理来自不同分布和模态的信息。因此,对超越视觉和语言等模态的多模态机器学习模型的需求急剧上升,例如序列、图形、时间序列或表格数据。虽然有许多可用的多模态融合和对齐方法,但大多数需要端到端训练,随着模态数量的增加呈二次增长,无法处理训练集中模态不平衡的情况,或者具有高度特定拓扑结构,使其对许多生物医学学习任务过于限制。本文介绍了多模态乐高(MM-Lego),这是一个模块化和通用的融合和模型合并框架,可以将任何一组编码器转化为具有竞争力的多模态模型,而无需或只需进行最小程度的微调。我们通过引入一个对单模态编码器进行包装的方法来实现这一点,该方法强制实施模态之间的轻量级维度假设,并通过在频域学习特征来协调它们的表示,以实现具有较小信号干扰的模型合并。我们展示了 MM-Lego:1)可以用作模型合并方法,实现了与端到端融合模型相竞争的性能,无需进行任何微调;2)可以在任何单模态编码器上运行;3)是一种模型融合方法,通过最小程度的微调,在六个经过基准测试的多模态生物医学任务上实现了最先进的结果。

论文链接: https://arxiv.org/pdf/2405.19950

cs.AI: 学习潜在图结构及其不确定性

原标题: Learning Latent Graph Structures and their Uncertainty

作者: Alessandro Manenti, Daniele Zambon, Cesare Alippi

机构: 瑞士人工智能实验室IDSIA USI-SUPSI、瑞士意大利大学、米兰理工大学

摘要: 在预测任务中,图神经网络(GNNs)利用关系信息作为归纳偏差,以提高模型的准确性。由于任务相关的关系可能是未知的,因此提出了图结构学习方法来在解决下游预测任务的同时学习这些关系。本文证明了点预测损失函数(例如平均绝对误差)的最小化并不能保证潜在关系信息及其相关不确定性的正确学习。相反,我们证明了对随机模型输出使用适当的损失函数可以同时获得(i)未知邻接矩阵潜在分布和(ii)在预测任务上的最佳性能。最后,我们提出了一种基于抽样的方法来解决这一联合学习任务。实证结果验证了我们的理论观点,并证明了所提方法的有效性。

论文链接: https://arxiv.org/pdf/2405.19933

cs.AI: 探索在少样本微调中扩散模型的损坏阶段,并通过贝叶斯神经网络进行缓解

原标题: Exploring Diffusion Models’ Corruption Stage in Few-Shot Fine-tuning and Mitigating with Bayesian Neural Networks

作者: Xiaoyu Wu, Jiaru Zhang, Yang Hua, Bohan Lyu, Hao Wang, Tao Song, Haibing Guan

机构: 上海交通大学 清华大学 皇后大学贝尔法斯特分校 路易斯安那州立大学

摘要: 少样本微调扩散模型(DMs)是一项重要进展,显著降低了训练成本,并实现了个性化的人工智能应用。然而,我们探索了 DMs 的训练动态,并观察到一个意想不到的现象:在训练过程中,图像保真度起初会提高,然后出现了噪声模式,导致意外恶化,最终出现严重的过拟合才得以恢复。我们将生成噪声模式的阶段称为腐败阶段。为了理解这一腐败阶段,我们首先从理论上对一次性微调场景进行建模,然后将这种建模扩展到更一般的情况。通过这种建模,我们确定了这种腐败阶段的主要原因:在少样本微调的本质中存在着一个狭窄的学习分布。为了解决这个问题,我们在 DMs 上应用具有变分推断的贝叶斯神经网络(BNNs)来隐式地扩展学习分布,并表明 BNNs 的学习目标可以自然地被视为扩散损失的期望,并进一步与预训练的 DMs 进行正则化。这种方法与当前在 DMs 中的少样本微调方法高度兼容,并不会引入任何额外的推断成本。实验结果表明,我们的方法显著减轻了腐败现象,并改善了生成图像在以对象驱动和以主题驱动的生成任务中的保真度、质量和多样性。

论文链接: https://arxiv.org/pdf/2405.19931

cs.AI: 离线强化学习的自适应优势引导策略正则化

原标题: Adaptive Advantage-Guided Policy Regularization for Offline Reinforcement Learning

作者: Tenglong Liu, Yang Li, Yixing Lan, Hao Gao, Wei Pan, Xin Xu

机构: 清华大学 哈尔滨工业大学

摘要: 在离线强化学习中,超出分布(OOD)的挑战非常明显。为了解决这个问题,现有方法通常通过策略正则化来约束学习到的策略。然而,这些方法经常受到不必要保守性的问题困扰,阻碍了策略改进。这是由于对生成离线数据集的行为策略中的所有动作的不加区分的使用作为约束所导致的。当数据集的质量不佳时,这个问题尤为明显。因此,我们提出了自适应优势引导策略正则化(A2PR),通过从增强行为策略中获取高优势动作并结合VAE来指导学习到的策略。A2PR可以选择与数据集中不同的高优势动作,同时有效地保持来自OOD动作的保守性。这是通过利用VAE的能力生成与数据点分布匹配的样本来实现的。我们在理论上证明了行为策略的改进是有保证的。此外,它通过有界性能差距有效地减轻了价值高估。在实证方面,我们在D4RL基准测试上进行了一系列实验,A2PR展示了最先进的性能。此外,在额外的次优混合数据集上的实验结果表明,A2PR表现出更优越的性能。代码可在此 https URL 上找到。

论文链接: https://arxiv.org/pdf/2405.19909

Github: https://github.com/ltlhuuu/A2PR

cs.AI: 开放域适应语义分割

原标题: Open-Set Domain Adaptation for Semantic Segmentation

作者: Seun-An Choe, Ah-Hyung Shin, Keon-Hee Park, Jinwoo Choi, Gyeong-Moon Park

机构: 清华大学 韩国京畿大学

摘要: 无监督领域自适应(UDA)用于语义分割,旨在将标记源域的像素级知识转移到未标记的目标域。然而,当前的UDA方法通常假设源域和目标域之间存在共享的标签空间,这限制了它们在现实场景中的适用性,因为目标域可能会出现新类别。在本文中,我们首次提出了用于语义分割的开放域适应(OSDA-SS),其中目标域包括未知类别。我们确定OSDA-SS场景中的两个主要问题如下:1)现有的UDA方法难以准确预测未知类别的确切边界,2)它们无法准确预测未知类别的形状。为了解决这些问题,我们提出了边界和未知形状感知的开放域适应,命名为BUS。我们的BUS可以使用一种新颖的基于膨胀-侵蚀的对比损失以对比的方式准确区分已知和未知类别之间的边界。此外,我们提出了OpenReMix,一种新的域混合增强方法,指导我们的模型有效学习域和大小不变特征,以改善已知和未知类别的形状检测。通过大量实验证明,与以前的方法相比,我们提出的BUS在具有挑战性的OSDA-SS场景中有效检测未知类别。代码可在此 https URL 获取。

论文链接: https://arxiv.org/pdf/2405.19899

Github: https://github.com/KHU-AGI/BUS

cs.AI: 早期疾病发作预测中数据集转移问题的超出分布拒绝选项方法

原标题: Out-of-distribution Reject Option Method for Dataset Shift Problem in Early Disease Onset Prediction

作者: Taisei Tosaki, Eiichiro Uchino, Ryosuke Kojima, Yohei Mineharu, Mikio Arita, Nobuyuki Miyai, Yoshinori Tamada, Tatsuya Mikami, Koichi Murashita, Shigeyuki Nakaji, Yasushi Okuno

机构: 京都大学 和 武岛医科大学 高知大学 弘前大学

摘要: 机器学习越来越被用于使用健康和医疗数据来预测与生活方式相关的疾病发病。然而,数据集转移阻碍了预测效果,这涉及训练集和测试集之间数据分布的差异,导致对于分布之外(OOD)数据的错误分类。为了减少数据集转移效应,本文提出了用于预测的分布之外拒绝选项(ODROP),它整合了OOD检测模型,以在预测阶段排除OOD数据。我们研究了五种OOD检测方法(变分自动编码器、神经网络集成标准差、神经网络集成认知、神经网络能量、基于神经网络高斯混合的能量测量)在两个数据集中的效力,即弘前和和歌山健康检查数据,涉及三个疾病发病预测任务:糖尿病、血脂异常和高血压。为了评估ODROP方法,我们在弘前数据上训练了疾病发病预测模型和OOD检测模型,并使用了来自和歌山数据的AUROC-拒绝曲线图。变分自动编码器方法在五个案例中表现出优越的稳定性和在接收器操作特征曲线(AUROC)下改进的幅度:在糖尿病发病方面,和歌山数据中的AUROC从0.80提高到0.90,拒绝率为31.1%,在血脂异常方面,从0.70提高到0.76,拒绝率为34%。我们使用SHAP聚类将数据集转移分为两种类型 - 那些对预测产生重大影响的和那些不会产生影响的。我们期望这种分类将有助于标准化测量仪器。这项研究是首次将OOD检测应用于实际健康和医疗数据,展示了在数据集转移中显著改善疾病预测模型的准确性和可靠性的潜力。

论文链接: https://arxiv.org/pdf/2405.19864

cs.AI: 基于胶囊网络的分层对象中心学习

原标题: Hierarchical Object-Centric Learning with Capsule Networks

作者: Riccardo Renzulli

机构: 都灵大学

摘要: 胶囊网络(CapsNets)被引入以解决卷积神经网络的局限性,学习更加稳健、姿态感知和可解释的以物体为中心的表示。它们将神经元组织成称为胶囊的群组,其中每个胶囊编码对象或其部分的实例化参数。此外,一种路由算法连接不同层中的胶囊,从而捕获数据中的分层部分-整体关系。

本论文调查了CapsNets的有趣方面,并专注于三个关键问题,以释放其全部潜力。首先,我们探讨了路由算法的有效性,特别是在规模较小的网络中。我们提出了一种新颖的方法,在训练过程中逐渐减少路由迭代次数,提高了在参数较少的架构中的性能。

其次,我们研究了提取更有效的第一层胶囊(也称为主要胶囊)的方法。通过利用修剪的骨干,我们旨在通过减少胶囊数量同时实现高泛化,从而提高计算效率。这种方法减少了CapsNets的内存需求和计算工作量。

第三,我们探索了CapsNets中的部分关系学习。通过广泛的研究,我们证明了低熵的胶囊可以提取比传统胶囊网络更简洁和有区别的部分-整体关系,即使在合理的网络规模下。

最后,我们展示了CapsNets如何在现实世界应用中,包括无人机的自主定位、合成数据集中基于四元数的旋转预测,以及生物医学成像中的肺结节分割。

本论文提出的研究结果有助于更深入地理解CapsNets,并突出它们解决复杂计算机视觉挑战的潜力。

论文链接: https://arxiv.org/pdf/2405.19861

cs.AI: 联合选择性状态空间模型和去趋势化,用于稳健的时间序列异常检测

原标题: Joint Selective State Space Model and Detrending for Robust Time Series Anomaly Detection

作者: Junqi Chen, Xu Tan, Sylwan Rahardja, Jiawei Yang, Susanto Rahardja

机构: 研究人员:Junqi Chen(研究生,IEEE会员),Xu Tan,Sylwan Rahardja,Jiawei Yang(IEEE会员),Susanto Rahardja(IEEE会士)

学校/企业名称:空字符串

摘要: 基于深度学习的序列模型在时间序列异常检测(TSAD)任务中得到广泛应用,因为它们具有有效的序列建模能力。然而,TSAD 的能力受到两个关键挑战的限制:(i)模拟长程依赖的能力和(ii)在非平稳数据存在的情况下的泛化问题。为了解决这些挑战,提出了一种异常检测器,利用了选择性状态空间模型,该模型以其在各个领域捕获长期依赖关系的能力而闻名。此外,引入了多阶段去趋势机制,以减轻非平稳数据中突出的趋势成分,以解决泛化问题。对真实世界公共数据集进行的大量实验表明,所提出的方法超越了与之比较的12种基准方法。

论文链接: https://arxiv.org/pdf/2405.19823

cs.AI: 通过采用强大的基线方法论,改进在合成数据上的目标检测器训练

原标题: Improving Object Detector Training on Synthetic Data by Starting With a Strong Baseline Methodology

作者: Frank A. Ruis, Alma M. Liezenga, Friso G. Heslinga, Luca Ballan, Thijs A. Eker, Richard J. M. den Hollander, Martin C. van Leeuwen, Judith Dijk, Wyke Huizinga

机构: TNO 荷兰国防部

摘要: 收集和注释用于开发目标检测模型的现实世界数据是一项耗时且昂贵的过程。特别是在军事领域,数据收集也可能是危险的或不可行的。在访问真实训练数据受限的情况下,对合成数据进行训练可能提供解决方案。然而,弥合合成数据与真实数据之间的现实差距仍然是一个挑战。现有方法通常建立在已被证明在真实数据上训练时表现良好的基线卷积神经网络(CNN)模型之上,但在合成数据上训练时表现良好的能力有限。例如,一些架构允许进行微调,期望有大量的训练数据,并且容易在合成数据上过拟合。相关工作通常忽略了来自真实数据目标检测的各种最佳实践,例如,通过在相对变化较小的单一环境中训练合成数据。在本文中,我们提出了一种方法,用于在合成数据上训练时改进预训练目标检测器的性能。我们的方法侧重于从合成数据中提取显著信息,而不会忘记从真实图像的预训练中学到的有用特征。基于现有技术,我们结合了数据增强方法和Transformer骨干。除了在没有任何专门的合成数据传输方法的情况下达到相对强大的性能外,我们还展示了我们的方法改进了RarePlanes和DGTA-VisDrone数据集上合成数据训练的目标检测的现有技术,并在内部车辆检测数据集上达到了近乎完美的性能。

论文链接: https://arxiv.org/pdf/2405.19822

cs.AI: WebUOT-1M:利用百万级别基准推进深海目标跟踪

原标题: WebUOT-1M: Advancing Deep Underwater Object Tracking with A Million-Scale Benchmark

作者: Chunhui Zhang, Li Liu, Guanjie Huang, Hao Wen, Xi Zhou, Yanfeng Wang

机构: 上海交通大学 香港科技大学(广州) 云从科技有限公司 上海人工智能实验室

摘要: 水下目标跟踪(UOT)是识别和追踪水下视频序列中的潜在实体的基础任务。然而,当前的UOT数据集在规模、目标类别的多样性和涵盖的场景方面存在局限,这阻碍了现代跟踪算法的训练和评估。为了弥补这一差距,我们迈出了第一步,推出了WebUOT-1M,即迄今为止最大的公共UOT基准,来源于复杂和现实的水下环境。它包括来自408个目标类别的1,500个视频剪辑中的1.1百万帧,大大超过了以往的UOT数据集,例如UVOT400。通过细致的手动注释和验证,我们为水下目标提供了高质量的边界框。此外,WebUOT-1M还包括视频序列的语言提示,扩展了其应用领域,例如水下视觉语言跟踪。大多数现有的跟踪器都是针对开放空气环境量身定制的,当应用于UOT时会导致性能下降,因为存在领域差距。由于样本不平衡和有限的真实世界水下数据集,重新训练和微调这些跟踪器是具有挑战性的。为了解决这些挑战,我们提出了一个基于WebUOT-1M的新型全知识蒸馏框架,结合了各种策略来引导学生Transformer的学习。据我们所知,这个框架是第一个通过知识蒸馏有效地将开放空气领域知识转移到UOT模型的框架,这一点在现有的UOT数据集和新提出的WebUOT-1M上得到了证实。此外,我们全面评估了WebUOT-1M,使用了30个深度跟踪器,展示了它作为UOT研究基准的价值,提出了未来研究的新挑战和机遇。完整的数据集、代码和跟踪结果将公开发布。

论文链接: https://arxiv.org/pdf/2405.19818

cs.AI: 可解释的基于属性的说话者验证

原标题: Explainable Attribute-Based Speaker Verification

作者: Xiaoliang Wu, Chau Luu, Peter Bell, Ajitha Rajan

机构: 爱丁堡大学 United Kingdom

摘要: 本文提出了一种完全可解释的说话人验证(SV)方法,这是一项基本依赖于个体说话人特征的任务。当前SV系统对说话人属性的不透明使用引发了信任方面的担忧。为了解决这一问题,我们提出了一种基于属性的可解释SV系统,该系统通过比较从语音录音中自动提取的个人属性(如性别、国籍和年龄)来识别说话人。我们相信这种方法与人类推理更加契合,比传统方法更易理解。在Voxceleb1测试集上评估,我们系统的最佳性能与使用所有正确属性时建立的基本事实相当,证明了其有效性。虽然我们的方法在性能上牺牲了一些,与不可解释的方法相比,但我们相信这使我们更接近透明、可解释的人工智能目标,并为通过属性扩展进行未来增强奠定了基础。

论文链接: https://arxiv.org/pdf/2405.19796

cs.AI: PixelsDB:无服务器和自然语言辅助数据分析,具有灵活的服务水平和价格。

原标题: PixelsDB: Serverless and Natural-Language-Aided Data Analytics with Flexible Service Levels and Prices

作者: Haoqiong Bian, Dongyang Geng, Haoyang Li, Anastasia Ailamaki

机构: 中国人民大学 EPFL

摘要: 无服务器查询处理由于其自动化硬件和软件管理、高弹性和按需付费定价等优势而变得越来越受欢迎。对于不是系统专家的用户来说,无服务器查询处理大大降低了拥有数据分析系统的成本。然而,对于非专业用户来说,将其复杂且不断发展的数据分析需求转化为适当的 SQL 查询,并选择一个能为每种类型的查询提供令人满意的性能和价格的无服务器查询引擎仍然是一个重大挑战。

本文介绍了 PixelsDB,这是一个开源数据分析系统,允许缺乏系统或 SQL 专业知识的用户高效地探索数据。它允许用户使用经过精细调整的语言模型驱动的自然语言界面生成和调试 SQL 查询。然后,这些查询由一个无服务器查询引擎执行,该引擎针对查询紧急程度提供不同服务级别的价格。这些服务级别通过专用架构设计和异构资源调度进行本地支持,可以将成本高效的资源应用于处理非紧急查询。我们预计无服务器范式、自然语言辅助界面以及灵活的服务级别和价格的结合将大大改善数据分析的用户体验。

论文链接: https://arxiv.org/pdf/2405.19784

cs.AI: 指导式视觉遮罩

原标题: Instruction-Guided Visual Masking

作者: Jinliang Zheng, Jianxiong Li, Sijie Cheng, Yinan Zheng, Jiaming Li, Jihao Liu, Yu Liu, Jingjing Liu, Xianyuan Zhan

机构: 清华大学 Sensetime Research CUHK 上海人工智能实验室

摘要: 指令跟随在当代大语言模型中至关重要。然而,当扩展到多模态设置时,往往会出现文本指令与图像的特定局部区域之间的错位。为了实现更准确和细致的多模态指令跟随,我们引入了指令引导的视觉遮罩(IVM),这是一种新的通用视觉定位模型,与各种多模态模型(如LMM和机器人模型)兼容。通过为与指令无关的区域构建视觉遮罩,IVM增强的多模态模型可以有效地专注于任务相关的图像区域,以更好地与复杂的指令对齐。具体来说,我们设计了一个视觉遮罩数据生成流水线,并创建了一个包含100万个图像-指令对的IVM-Mix-1M数据集。我们进一步引入了一种新的学习技术,称为鉴别器加权监督学习(DWSL),用于优先进行IVM训练,以优先考虑高质量的数据样本。在通用多模态任务(如视觉问答和具身机器人控制)上的实验结果表明了IVM的多功能性,作为一种即插即用的工具,显著提升了各种多模态模型的性能,在具有挑战性的多模态基准测试中取得了新的最先进结果。代码可在此 https URL 获取。

论文链接: https://arxiv.org/pdf/2405.19783

Github: https://github.com/2toinf/IVM

cs.AI: 朝向统一的多粒度文本检测与交互式注意力

原标题: Towards Unified Multi-granularity Text Detection with Interactive Attention

作者: Xingyu Wan, Chengquan Zhang, Pengyuan Lyu, Sen Fan, Zihan Ni, Kun Yao, Errui Ding, Jingdong Wang

机构: 清华大学 百度

摘要: 现有的 OCR 引擎或文档图像分析系统通常依赖于针对不同场景和粒度的文本检测训练单独的模型,导致显著的计算复杂性和资源需求。在本文中,我们介绍了“Detect Any Text”(DAT),这是一种先进的范式,无缝地将场景文本检测、布局分析和文档页面检测融合成一个连贯的端到端模型。这种设计使得DAT能够高效地管理不同粒度的文本实例,包括单词段落页面。DAT中的一个关键创新是跨粒度交互注意力模块,通过相关联不同文本查询的结构信息,显著增强了不同粒度文本实例的表示学习。因此,它使模型能够在多个文本粒度上实现互惠的检测性能。此外,基于提示的分割模块可以优化任意曲率和复杂布局的文本检测结果,从而提高DAT的准确性并扩展其在实际应用中的适用性。实验结果表明,DAT在各种文本相关基准测试中取得了最先进的性能,包括多方向/任意形状的场景文本检测、文档布局分析和页面检测任务。

论文链接: https://arxiv.org/pdf/2405.19765

cs.AI: 通过融合条件VAE来改进SMOTE以实现数据自适应噪声过滤

原标题: Improving SMOTE via Fusing Conditional VAE for Data-adaptive Noise Filtering

作者: Sungchul Hong, Seunghwan An, Jong-June Jeon

机构: 首尔大学 统计学系 数据统计科学系

摘要: 最近,生成神经网络模型的进展扩展了数据增强方法的发展。然而,基于现代生成模型的增强方法在处理类别不平衡数据时,与传统模型SMOTE相比,未能取得显著的性能。我们调查了生成模型在不平衡分类中的问题,并引入了一个框架,利用变分自动编码器(VAE)来增强SMOTE算法。我们的方法系统地量化了低维潜在空间中数据点的密度,同时结合了类别标签和分类难度的信息。然后,系统地排除了可能降低增强效果的数据点,并直接在数据空间中增强了相邻的观测数据。对几个不平衡数据集的实证研究表明,这一简单的过程创新性地改进了传统的SMOTE算法,超过了深度学习模型。因此,我们得出结论,对于相对较少的数据点的不平衡分类问题,选择少数类数据并在数据空间中进行插值是有益的。

论文链接: https://arxiv.org/pdf/2405.19757

cs.AI: 利用单图生成模型缓解癌症分类中的注释偏移

原标题: Mitigating annotation shift in cancer classification using single image generative models

作者: Marta Buetas Arcas, Richard Osuala, Karim Lekadir, Oliver Díaz

机构: 巴塞罗那大学 德国慕尼黑赫尔姆霍兹中心 德国慕尼黑工业大学 西班牙加泰罗尼亚研究和高等研究机构 西班牙巴塞罗那计算机视觉中心

摘要: 人工智能(AI)已经成为辅助放射科医生进行乳腺癌检测和诊断的宝贵工具。然而,在这一领域中,AI 应用的成功受到可用数据的数量和质量的限制,由于有限且昂贵的数据标注程序,常常导致标注偏移,从而带来挑战。本研究模拟、分析和减轻了乳腺钼靶癌症分类中的标注偏移。首先,我们开发了一个高准确度的癌症风险预测模型,能够有效区分良性和恶性病变。接下来,我们利用模型性能来量化标注偏移的影响。我们发现标注偏移对多类别分类性能产生了重大影响,特别是对于恶性病变。因此,我们提出了一种基于单图像生成模型的训练数据增强方法,针对受影响的类别,只需要少至四个领域内的标注就能显著减轻标注偏移,同时解决数据集不平衡的问题。最后,我们通过提出并验证了一个基于多个模型在不同数据增强方案下训练的集成架构,进一步提高了性能。我们的研究为深度学习乳腺癌症分类中的标注偏移提供了关键见解,并探讨了单图像生成模型克服领域偏移挑战的潜力。

论文链接: https://arxiv.org/pdf/2405.19754

Github: https://github.com/martabuetas/enhancingbreastcancerdiagnosis

cs.AI: HQ-DiT: 高效扩散 Transformer 与 FP4 混合量化

原标题: HQ-DiT: Efficient Diffusion Transformer with FP4 Hybrid Quantization

作者: Wenxuan Liu, Saiqian Zhang

机构: 纽约大学

摘要: 最近,扩散Transformer(DiTs)在工业和学术领域引起了广泛关注,因其优越的视觉生成能力而超越了使用U-Net的传统扩散模型。然而,DiTs的增强性能也伴随着高参数数量和实施成本,严重限制了它们在资源有限的设备(如手机)上的使用。为解决这些挑战,我们引入了Hybrid Floating-point Quantization for DiT(HQ-DiT),这是一种高效的后训练量化方法,它在DiT推断中利用了4位浮点(FP)精度的权重和激活。与固定点量化(例如INT8)相比,FP量化结合了我们提出的剪切范围选择机制,自然地与DiT内的数据分布相一致,从而产生最小的量化误差。此外,HQ-DiT还实现了一种通用的身份数学变换,以减轻异常值引起的严重量化误差。实验结果表明,DiT可以实现极低精度量化(即4位),对性能影响微乎其微。我们的方法标志着DiTs中的权重和激活首次仅量化为4位,仅在ImageNet的sFID上增加了0.12。

论文链接: https://arxiv.org/pdf/2405.19751

cs.AI: 愿舞蹈与你同在:非人形舞蹈生成框架

原标题: May the Dance be with You: Dance Generation Framework for Non-Humanoids

作者: Hyemin Ahn

机构: 乌山国立科学技术大学 Graduate School of Artificial Intelligence

摘要: 我们假设舞蹈是一种从音乐中形成视觉节奏的动作,其中视觉节奏可以从光流中感知。如果一个智能体能够识别视觉节奏和音乐之间的关系,它将能够通过生成与音乐相匹配的视觉节奏来跳舞。基于此,我们提出了一个框架,让任何非人形智能体能够从人类视频中学习跳舞。我们的框架分为两个过程:(1)训练一个奖励模型,该模型从人类舞蹈视频中感知光流(视觉节奏)和音乐之间的关系,(2)基于该奖励模型和强化学习,训练非人形舞者。我们的奖励模型由两个特征编码器组成,分别用于光流和音乐。它们是基于对比学习进行训练的,使得同时发生的光流和音乐特征之间的相似性更高。有了这个奖励模型,智能体通过在其动作产生与给定音乐特征更相似的光流时获得更高的奖励来学习跳舞。实验结果表明,生成的舞蹈动作可以与音乐节奏正确对齐,用户研究结果表明,与基准相比,我们的框架更受人类喜爱。据我们所知,我们的非人形智能体从人类视频中学习舞蹈的工作是前所未有的。示例视频可在此 https URL 找到。

论文链接: https://arxiv.org/pdf/2405.19743

其他链接: https://youtu.be/dOUPvo-O3QY

cs.AI: 在医学预测监测中的动态特征选择通过强化学习

原标题: Dynamic feature selection in medical predictive monitoring by reinforcement learning

作者: Yutong Chen, Jiandong Gao, Ji Wu

机构: 清华大学 医学精准医学研究院

摘要: 在这篇论文中,我们研究了多变量时间序列场景中的动态特征选择,这在临床预测监测中是常见的情况,其中每个特征对应于生物测试结果。许多现有的特征选择方法在有效利用时间序列信息方面存在不足,主要是因为它们是为静态数据设计的。我们的方法通过为每个患者选择时变特征子集来解决这一限制。具体而言,我们采用强化学习来在最大成本限制下优化策略。随后,预测模型使用由训练策略生成的合成数据进行更新。我们的方法可以无缝集成非可微分的预测模型。我们在一个包含回归和分类任务的大型临床数据集上进行了实验。结果表明,我们的方法在面临严格的成本限制时优于强特征选择基线。一旦论文被接受,代码将会发布。

论文链接: https://arxiv.org/pdf/2405.19729

cs.AI: 对长视频问答的全局语义进行编码和控制

原标题: Encoding and Controlling Global Semantics for Long-form Video Question Answering

作者: Thong Thanh Nguyen, Zhiyuan Hu, Xiaobao Wu, Cong-Duy T Nguyen, See-Kiong Ng, Anh Tuan Luu

机构: 新加坡国立大学 南洋理工大学

摘要: 寻找长视频的有效答案对于构建视频问答(videoQA)系统至关重要。先前的方法会自适应地从长视频中选择帧和区域以节省计算资源。然而,这种方法未能对整个视频序列进行推理,导致性能次优。为解决这一问题,我们在多模态Transformer中引入了一个状态空间层(SSL),以有效地整合视频的全局语义,从而减轻由帧和区域选择模块引起的视频信息丢失。我们的SSL包括一个门控单元,以实现对全局语义流入视觉表示的可控性。为进一步增强可控性,我们引入了一个跨模态组合一致性(C^3)目标,以鼓励全局语义与问题对齐。为了严格评估长视频问答的能力,我们构建了两个新的基准数据集Ego-QA和MAD-QA,分别包含长度相当长的视频,即17.5分钟和1.9小时。大量实验证明了我们的框架在这些新数据集以及现有数据集上的优越性。

论文链接: https://arxiv.org/pdf/2405.19723

cs.AI: 文本引导图像编辑与自动概念定位和遗忘

原标题: Text Guided Image Editing with Automatic Concept Locating and Forgetting

作者: Jia Li, Lijie Hu, Zhixian He, Jingfeng Zhang, Tianhang Zheng, Di Wang

机构: 清华大学 中国科学院 阿卜杜拉国王科技大学 奥克兰大学 密苏里大学 中山大学

摘要: 随着文本引导的图像扩散模型的进步,在图像编辑方面取得了显著进展。然而,一个持久的挑战在于根据文本指令将对象无缝地整合到图像中,而不依赖额外的用户提供的指导。文本和图像本质上是不同的模态,这带来了在充分捕捉通过语言传达的语义意图并准确将其转化为所需的视觉修改方面的困难。因此,文本引导的图像编辑模型经常会产生带有残余对象属性的生成物,这些属性与人类期望并不完全一致。为了解决这一挑战,模型应该有效地理解图像内容,避免在提供的文本编辑提示和对图像实际进行的修改之间存在脱节。在我们的论文中,我们提出了一种名为“定位与遗忘”(LaF)的新方法,通过比较目标提示的句法树和输入图像中的场景描述,有效地定位图像中的潜在目标概念以进行修改,意图在生成的图像中遗忘它们的存在线索。与基线相比,我们的方法在定性和定量上都展示了在文本引导的图像编辑任务中的优越性。

论文链接: https://arxiv.org/pdf/2405.19708

cs.AI: 通过发展超梯度而实现的双层强化学习,无需下层凸性

原标题: Bilevel reinforcement learning via the development of hyper-gradient without lower-level convexity

作者: Yan Yang, Bin Gao, Ya-xiang Yuan

机构: 中国科学院大学 中国科学院 自动化数学研究所 LSEC AMSS

摘要: 双层强化学习(RL)近来引起了越来越多的关注,它具有相互交织的两级问题。然而,较低级别RL问题的固有非凸性阻碍了双层优化方法的发展。通过利用与正则化RL相关的不动点方程,我们通过完全一阶信息表征了超梯度,从而避免了对较低级别凸性的假设。这显著区别于我们对超梯度的开发与一般基于AID的双层框架,因为我们利用了RL问题的特定结构。此外,我们提出了基于模型和无模型的双层强化学习算法,通过完全一阶超梯度的访问来实现。这两种算法都被证明具有收敛速率

O

(

ϵ

1

)

\mathcal{O}(\epsilon^{-1})

O(ϵ−1)。据我们所知,这是AID-based双层RL首次摆脱了对较低级别问题的额外假设。此外,数值实验表明,超梯度确实作为开发和探索的整合。

论文链接: https://arxiv.org/pdf/2405.19697

cs.AI: 创建离线强化学习的扩散策略,形成一个信任区域

原标题: Diffusion Policies creating a Trust Region for Offline Reinforcement Learning

作者: Tianyu Chen, Zhendong Wang, Mingyuan Zhou

机构: 德克萨斯大学奥斯汀分校 梅康姆斯商学院

摘要: 离线强化学习(RL)利用预先收集的数据集来训练最优策略。扩散 Q 学习(DQL)引入扩散模型作为一种强大和表达力强的策略类,显著提高了离线 RL 的性能。然而,它依赖于迭代去噪采样来生成动作,这减慢了训练和推断的速度。虽然最近有几次尝试加速扩散 QL,但在训练和/或推断速度上的改进往往导致性能下降。在本文中,我们介绍了一种双策略方法,即扩散可信 Q 学习(DTQL),它包括一个用于纯行为克隆的扩散策略和一个实用的一步策略。我们通过新引入的扩散信任区域损失来连接这两种策略。扩散策略保持了表达能力,而信任区域损失指导一步策略自由探索并在扩散策略定义的区域内寻找模式。DTQL 在训练和推断过程中消除了迭代去噪采样的需要,使其在计算上非常高效。我们在 2D 赌博机场景和 gym 任务中评估了它的有效性和算法特性,并与流行的基于 Kullback-Leibler(KL)的蒸馏方法进行了比较。然后,我们展示了 DTQL 不仅在大多数 D4RL 基准任务上胜过其他方法,而且在训练和推断速度上也表现出高效性。PyTorch 实现将会提供。

论文链接: https://arxiv.org/pdf/2405.19690

cs.AI: 使用超度特征场进行视图一致的分层3D分割

原标题: View-Consistent Hierarchical 3D SegmentationUsing Ultrametric Feature Fields

作者: Haodi He, Colton Stearns, Adam W. Harley, Leonidas J. Guibas

机构: 斯坦福大学

摘要: 大规模视觉基础模型,如 Segment Anything (SAM),展示了在多个粒度级别上零样本图像分割方面的令人印象深刻的性能。然而,这些零样本预测很少是 3D 一致的。随着场景中摄像机视角的变化,分割预测以及“粗糙”或“精细”粒度的特征也会发生变化。在这项工作中,我们解决了将多粒度和视角不一致的图像分割提升为分层和 3D 一致表示的具有挑战性的任务。我们在神经辐射场(NeRF)内学习了一个新颖的特征场,表示一个 3D 场景,其分割结构可以通过简单地在特征距离上使用不同阈值来在不同尺度上显示。我们的关键思想是学习一个超度量特征空间,与欧几里得空间不同,它在基于距离的分组中表现出传递性,自然地导致分层聚类。总之,我们的方法将视角不一致的多粒度 2D 分割作为输入,并产生一系列 3D 一致的分割作为输出。我们在具有多视图图像和多粒度分割的合成数据集上评估了我们的方法和几种基线模型,展示了提高的准确性和视角一致性。此外,我们还提供了我们模型在真实场景中的 3D 分层分割的定性示例。【代码和数据集可在以下链接找到:】

论文链接: https://arxiv.org/pdf/2405.19678

cs.AI: 大语言模型水印盗窃与混合整数规划

原标题: Large Language Model Watermark Stealing With Mixed Integer Programming

作者: Zhaoxi Zhang, Xiaomei Zhang, Yanjun Zhang, Leo Yu Zhang, Chao Chen, Shengshan Hu, Asif Gill, Shirui Pan

机构: 悉尼科技大学 格里菲斯大学 皇家墨尔本理工大学 华中科技大学

摘要: 大语言模型(LLM)水印是一种新兴的技术,显示出在解决有关LLM版权、监控由AI生成的文本以及防止其被滥用方面具有潜力。LLM水印方案通常包括生成秘密密钥,将词汇划分为绿色和红色列表,对绿色列表中的标记的logits应用扰动,以增加它们的采样可能性,从而便于水印检测,以识别由AI生成的文本,如果绿色标记的比例超过阈值。然而,最近的研究表明,使用大量密钥的水印方法容易受到去除攻击的影响,例如标记编辑、同义词替换和释义,随着密钥数量的增加,其鲁棒性下降。因此,采用较少或单个密钥的最先进水印方案已被证明对文本编辑和释义更具鲁棒性。在本文中,我们提出了一种针对最先进LLM水印方案的新型绿色列表窃取攻击,并系统地检验其对该攻击的脆弱性。我们将攻击形式化为一个带约束的混合整数规划问题。我们在一个全面的威胁模型下评估我们的攻击,包括一个极端情况,即攻击者没有先验知识,无法访问水印检测器API,并且对LLM的参数设置或水印注入/检测方案没有任何信息。对LLMs(如OPT和LLaMA)的广泛实验表明,我们的攻击可以成功窃取绿色列表,并在所有设置下去除水印。

论文链接: https://arxiv.org/pdf/2405.19677

cs.AI: 通过对扩散模型进行保守微调,实现基于模型的优化和生成建模的桥接

原标题: Bridging Model-Based Optimization and Generative Modeling via Conservative Fine-Tuning of Diffusion Models

作者: Masatoshi Uehara, Yulai Zhao, Ehsan Hajiramezanali, Gabriele Scalia, Gökcen Eraslan, Avantika Lal, Sergey Levine, Tommaso Biancalani

机构: 普林斯顿大学 加利福尼亚大学伯克利分校 Genentech

摘要: 人工智能驱动的设计问题,比如DNA/蛋白质序列设计,通常从两个角度解决:生成建模,有效捕捉可行的设计空间(例如自然图像或生物序列),以及基于模型的优化,利用奖励模型进行外推。为了结合这两种方法的优势,我们采用了一种混合方法,通过强化学习优化奖励模型来微调最先进的扩散模型。尽管先前的工作已经探索了类似的途径,但它们主要集中在准确的奖励模型可获得的情况下。相反,我们专注于离线设置,其中奖励模型是未知的,我们必须从静态离线数据集中学习,这在科学领域是一个常见的情况。在离线场景中,现有方法往往容易出现过度优化,因为它们可能会被奖励模型在分布外区域所误导。为了解决这个问题,我们引入了一种保守的微调方法,BRAID,通过优化保守的奖励模型,其中包括离线数据分布之外的额外惩罚。通过实证和理论分析,我们展示了我们的方法在超越离线数据中的最佳设计能力,利用奖励模型的外推能力,同时避免通过预训练的扩散模型生成无效设计。

论文链接: https://arxiv.org/pdf/2405.19673

cs.AI: 不确定性引导的深度监督稀疏视角3D高斯最优输运

原标题: Uncertainty-guided Optimal Transport in Depth Supervised Sparse-View 3D Gaussian

作者: Wei Sun, Qi Zhang, Yanzhao Zhou, Qixiang Ye, Jianbin Jiao, Yuan Li

机构: 中国科学院大学

摘要: 3D 高斯点光滑在实时新视图合成中表现出了令人印象深刻的性能。然而,从 RGB 图像实现成功的重建通常需要在静态条件下捕获多个输入视图。为了解决稀疏输入视图的挑战,先前的方法在 3D 高斯训练中引入了深度监督,以减轻过拟合,利用预训练深度网络的密集预测作为伪地面真相。然而,单目深度估计模型的深度预测在特定区域固有地表现出显著的不确定性。仅依赖像素级 L2 损失可能会无意中引入这些不确定区域的有害噪音。在这项工作中,我们引入了一种新的方法来监督 3D 高斯的深度分布,利用集成不确定性估计的深度先验。为了解决深度预测中的这些局部错误,我们整合了一种基于补丁的最优传输策略,以补充传统的深度监督中的 L2 损失。在 LLFF、DTU 和 Blender 数据集上进行的大量实验表明,我们的方法 UGOT 实现了优越的新视图合成,并始终优于最先进的方法。

论文链接: https://arxiv.org/pdf/2405.19657

cs.AI: 少数对多数:Tchebycheff 集标量化用于多目标优化

原标题: Few for Many: Tchebycheff Set Scalarization for Many-Objective Optimization

作者: Xi Lin, Yilu Liu, Xiaoyuan Zhang, Fei Liu, Zhenkun Wang, Qingfu Zhang

机构: 香港城市大学 南方科技大学

摘要: 多目标优化在许多现实世界的应用中都可以找到,其中一些相互冲突的目标无法通过单一解决方案进行优化。现有的优化方法通常侧重于找到一组帕累托解,这些解在不同的目标之间具有不同的最优权衡。然而,为了很好地近似整个帕累托最优解集,所需的解的数量可能会随着目标数量的增加呈指数级增长,这使得这些方法不适合处理许多优化目标。在这项工作中,我们提出了一种新颖的切比雪夫集标量化方法,而不是找到一组密集的帕累托解,以协作和互补的方式找到一些代表性解(例如,5个),以涵盖大量的目标(例如,

>

100

>100

>100)。这样,每个目标都可以至少通过小解集中的一个解得到很好的解决。此外,我们进一步开发了一种平滑的切比雪夫集标量化方法,以实现具有良好理论保证的高效优化。对具有许多优化目标的不同问题进行的实验研究证明了我们提出的方法的有效性。

论文链接: https://arxiv.org/pdf/2405.19650

cs.AI: EgoSurgery-Phase: 一个从主观视角开放手术视频中识别手术阶段的数据集

原标题: EgoSurgery-Phase: A Dataset of Surgical Phase Recognition from Egocentric Open Surgery Videos

作者: Ryo Fujii, Masashi Hatano, Hideo Saito, Hiroki Kajita

机构: 慶應義塾大学 東京都 神奈川県 日本 医学部

摘要: 手术阶段识别因其潜在解决现代手术室需求的能力而受到重视。然而,大多数现有方法集中在微创手术(MIS),而对于开放手术的手术阶段识别研究不足。这种差异主要归因于公开可用的开放手术视频数据集在手术阶段识别方面的稀缺性。为解决这一问题,我们介绍了一个新的自我中心开放手术视频数据集,用于阶段识别,名为EgoSurgery-Phase。该数据集包括15小时的真实开放手术视频,涵盖了9个不同的手术阶段,所有视频均使用连接到外科医生头部的自我中心摄像头进行捕捉。除了视频外,EgoSurgery-Phase还提供了眼球注视信息。据我们所知,这是首个公开可用的真实开放手术视频数据集,用于手术阶段识别。此外,受到遮挡自编码器(MAEs)在视频理解任务(例如动作识别)中的显著成功的启发,我们提出了一种注视引导的遮挡自编码器(GGMAE)。考虑到外科医生注视焦点的区域通常对手术阶段识别(例如手术领域)至关重要,在我们的GGMAE中,注视信息充当经验语义丰富性先验,引导遮挡过程,促进对语义丰富的空间区域更好的关注。GGMAE在EgoSurgery-Phase上显著改进了先前的最先进识别方法(Jaccard系数提高了6.4%)和基于遮挡自编码器的方法(Jaccard系数提高了3.1%)。该数据集将在此https网址发布。

论文链接: https://arxiv.org/pdf/2405.19644

Github: https://github.com/Fujiry0/EgoSurgery

cs.AI: 在基于对比的图自监督学习中,频谱线索重要吗?

原标题: Do spectral cues matter in contrast-based graph self-supervised learning?

作者: Xiangru Jian, Xinjian Zhao, Wei Pang, Chaolong Ying, Yimu Wang, Yaoyao Xu, Tianshu Yu

机构: 滑铁卢大学 中国香港中文大学深圳分校 向量研究所

摘要: 最近对基于对比图自监督学习的激增显著地突出了对谱线索的加强探索。然而,一个有趣的悖论出现了,因为基于看似相互矛盾的假设或启发式方法的方法在谱域方面展现出了显著的学习性能提升。这个悖论促使对谱信息对基于对比图自监督学习的真正贡献进行了关键的探讨。本研究对这一问题进行了广泛的调查,对当代方法的谱特性与学习结果之间的关系进行了深入研究。基于这一分析,我们认为需要对谱信息的有效性和重要性提出质疑。相反,我们重新审视简单的边扰动:针对节点级自监督学习设计的随机边删除和针对图级自监督学习设计的随机边添加。我们提出了令人信服的证据,表明这些简单而有效的策略始终能够在要求显著较少的计算资源的情况下持续产生优越的性能,而这与所有先前的谱增强方法相比。所提出的见解代表了该领域的重大进步,有可能重塑对图自监督学习的理解和实施。

论文链接: https://arxiv.org/pdf/2405.19600

cs.AI: 源代码基础模型是可转移的二进制分析知识库

原标题: Source Code Foundation Models are Transferable Binary Analysis Knowledge Bases

作者: Zian Su, Xiangzhe Xu, Ziyang Huang, Kaiyuan Zhang, Xiangyu Zhang

机构: 普渡大学

摘要: 人类导向的二进制逆向工程(HOBRE)位于二进制和源代码的交集,旨在将二进制代码提升为与源代码相关的可读内容,从而弥合二进制-源代码语义差距。最近在单模态代码模型预训练方面取得了进展,特别是在生成式源代码基础模型(SCFMs)和二进制理解模型方面,为适用于HOBRE的迁移学习奠定了基础。然而,现有的HOBRE方法主要依赖于像SCFMs这样的单模态模型进行监督微调,或者依赖于通用LLMs进行提示,导致性能不佳。受到大型多模态模型最近进展的启发,我们提出可以充分利用双方的单模态代码模型的优势,有效地弥合语义差距。在本文中,我们介绍了一种新颖的探测和恢复框架,该框架整合了二进制-源代码编码器-解码器模型和黑盒LLMs用于二进制分析。我们的方法利用了SCFMs中的预训练知识来合成相关的、符号丰富的代码片段作为上下文。这种额外的上下文使得黑盒LLMs能够提高恢复的准确性。我们展示了在零样本二进制摘要和二进制函数名称恢复方面的显著改进,CHRF相对增益达到10.3%,基于GPT4的摘要度量相对增益达到16.7%,以及名称恢复的标记级精确度和召回率分别绝对增加了6.7%和7.4%。这些结果突显了我们的方法在自动化和改进二进制代码分析方面的有效性。

论文链接: https://arxiv.org/pdf/2405.19581



声明

本文内容仅代表作者观点,或转载于其他网站,本站不以此文作为商业用途
如有涉及侵权,请联系本站进行删除
转载本站原创文章,请注明来源及作者。