2024年6月7日Arxiv人工智能相关论文

CSDN 2024-07-04 14:31:05 阅读 64

cs.AI: 利用自动策略发现来教导人们如何选择更好的项目

原标题: Leveraging automatic strategy discovery to teach people how to select better projects

作者: Lovis Heindrich, Falk Lieder

摘要: 个人和组织的决策通常是次优的,因为规范的决策策略在现实世界中要求过高。最近的研究表明,通过利用人工智能来发现和教授考虑人们约束条件的规范决策策略,可以预防一些错误。到目前为止,这一研究领域仅限于简化的决策问题。本文是第一篇将这种方法扩展到真实世界决策问题的文章,即项目选择。我们开发了一种计算方法(MGPS),可以自动发现针对真实人员优化的项目选择策略,并开发了一个智能导师来教授这些发现的策略。我们在一个计算基准上评估了MGPS,并在一个训练实验中测试了智能导师,包括两个对照条件。MGPS胜过了一种最先进的方法,并且在计算效率上更高。此外,智能导师显著改善了人们的决策策略。我们的结果表明,我们的方法可以改善人类在类似真实世界项目选择的自然环境中的决策,这是将策略发现应用于真实世界的第一步。

论文链接: https://arxiv.org/pdf/2406.04082

cs.AI: 对比稀疏自动编码器用于解释国际象棋对弈智能体的规划

原标题: Contrastive Sparse Autoencoders for Interpreting Planning of Chess-Playing Agents

作者: Yoann Poupart

摘要: 人工智能引领的国际象棋系统已经达到了超人的水平,然而这些系统严重依赖于黑盒算法。这在确保对最终用户透明度方面是不可持续的,特别是当这些系统负责敏感决策时。最近的可解释性研究表明,深度神经网络(DNNs)的内部表示是可以理解的,并包含人类可理解的概念。然而,这些方法很少被情境化,并且通常基于单个隐藏状态,这使它们无法解释多步推理,例如规划。在这方面,我们提出了对比稀疏自动编码器(CSAE),这是一个用于研究游戏轨迹对的新框架。使用CSAE,我们能够提取和解释对国际象棋智能体计划有意义的概念。我们主要集中在提出自动特征分类之前对CSAE特征进行定性分析。此外,为了评估我们训练的CSAE的质量,我们设计了理智检查来消除结果中的虚假相关性。

论文链接: https://arxiv.org/pdf/2406.04028

cs.AI: HackAtari:Atari学习环境用于稳健和持续强化学习

原标题: HackAtari: Atari Learning Environments for Robust and Continual Reinforcement Learning

作者: Quentin Delfosse, Jannis Blüml, Bjarne Gregori, Kristian Kersting

机构: 德国达姆施塔特工业大学 德国人工智能中心 (hessian.AI) 达姆施塔特认知科学中心 德国人工智能研究中心 (DFKI)

摘要: 人工智能智能体对新颖性的适应能力和与预期行为的一致性对于它们的有效部署至关重要。强化学习(RL)利用新颖性作为探索手段,但智能体经常难以处理新颖情况,从而阻碍泛化能力。为了解决这些问题,我们提出了HackAtari,这是一个框架,将受控新颖性引入最常见的RL基准测试环境——Atari Learning Environment。HackAtari允许我们创建新颖的游戏场景(包括为课程学习简化),交换游戏元素的颜色,以及为智能体引入不同的奖励信号。我们展示了目前在原始环境中训练的智能体存在鲁棒性失败,并通过使用C51和PPO进行实验评估了HackAtari在增强RL智能体的鲁棒性和对齐行为方面的有效性。总的来说,HackAtari可以用于提高当前和未来RL算法的鲁棒性,允许神经符号RL、课程RL、因果RL以及LLM驱动的RL。我们的工作强调了在RL智能体中开发可解释性的重要性。

论文链接: https://arxiv.org/pdf/2406.03997

cs.AI: GenSafe:一种基于降阶马尔可夫决策过程模型的通用安全增强器,用于安全强化学习算法

原标题: GenSafe: A Generalizable Safety Enhancer for Safe Reinforcement Learning Algorithms Based on Reduced Order Markov Decision Process Model

作者: Zhehua Zhou, Xuan Xie, Jiayang Song, Zhan Shu, Lei Ma

机构: 清华大学 哈尔滨工业大学

摘要: 尽管深度强化学习在控制各种自主系统方面取得了令人印象深刻的成就,例如自动驾驶车辆或人形机器人,但其固有依赖于随机探索的特性在它们的实际应用中引发了安全性问题。为了在学习过程中提高系统的安全性,人们提出了各种安全强化学习(SRL)算法,通常将安全约束纳入约束马尔可夫决策过程(CMDP)框架中。然而,这些SRL算法的有效性通常依赖于准确的函数逼近,这是一个在早期学习阶段由于数据不足而特别具有挑战性的任务。为了解决这个问题,我们在这项工作中引入了一个通用安全增强器(GenSafe)。利用模型降阶技术,我们首先构建了一个减少阶数的马尔可夫决策过程(ROMDP)作为CMDP中原始成本函数的低维代理。然后,通过解决基于ROMDP的约束问题,这些约束问题是从原始成本约束重新制定而来,所提出的GenSafe优化了智能体采取的行动,以增强约束满足的可能性。实质上,GenSafe作为SRL算法的额外安全层,能够广泛兼容各种SRL方法。GenSafe的性能在多个SRL基准问题上进行了检验。结果表明,它不仅能够提高安全性能,特别是在早期学习阶段,而且还能够保持任务性能在令人满意的水平上。

论文链接: https://arxiv.org/pdf/2406.03912

cs.AI: 关于数据规模对计算机控制智能体的影响

原标题: On the Effects of Data Scale on Computer Control Agents

作者: Wei Li, William Bishop, Alice Li, Chris Rawles, Folawiyo Campbell-Ajala, Divya Tyamagundlu, Oriana Riva

机构: 谷歌DeepMind 谷歌

摘要: 自主代理程序正在出现,它们控制计算机界面以完成人类任务。利用大语言模型来支持这些代理程序一直备受关注,但除非在人类收集的任务演示上进行精细调整,否则性能仍然相对较低。在这项工作中,我们研究了仅靠精细调整是否是构建真实世界计算机控制代理程序的可行方法。特别地,我们调查了在收集更多训练数据的情况下,性能如何在领域内和领域外的高低级任务上进行衡量。

为此,我们收集并发布了一个新数据集 AndroidControl,其中包含15,283个使用Android应用程序进行日常任务演示。与现有数据集相比,每个AndroidControl任务实例都包括高低级人工生成的指令,使我们能够探索代理程序可以处理的任务复杂性水平。此外,AndroidControl是迄今为止最多样化的计算机控制数据集,包括833个Android应用程序上的15,283个独特任务,因此我们能够深入分析模型在训练数据的领域内外的性能。使用该数据集,我们发现在领域内测试时,经过精细调整的模型优于零样本和少样本基准,并且随着收集更多数据,性能会逐渐提升。在领域外,性能提升速度明显较慢,并且表明特别是对于高级任务,仅仅依靠更多数据进行精细调整可能不足以实现稳健的领域外性能。

论文链接: https://arxiv.org/pdf/2406.03679

cs.AI: 物理3D:通过视频扩散学习3D高斯的物理特性

原标题: Physics3D: Learning Physical Properties of 3D Gaussians via Video Diffusion

作者: Fangfu Liu, Hanyang Wang, Shunyu Yao, Shengjun Zhang, Jie Zhou, Yueqi Duan

摘要: 近年来,3D生成模型的发展迅速,为模拟3D对象的动态运动和定制它们的行为等应用开辟了新的可能性。然而,当前的3D生成模型往往只关注表面特征,如颜色和形状,而忽视了控制现实世界中物体行为的固有物理特性。为了准确模拟与物理对齐的动态,必须预测材料的物理特性并将其纳入行为预测过程中。然而,由于真实世界物体的多样材料具有复杂的物理属性,因此预测它们仍然具有挑战性。在本文中,我们提出了一种名为Physics3D的新方法,通过视频扩散模型学习3D物体的各种物理特性。我们的方法涉及设计一个基于粘弹性材料模型的高度通用的物理模拟系统,这使我们能够模拟具有高保真能力的各种材料。此外,我们从包含更多对现实物体材料理解的视频扩散模型中提取物理先验知识。大量实验证明了我们的方法在弹性和塑性材料方面的有效性。Physics3D展现了极大的潜力,可以弥合物理世界与虚拟神经空间之间的差距,在虚拟环境中更好地整合和应用真实物理原则。项目页面:此处链接。

论文链接: https://arxiv.org/pdf/2406.04338

Github: https://liuff19.github.io/Physics3D

cs.AI: 连贯的零样本视觉指令生成

原标题: Coherent Zero-Shot Visual Instruction Generation

作者: Quynh Phung, Songwei Ge, Jia-Bin Huang

摘要: 尽管文本到图像合成取得了进展,特别是通过扩散模型,生成需要对象在连续步骤中保持一致表示和平滑状态转换的视觉说明仍然是一个巨大挑战。本文介绍了一个简单的、无需训练的框架来解决这些问题,利用了扩散模型和大语言模型(LLMs)的进展。我们的方法系统地整合了文本理解和图像生成,以确保视觉说明在整个说明序列中既具有视觉吸引力,又保持一致性和准确性。我们通过测试多步说明并将文本对齐和一致性与几个基线进行比较来验证有效性。我们的实验表明,我们的方法可以可视化连贯且视觉上令人愉悦的说明。

论文链接: https://arxiv.org/pdf/2406.04337

cs.AI: ATraDiff: 使用虚拟轨迹加速在线强化学习

原标题: ATraDiff: Accelerating Online Reinforcement Learning with Imaginary Trajectories

作者: Qianlan Yang, Yu-Xiong Wang

机构: 清华大学

摘要: 使用稀疏奖励训练自主代理是在线强化学习中长期存在的问题,这是由于数据效率低造成的。以往的工作通过从离线数据中提取有用知识来克服这一挑战,通常通过从离线数据中学习动作分布并利用所学分布来促进在线强化学习来实现。然而,由于离线数据是固定的,提取的知识在本质上是有限的,这使得难以推广到新任务。我们提出了一种新颖的方法,利用离线数据来学习生成扩散模型,被称为自适应轨迹扩散器(ATraDiff)。这个模型生成合成轨迹,作为一种数据增强形式,从而增强在线强化学习方法的性能。我们扩散器的关键优势在于其适应性,使其能够有效处理不同轨迹长度并减轻在线和离线数据之间的分布偏移。由于其简单性,ATraDiff可以无缝集成到各种强化学习方法中。实证评估表明,ATraDiff在各种环境中始终实现了最先进的性能,特别是在复杂环境中表现出显著的改进。我们的代码和演示视频可以在此网址找到。

论文链接: https://arxiv.org/pdf/2406.04323

Github: https://atradiff.github.io

cs.AI: 奇美拉:使用二维状态空间模型有效建模多变量时间序列

原标题: Chimera: Effectively Modeling Multivariate Time Series with 2-Dimensional State Space Models

作者: Ali Behrouz, Michele Santacatterina, Ramin Zabih

机构: 康奈尔大学 纽约大学格罗斯曼医学院

摘要: 建模多变量时间序列是一个已经被广泛应用于从医疗保健到金融市场等各个领域的问题。传统的状态空间模型(SSMs)是用于建模单变量时间序列的经典方法,因为它们简单且具有表达线性依赖关系的能力。然而,它们在捕捉非线性依赖关系方面具有根本性的局限性,在实践中速度较慢,并且无法建模变量间信息流动。尽管最近有尝试通过使用深度结构化的SSMs来提高SSMs的表达能力,但现有方法要么局限于单变量时间序列,要么无法建模复杂模式(例如季节性模式),要么无法动态建模变量和时间维度的依赖关系,或者是输入无关的。我们提出了Chimera,它使用两个依赖于输入的2-D SSM头部,具有不同的离散化过程,来学习长期进展和季节性模式。为了提高复杂的2D循环的效率,我们提出了一种快速训练方法,使用新的二维并行选择扫描。我们进一步提出并讨论了2D SSM的特例,即2D Mamba和Mamba-2。我们的实验评估显示了Chimera在广泛和多样的基准测试中的卓越性能,包括心电图和语音时间序列分类,长期和短期时间序列预测,以及时间序列异常检测。

论文链接: https://arxiv.org/pdf/2406.04320

cs.AI: 磁共振中的k空间自适应采样,用于快速病理预测

原标题: Adaptive Sampling of k-Space in Magnetic Resonance for Rapid Pathology Prediction

作者: Chen-Yu Yen, Raghav Singhal, Umang Sharma, Rajesh Ranganath, Sumit Chopra, Lerrel Pinto

摘要: 磁共振(MR)成像,尽管其经过验证的诊断效用,仍然是一种在人群层面进行疾病监测的不可及成像模态。使MR不可及的一个主要因素是漫长的扫描时间。MR扫描仪在傅立叶空间中收集与潜在解剖结构相关的测量数据,也称为k空间。创建高保真度图像需要收集大量这样的测量数据,增加扫描时间。传统上,为了加速MR扫描,从欠采样的k空间数据进行图像重建是首选方法。然而,最近的研究表明,可以绕过图像重建,直接从k空间测量的稀疏学习子集中学习直接检测疾病的可行性。在这项工作中,我们提出了用于MR的自适应采样(ASMR),这是一种学习自适应策略以顺序选择k空间样本以优化目标疾病检测的采样方法。在涵盖膝盖、大脑和前列腺MR扫描的8项病理分类任务中的6项中,ASMR在仅使用k空间的8%的情况下,达到了完全采样分类器性能的2%以内,并且在k空间采样方面胜过了以往的EMRT、LOUPE和DPS等最新技术。

论文链接: https://arxiv.org/pdf/2406.04318

cs.AI: 在语言模型中用于不确定性估计的语义多样化语言生成

原标题: Semantically Diverse Language Generation for Uncertainty Estimation in Language Models

作者: Lukas Aichberger, Kajetan Schweighofer, Mykyta Ielanskyi, Sepp Hochreiter

摘要: 大语言模型(LLMs)在生成文本时可能会出现幻觉。这些幻觉通过使LLMs变得不可信赖,阻碍了社会和工业中的各种应用。当前的LLMs以自回归方式生成文本,通过预测和附加文本标记。当LLM对要生成的下一个标记的语义含义感到不确定时,它很可能会开始产生幻觉。因此,有人提出幻觉源于预测不确定性。我们引入了语义多样化语言生成(SDLG)来量化LLMs中的预测不确定性。SDLG引导LLM生成语义上多样化但可能的替代文本。这种方法提供了对语义不确定性的精确度量,检测最初的文本是否可能是幻觉。在问答任务上的实验表明,SDLG始终优于现有方法,同时具有最高的计算效率,为LLMs中的不确定性估计设定了新标准。

论文链接: https://arxiv.org/pdf/2406.04306

cs.AI: Vision-LSTM: xLSTM作为通用视觉骨干

原标题: Vision-LSTM: xLSTM as Generic Vision Backbone

作者: Benedikt Alkin, Maximilian Beck, Korbinian Pöppel, Sepp Hochreiter, Johannes Brandstetter

摘要: Transformer被广泛用作计算机视觉中的通用骨干,尽管最初是为自然语言处理而引入的。最近,长短期记忆(LSTM)已经扩展为可扩展且高性能的架构 - xLSTM - 通过指数门控和可并行化的矩阵存储结构克服了长期存在的LSTM限制。在这份报告中,我们介绍了Vision-LSTM(ViL),这是将xLSTM构建模块调整到计算机视觉领域的一种适应。ViL由一堆xLSTM块组成,其中奇数块从上到下处理补丁标记的序列,而偶数块从下到上处理。实验证明,ViL有望进一步作为计算机视觉架构的新通用骨干进行部署。

论文链接: https://arxiv.org/pdf/2406.04303

cs.AI: 生成式 AI 循环:将大语言模型和 GPTs 集成到下一代网络中

原标题: Generative AI-in-the-loop: Integrating LLMs and GPTs into the Next Generation Networks

作者: Han Zhang, Akram Bin Sediq, Ali Afana, Melike Erol-Kantarci

摘要: 近年来,机器学习(ML)技术为智能移动网络创造了许多机会,并加速了网络运营的自动化。然而,复杂的网络任务可能涉及甚至超出传统ML算法容量的变量和考虑因素。另一方面,大语言模型(LLMs)最近出现,展示了在各个领域的认知任务中接近人类水平的表现。然而,它们容易产生幻觉,并且在基本任务中常常缺乏常识。因此,它们被视为人类的辅助工具。在这项工作中,我们提出了“生成式AI在环路中”的概念,并利用LLMs的语义理解、上下文意识和推理能力来帮助人类处理移动通信网络中的复杂或意想不到的情况。我们相信,结合LLMs和ML模型使两者能够利用各自的能力,并实现比单独任何模型都更好的结果。为了支持这一理念,我们首先分析了LLMs的能力,并将其与传统ML算法进行了比较。然后,我们探讨了基于LLMs的潜在应用,符合下一代网络的需求。我们进一步研究了ML和LLMs的整合,讨论了它们如何在移动网络中共同使用。与现有研究不同,我们的研究强调LLMs与传统ML驱动的下一代网络的融合,并作为现有调查的全面完善。最后,我们提供了一个案例研究,通过LLMs生成的合成数据增强了基于ML的网络入侵检测。我们的案例研究进一步展示了我们提出的想法的优势。

论文链接: https://arxiv.org/pdf/2406.04276

cs.AI: ELFS: 通过基于聚类的伪标记增强无标签核心集选择

原标题: ELFS: Enhancing Label-Free Coreset Selection via Clustering-based Pseudo-Labeling

作者: Haizhong Zheng, Elisa Tsai, Yifu Lu, Jiachen Sun, Brian R. Bartoldson, Bhavya Kailkhura, Atul Prakash

摘要: 高质量的人工标注数据对于现代深度学习流程至关重要,然而人工标注过程既昂贵又耗时。在给定有限的人工标注预算的情况下,选择一个信息丰富且代表性强的数据子集进行标注可以显著减少人工标注工作量。表现良好的最先进(SOTA)coreset选择方法需要整个数据集上的地面真实标签,无法减轻人工标注负担。与此同时,最先进的无标签coreset选择方法由于几何评分不佳而表现较差。在本文中,我们介绍了ELFS,一种新颖的无标签coreset选择方法。ELFS利用深度聚类来估计数据难度分数,而无需地面真实标签。此外,ELFS采用简单但有效的双端修剪方法来减轻对计算分数的偏见,进一步提高了所选coresets的性能。我们在五个视觉基准上评估了ELFS,并展示ELFS在各项指标上始终优于SOTA无标签基线。例如,在90%的修剪率下,ELFS在CIFAR10上超过表现最佳的基线5.3%,在CIFAR100上超过7.1%。此外,即使在低修剪率(例如30%和50%)下,ELFS在CIFAR10和ImageNet-1K上的表现也可与监督coreset选择方法相媲美。

论文链接: https://arxiv.org/pdf/2406.04273

cs.AI: 开放性对于人工超人类智能至关重要

原标题: Open-Endedness is Essential for Artificial Superhuman Intelligence

作者: Edward Hughes, Michael Dennis, Jack Parker-Holder, Feryal Behbahani, Aditi Mavalankar, Yuge Shi, Tom Schaul, Tim Rocktaschel

摘要: 近年来,人工智能系统的整体能力出现了巨大的增长,主要是通过在互联网规模数据上训练基础模型所推动的。然而,创造出开放式、不断自我改进的人工智能仍然是难以实现的。在这篇立场论文中,我们认为现在已经具备了实现人工智能系统相对于人类观察者的开放性所需的要素。此外,我们声称这种开放性是任何人工超人类智能(ASI)的基本属性。我们首先通过新颖性和可学习性的视角提供了开放性的具体形式定义。然后,我们通过在基础模型之上构建的开放式系统展示了通往ASI的路径,这些系统能够做出新颖的、与人类相关的发现。最后,我们通过检查通常具有开放性的人工智能的安全影响来总结。我们预计,开放式基础模型将在不久的将来被证明是一个日益富有成效和安全关键的研究领域。

论文链接: https://arxiv.org/pdf/2406.04268

cs.AI: GeoGen:通过有符号距离函数实现几何感知生成建模

原标题: GeoGen: Geometry-Aware Generative Modeling via Signed Distance Functions

作者: Salvatore Esposito, Qingshan Xu, Kacper Kania, Charlie Hewitt, Octave Mariotti, Lohit Petikam, Julien Valentin, Arno Onken, Oisin Mac Aodha

摘要: 我们介绍了一种新的生成方法,用于从单视图集合中合成3D几何和图像。大多数现有方法预测体积密度以渲染多视图一致的图像。通过使用神经辐射场进行体积渲染,它们继承了一个关键限制:生成的几何形状具有噪声且不受约束,限制了输出网格的质量和实用性。为了解决这个问题,我们提出了GeoGen,一种基于SDF的新型3D生成模型,以端到端的方式进行训练。最初,我们将体积密度重新解释为有符号距离函数(SDF)。这使我们能够引入有用的先验知识来生成有效的网格。然而,这些先验知识阻止了生成模型学习细节,限制了该方法对真实场景的适用性。为了缓解这个问题,我们使变换可学习,并约束渲染的深度图与SDF的零级集保持一致。通过对抗训练的视角,我们鼓励网络在输出网格上产生更高保真度的细节。为了评估,我们引入了一个从360度摄像机角度捕获的人体化身的合成数据集,以克服真实数据集所提出的挑战,后者通常缺乏3D一致性并且不涵盖所有摄像机角度。我们在多个数据集上的实验表明,GeoGen生成的几何形状在视觉和数量上均优于基于神经辐射场的先前生成模型。

论文链接: https://arxiv.org/pdf/2406.04254

cs.AI: 量化智能体之间的不一致

原标题: Quantifying Misalignment Between Agents

作者: Aidan Kierans, Avijit Ghosh, Hananel Hazan, Shiri Dori-Hacohen

摘要: 近年来,人们对AI对齐问题的担忧日益增加,先前的工作主要集中在:(1)对齐问题的定性描述;(2)尝试通过价值规范和学习来使AI行为与人类利益保持一致;和/或(3)集中在单一智能体或将人类视为一个单一单位。最近在社会技术AI对齐方面的工作在包容性定义对齐方面取得了一些进展,但整个领域仍然缺乏系统性理解如何指定、描述和分析实体之间的不对齐,这些实体可能包括个体人类、AI智能体以及诸如公司、国家等复杂的组合实体。先前在计算社会科学中有关争议的研究提供了人口(人类)之间争执的数学模型。在本文中,我们将这一争执模型调整为对齐问题,并展示了不对齐如何根据被观察的智能体(人类或其他)的人口、相关领域以及智能体在实践中对可能结果的概率加权偏好而变化。我们的模型摆脱了价值规范方法,而是专注于智能体在实践中可能具有的复杂、相互交织、有时矛盾的目标。我们通过分析从社交媒体内容管理到自动驾驶行为等多个案例研究来应用我们的模型。通过使用具有适当代表性价值数据的模型,AI工程师可以确保他们的系统学习的价值与多样化人类利益最大程度地保持一致。

论文链接: https://arxiv.org/pdf/2406.04231

cs.AI: M3LEO: 一个集成干涉 SAR 和 RGB 数据的多模态、多标签地球观测数据集

原标题: M3LEO: A Multi-Modal, Multi-Label Earth Observation Dataset Integrating Interferometric SAR and RGB Data

作者: Matthew J Allen, Francisco Dorr, Joseph Alejandro Gallego Mejia, Laura Martínez-Ferrer, Anna Jungbluth, Freddie Kalaitzis, Raúl Ramos-Pollán

摘要: 基于卫星的遥感技术已经彻底改变了我们在一个快速发展的世界中解决全球挑战的方式。每天卫星传感器生成大量的地球观测(EO)数据,但处理这些大型数据集以供在机器学习管道中使用在技术和计算上具有挑战性。具体来说,不同类型的EO数据通常托管在各种平台上,对于Python预处理工具的可用性也不同。此外,跨数据源的空间对齐和数据平铺可能对新手用户构成重大技术障碍。虽然一些经过预处理的EO数据集存在,但它们的内容通常仅限于光学或近光学波长数据,在夜晚或恶劣天气条件下效果不佳。合成孔径雷达(SAR)是一种基于微波辐射的主动感知技术,提供了一种可行的替代方案。然而,由于缺乏ML准备好的数据和管道,特别是针对SAR数据的全部多样性,包括极化、相干和干涉等,将机器学习应用于SAR的应用受到限制。我们介绍了M3LEO,这是一个多模态、多标签的EO数据集,其中包括来自Sentinel-1的极化、干涉和相干SAR数据,以及Sentinel-2的RGB图像和一系列用于模型评估的标记任务。M3LEO跨越了17.5TB,包含大约10M个数据芯片,涵盖了六个地理区域。该数据集配备了一个灵活的PyTorch Lightning框架,使用Hydra进行配置管理。我们提供了工具,可以处理在Google Earth Engine等流行平台上可用的任何数据集,以便与我们的框架集成。初步实验证实了我们的数据和框架的实用性,表明SAR图像包含了RGB数据无法提取的额外信息。数据位于此http网址,代码位于此http网址。

论文链接: https://arxiv.org/pdf/2406.04230

其他链接: http://huggingface.co/M3LEO

cs.AI: 对齐像大语言模型这样的智能体

原标题: Aligning Agents like Large Language Models

作者: Adam Jelley, Yuhan Cao, Dave Bignell, Sam Devlin, Tabish Rashid

摘要: 在复杂的3D环境中,通过高维感知信息训练智能体以按预期行为表现是具有挑战性的。从多样化的人类行为中进行模仿学习提供了一种可扩展的方法,用于训练具有合理行为先验的智能体,但是这样的智能体在部署时可能无法执行感兴趣的特定行为。为了解决这个问题,我们将模仿学习智能体的不良行为与不对齐的大语言模型(LLMs)的无益响应进行类比。然后,我们研究了如何将用于对齐LLMs的程序应用于从像素对齐3D环境中的智能体。在我们的分析中,我们利用现代游戏中的一个学术说明性部分,其中人类行为分布是多模态的,但我们希望我们的智能体模仿这种行为的单一模式。我们展示了我们可以使我们的智能体一致地执行所需的模式,同时提供见解和建议,以成功应用这种方法来训练智能体。项目网页位于此 https URL。

论文链接: https://arxiv.org/pdf/2406.04208

Github: https://adamjelley.github.io/aligning-agents-like-llms

cs.AI: LTL模理论的盾合成

原标题: Shield Synthesis for LTL Modulo Theories

作者: Andoni Rodriguez, Guy Amir, Davide Corsi, Cesar Sanchez, Guy Katz

摘要: 近年来,机器学习(ML)模型在各个领域取得了显著的成功。然而,这些模型也往往表现出不安全的行为,从而阻碍它们在安全关键系统中的部署。为了解决这个问题,大量研究致力于开发能够保证给定ML模型安全行为的方法。一个著名的例子是屏蔽,它包括一个外部组件(“屏蔽器”),用于阻止不需要的行为。尽管取得了显著进展,但屏蔽面临一个主要挫折:它目前主要针对仅在命题逻辑(例如,LTL)中编码的属性,并且不适用于更丰富的逻辑。这反过来限制了屏蔽在许多现实世界系统中的广泛适用性。在这项工作中,我们解决了这一差距,并将屏蔽扩展到LTL模理论,借助最近在反应合成模理论方面的进展。这使我们能够开发一种新颖的方法,生成符合这些更具表现力的逻辑中复杂安全规范的屏蔽。我们评估了我们的屏蔽器,并展示了它们处理具有时间动态的丰富数据的能力。据我们所知,这是第一种为这种表达能力合成屏蔽器的方法。

论文链接: https://arxiv.org/pdf/2406.04184

cs.AI: 基于逐元素相乘的基于物理信息的神经网络

原标题: Element-wise Multiplication Based Physics-informed Neural Networks

作者: Feilong Jiang, Xiaonan Hou, Min Xia

摘要: 作为解决偏微分方程(PDEs)的一种有前景的框架,物理信息神经网络(PINNs)受到工业和科学领域的广泛关注。然而,发现缺乏表达能力和初始化病理问题阻碍了PINNs在复杂PDEs中的应用。在这项工作中,我们提出了基于元素乘法的物理信息神经网络(EM-PINNs)来解决这些问题。采用元素乘法操作将特征转换为高维、非线性空间,有效增强了PINNs的表达能力。受益于元素乘法操作,EM-PINNs可以消除PINNs的初始化病理。所提出的结构在各种基准测试中得到验证。结果表明,EM-PINNs具有很强的表达能力。

论文链接: https://arxiv.org/pdf/2406.04170

cs.AI: 通过拉格朗日粒子优化改进基于物理增强的连续神经辐射场几何无关系统识别

原标题: Improving Physics-Augmented Continuum Neural Radiance Field-Based Geometry-Agnostic System Identification with Lagrangian Particle Optimization

作者: Takuhiro Kaneko

机构: NTT公司

摘要: 几何不可知系统识别是一种从视频序列中识别对象的几何和物理特性的技术,而无需进行任何几何假设。最近,物理增强的连续神经辐射场(PAC-NeRF)通过利用混合的欧拉-拉格朗日表示展示了这一技术的有希望的结果,其中几何由NeRF的欧拉网格表示,物理由材料点方法(MPM)描述,并通过拉格朗日粒子连接。然而,PAC-NeRF的一个显著限制是,由于其两步优化,其性能对从第一帧学习几何敏感。首先,通过视频序列的第一帧优化网格表示,然后通过利用固定的第一帧网格表示的视频序列优化物理特性。当学习几何结构困难时,例如在少样本(稀疏视图)设置中,这一限制可能是关键的。为了克服这一限制,我们提出了拉格朗日粒子优化(LPO),通过拉格朗日空间中的视频序列优化粒子的位置和特征。该方法允许在MPM施加的物理约束下在整个视频序列中优化几何结构。实验结果表明,LPO对于在稀疏视图设置中的几何校正和物理识别是有用的。

论文链接: https://arxiv.org/pdf/2406.04155

cs.AI: 对爆破岩石堆中的分离进行表征:利用航空图像分析的深度学习方法

原标题: Characterizing segregation in blast rock piles a deep-learning approach leveraging aerial image analysis

作者: Chengeng Liu, Sihong Liu, Chaomin Shen, Yupeng Gao, Yuxuan Liu

机构: 河海大学

摘要: 爆破岩石材料在各种工程应用中起着关键作用,然而,在采石场堆积物的梯度上颗粒大小明显变化的分离现象给优化采石场材料存储和处理带来了挑战。本研究引入了一种先进的图像分析方法来表征岩石碎片的这种分离现象。通过分析无人机捕获的图像,结合应用增强的Unet语义分割模型和基于扩展的后处理技术,实现了对详细岩石碎片大小分布的准确划分。采石场坡度被分成四个垂直部分,通过椭圆形状逼近量化了每个部分的大小分布。我们的结果显示了明显的垂直分离模式,较细颗粒集中在上坡区域,较粗颗粒集中在下坡区域。利用相对特征直径,我们提供了关于分离程度的见解,从而更清晰地说明了碎片大小的空间异质性。本研究中概述的技术提供了一种可扩展且准确的方法来评估碎片大小分布,有潜力更好地指导采石场管理中的资源管理和运营决策。

论文链接: https://arxiv.org/pdf/2406.04149

cs.AI: 机器人学习中的冗余感知动作空间

原标题: Redundancy-aware Action Spaces for Robot Learning

作者: Pietro Mazzaglia, Nicholas Backshall, Xiao Ma, Stephen James

机构: IEEE 中国科学院大学

摘要: 联合空间和任务空间控制是控制机器人臂在机器人学习文献中的两种主要行动模式。在关节空间中的动作提供对机器人姿势的精确控制,但往往在训练效率上存在问题;在任务空间中的动作具有数据高效的训练,但由于对完整关节配置的控制有限,牺牲了在狭小空间中执行任务的能力。本文分析了为机器人操作设计行动空间的标准,并引入了ER(末端执行器冗余),这是一种新颖的行动空间制定,通过解决机械臂中存在的冗余,旨在结合关节空间和任务空间的优势,为过驱动机器人臂提供细粒度全面控制,同时实现高效的机器人学习。我们提出了ER的两种实现,ER角度(ERA)和ER关节(ERJ),并展示了

论文链接: https://arxiv.org/pdf/2406.04144

cs.AI: 在深度超参数化低秩学习和适应中的可压缩动力学

原标题: Compressible Dynamics in Deep Overparameterized Low-Rank Learning & Adaptation

作者: Can Yaras, Peng Wang, Laura Balzano, Qing Qu

机构: 密歇根大学

摘要: 在机器学习模型中,过度参数化在优化和泛化方面带来了巨大的好处,但随着模型规模的增长,也会导致增加的计算需求。在这项工作中,我们展示了通过利用数据的固有低维结构和模型参数内可压缩的动态,我们可以在不增加计算负担的情况下获得过度参数化的好处。在实践中,我们展示了这种方法在深度低秩矩阵完成和微调语言模型方面的有效性。我们的方法基于深度过度参数化低秩矩阵恢复的理论发现,我们展示了每个权重矩阵的学习动态被限制在一个不变的低维子空间中。因此,我们可以构建和训练紧凑、高度压缩的因子分解,具有与其过度参数化对应物相同的好处。在深度矩阵完成的背景下,我们的技术显著提高了训练效率,同时保留了过度参数化的优势。对于语言模型微调,我们提出了一种名为“Deep LoRA”的方法,改进了现有的低秩适应(LoRA)技术,减少了过拟合并简化了超参数设置,同时保持了可比较的效率。我们验证了Deep LoRA在自然语言任务中的有效性,特别是在有限数据微调时。

论文链接: https://arxiv.org/pdf/2406.04112

cs.AI: 通过矩匹配的多步扩散模型蒸馏

原标题: Multistep Distillation of Diffusion Models via Moment Matching

作者: Tim Salimans, Thomas Mensink, Jonathan Heek, Emiel Hoogeboom

摘要: 我们提出了一种新的方法,用于加速扩散模型的采样。该方法通过匹配沿着采样轨迹给定嘈杂数据的干净数据的条件期望,将多步扩散模型提炼为少步模型。我们的方法将最近提出的一步方法扩展到多步情况,并通过将这些方法解释为矩匹配的方式提供了新的视角。通过使用多达8个采样步骤,我们获得了优于不仅一步版本而且原始多步教师模型的提炼模型,在Imagenet数据集上取得了新的最先进结果。我们还展示了在一个大型文本到图像模型上的有希望的结果,我们实现了直接在图像空间中快速生成高分辨率图像,而无需自动编码器或上采样器。

论文链接: https://arxiv.org/pdf/2406.04103

cs.AI: 增强天气预测:通过深度扩散模型实现超分辨率

原标题: Enhancing Weather Predictions: Super-Resolution via Deep Diffusion Models

作者: Jan Martinů, Petr Šimánek

摘要: 这项研究调查了深度学习扩散模型在天气数据超分辨率方面的应用,这是一种旨在增强气象变量空间分辨率和细节的新方法。利用扩散模型的能力,特别是SR3和ResDiff架构,我们提出了一种将低分辨率天气数据转换为高分辨率输出的方法论。我们在WeatherBench数据集上进行的实验侧重于对两米温度变量进行超分辨率处理,展示了模型生成详细准确的天气地图的能力。结果表明,通过纳入基于物理的修改进一步改进的ResDiff模型在均方误差(MSE)、结构相似性指数(SSIM)和峰值信噪比(PSNR)方面明显优于传统的SR3方法。这项研究突出了扩散模型在气象应用中的潜力,为天气预测和气候分析领域未来发展的有效性、挑战和前景提供了见解。

论文链接: https://arxiv.org/pdf/2406.04099

cs.AI: 扩展和评估稀疏自动编码器

原标题: Scaling and evaluating sparse autoencoders

作者: Leo Gao, Tom Dupré la Tour, Henk Tillman, Gabriel Goh, Rajan Troll, Alec Radford, Ilya Sutskever, Jan Leike, Jeffrey Wu

机构: OpenAI

摘要: 稀疏自编码器提供了一种有前景的非监督方法,通过从一个语言模型的稀疏瓶颈层重建激活来提取可解释的特征。由于语言模型学习了许多概念,自编码器需要非常庞大才能恢复所有相关特征。然而,由于需要平衡重建和稀疏目标以及存在死激活单元,研究自编码器扩展的属性是困难的。我们提出使用 k-稀疏自编码器[Makhzani and Frey, 2013]来直接控制稀疏性,简化调整并改善重建-稀疏性前沿。此外,我们发现一些修改可以减少死激活单元,即使在我们尝试的最大规模下也是如此。使用这些技术,我们发现自编码器大小和稀疏性之间存在清晰的扩展规律。我们还引入了几个用于评估特征质量的新指标,这些指标基于假设特征的恢复、激活模式的可解释性以及下游效应的稀疏性。这些指标通常随着自编码器大小的增加而改善。为了展示我们方法的可扩展性,我们在 GPT-4 的 40 亿个标记的激活上训练了一个拥有 1600 万个潜在特征的自编码器。我们发布了用于开源模型的训练代码和自编码器,以及一个可视化工具。

论文链接: https://arxiv.org/pdf/2406.04093

cs.AI: 关于 Transformer 学习 HMMs 的限制

原标题: On Limitation of Transformer for Learning HMMs

作者: Jiachen Hu, Qinghua Liu, Chi Jin

机构: 北京大学 普林斯顿大学

摘要: 尽管基于Transformer的架构在各种顺序建模任务中取得了显著成功,如自然语言处理、计算机视觉和机器人技术,但它们学习基本顺序模型(如隐马尔可夫模型(HMMs))的能力仍不清楚。本文通过大量实验调查了Transformer在学习HMM及其变体中的表现,并将它们与循环神经网络(RNNs)进行了比较。我们展示了在所有测试的HMM模型中,Transformer在训练速度和测试准确性方面始终不及RNNs。甚至在一些具有挑战性的HMM实例中,Transformer难以学习,而RNNs可以成功做到。我们的实验进一步揭示了Transformer的深度与其能够有效学习的最长序列长度之间的关系,这取决于HMM的类型和复杂性。为了解决Transformer在建模HMMs方面的局限性,我们展示了一种Chain-of-Thought(CoT)的变体,在训练阶段称为

block

 

CoT

\textit{block CoT}

block CoT,可以帮助Transformer减少评估误差,并以增加训练时间为代价学习更长的序列。最后,我们通过理论结果补充了我们的实证发现,证明了Transformer在逼近具有对数深度的HMMs方面的表现能力。

论文链接: https://arxiv.org/pdf/2406.04089

cs.AI: 在强化学习中引导期望分位数

原标题: Bootstrapping Expectiles in Reinforcement Learning

作者: Pierre Clavier, Emmanuel Rachelson, Erwan Le Pennec, Matthieu Geist

机构: Ecole Polytechnique CMAP INRIA Paris SUPAERO Toulouse Cohere

摘要: 许多经典的强化学习(RL)算法依赖于贝尔曼算子,其中涉及对下一个状态的期望,导致引入了自举的概念。为了引入一种悲观主义形式,我们建议用一个expectile来替换这种期望。在实践中,这可以通过用一个更一般的expectile loss来替换评论家的

L

2

L_2

L2​ loss来非常简单地实现。在RL中引入悲观主义有各种原因,比如解决高估问题(经典解决方案为双Q学习或TD3的双评论者方法)或者鲁棒RL(其中转换是对抗性的)。我们从实证角度研究了这两种情况。对于高估问题,我们展示了所提出的方法ExpectRL比经典的双评论者提供了更好的结果。在涉及环境变化的鲁棒RL基准测试中,我们展示了我们的方法比经典RL算法更加鲁棒。我们还介绍了ExpectRL的一个变体,结合了域随机化,与最先进的鲁棒RL智能体竞争。最后,我们还扩展了ExpectRL,引入了一个机制来自动选择expectile值,即悲观程度。

论文链接: https://arxiv.org/pdf/2406.04081

cs.AI: 批内批:一种新的针对初始扰动和样本选择的对抗训练框架

原标题: Batch-in-Batch: a new adversarial training framework for initial perturbation and sample selection

作者: Yinting Wu (1), Pai Peng (2), Bo Cai (3), Le Li (1). ((1) School of Mathematics and Statistics, and Key Lab NAA–MOE, Central China Normal University, (2) School of Mathematics and Computer Science, Jianghan University, (3) Key Laboratory of Aerospace Information Security and Trusted Computing, Ministry of Education, and School of Cyber Science and Engineering, Wuhan University)

机构: 华中师范大学 江汉大学 武汉大学

摘要: 对抗训练方法通常会从简单的均匀分布中为对抗样本生成独立的初始扰动,并在没有选择的情况下为分类器获取训练批次。在这项工作中,我们提出了一个简单而有效的训练框架,称为批内批处理(BB),以增强模型的鲁棒性。它具体涉及联合构建初始值,可以同时从原始批次集生成

m

m

m组扰动,为对抗样本提供更多的多样性;还包括各种样本选择策略,使训练模型具有更平滑的损失并避免过于自信的输出。通过在三个基准数据集(CIFAR-10、SVHN、CIFAR-100)上对两个网络(PreActResNet18 和 WideResNet28-10)进行广泛实验,这两个网络在单步(Noise-Fast Gradient Sign Method,N-FGSM)和多步(Projected Gradient Descent,PGD-10)对抗训练中均有使用,我们展示了在BB框架内训练的模型在各种对抗设置下始终具有更高的对抗准确性,尤其是在SVHN数据集上,与N-FGSM基线模型相比,在攻击半径为8/255时,明显实现了超过13%的改进。此外,对所提出的初始扰动方法和样本选择策略的效率进行的实验分析验证了我们的见解。最后,我们展示了我们的框架在计算资源方面是具有成本效益的,即使

m

m

m的值相对较大。

论文链接: https://arxiv.org/pdf/2406.04070

cs.AI: 在量子经典混合模型中利用黎曼流形上的SPD矩阵进行结构健康监测

原标题: Leveraging SPD Matrices on Riemannian Manifolds in Quantum Classical Hybrid Models for Structural Health Monitoring

作者: Azadeh Alavi, Sanduni Jayasinghe

摘要: 实时有限元建模桥梁可辅助现代结构健康监测系统,提供全面洞察结构完整性。这种能力对于确保桥梁的安全运行并防止突发灾难性故障至关重要。然而,有限元法的计算成本和对实时分析的需求带来了重大挑战。此外,输入数据是一个7维向量,而输出是一个1017维向量,使得准确和高效的分析特别困难。在这项研究中,我们提出了一种新颖的混合量子经典多层感知器管道,利用对称正定矩阵和黎曼流形进行有效数据表示。为了保持量子比特结构的完整性,我们利用了对称正定矩阵,确保数据表示与量子计算框架完全一致。此外,该方法利用多项式特征扩展来捕获数据中的非线性关系。所提出的管道将经典全连接神经网络层与量子电路层相结合,以增强模型性能和效率。我们的实验集中在各种此类混合模型的配置上,以确定用于准确和高效实时分析的最佳结构。表现最佳的模型实现了0.00031的均方误差,明显优于传统方法。

论文链接: https://arxiv.org/pdf/2406.04055

cs.AI: 多向量神经元:更好更快的 O(n) 等变 Clifford 图神经网络

原标题: Multivector Neurons: Better and Faster O(n)-Equivariant Clifford Graph Neural Networks

作者: Cong Liu, David Ruhe, Patrick Forré

摘要: 当前大多数深度学习模型对于

O

(

n

)

O(n)

O(n)或

S

O

(

n

)

SO(n)

SO(n)是等变的,要么主要考虑标量信息,如距离和角度,要么具有非常高的计算复杂性。在这项工作中,我们测试了一些基于Clifford多矢量的新型消息传递图神经网络(GNNs),其结构类似于几何深度学习中其他流行的等变模型。我们的方法利用了高效的不变标量特征,同时通过使用等变几何乘积算子在多矢量表示上执行表达丰富的学习。通过整合这些元素,我们的方法在N-Body模拟任务和蛋白质去噪任务上优于已建立的高效基线模型,同时保持高效率。特别是,我们将N-body数据集上的最新错误推进到0.0035(在3次运行中平均);比最近方法提高了8%。我们的实现可在Github上找到。

论文链接: https://arxiv.org/pdf/2406.04052

cs.AI: 行动推理基准:考虑有和没有分支约束的行动推理

原标题: ActionReasoningBench: Reasoning about Actions with and without Ramification Constraints

作者: Divij Handa, Pavel Dolin, Shrinidhi Kumbhar, Chitta Baral, Tran Cao Son

机构: 亚利桑那州立大学 新墨西哥州立大学

摘要: 关于动作和变化(RAC)的推理在历史上推动了许多早期人工智能挑战的发展,比如框架问题,以及许多人工智能学科,包括非单调和常识推理。即使在现在,RAC的作用仍然很重要,特别是对涉及动态环境、交互场景和常识推理的任务。尽管大语言模型(LLMs)在各种人工智能领域取得了进展,但它们在RAC上的表现尚未得到充分探讨。为了填补这一空白,我们引入了一个新的基准,ActionReasoningBench,涵盖了13个领域,并严格评估了LLMs在RAC的八个不同领域中的表现。这些领域包括 - 对象跟踪、流畅跟踪、状态跟踪、动作可执行性、动作效果、数值RAC、幻觉检测和复合问题。此外,我们还调查了由于每个领域的分支约束而导致的动作间接效应。最后,我们使用开源和商业最先进的LLMs,包括GPT-4o、Gemini-1.0-Pro、Llama2-7b-chat、Llama2-13b-chat、Llama3-8b-instruct、Gemma-2b-instruct和Gemma-7b-instruct来评估我们的基准。我们的研究结果表明,这些模型在我们基准中包含的所有类别中都面临着重大挑战。

论文链接: https://arxiv.org/pdf/2406.04046

cs.AI: 塑造历史:用于分析和确定三千年来楔形文字片的高级机器学习技术

原标题: Shaping History: Advanced Machine Learning Techniques for the Analysis and Dating of Cuneiform Tablets over Three Millennia

作者: Danielle Kapon, Michael Fire, Shai Gordin

机构: 巴比伦数字图书馆计划 (CDLI)

摘要: 楔形文字牌,起源于公元前四千年左右的古代美索不达米亚,代表着人类最早的书写系统之一。这些文物以粘土牌上的楔形标记为特征,为我们提供了对美索不达米亚文明在各个领域的洞察。传统上,对这些牌的分析和定年依赖于对形状和书写风格的主观评估,导致在确定其确切时间起源方面存在不确定性。近年来,数字化技术的进步通过提高可访问性和分析能力,彻底改变了楔形文字的研究。我们的研究独特地关注牌的轮廓作为其历史时期的重要指标,与大多数侧重于文本内容的研究不同。利用楔形数字图书馆计划收集的超过94,000张图像的前所未有数据集,我们应用深度学习方法对楔形文字牌进行分类,涵盖了超过3,000年的历史。通过利用统计、计算技术和通过变分自动编码器(VAEs)进行生成建模,我们在这些古代文献的自动分类方面取得了重大进展,重点关注牌的轮廓作为关键预测因子。我们的分类方法从使用高宽比的决策树开始,最终采用ResNet50模型,为牌轮廓实现了61%的宏F1分数。此外,我们引入了新颖的VAE动力工具,以增强可解释性,并使研究人员能够探索不同时代和流派中牌形的变化。这项研究通过展示大规模数据分析与统计方法相结合的价值,为文件分析和外交学做出了贡献。这些见解为历史学家和碑铭学家提供了宝贵的工具,丰富了我们对楔形文字牌及其生产文化的理解。

论文链接: https://arxiv.org/pdf/2406.04039

cs.AI: 基于多目标强化学习的时空早期预测

原标题: Spatio-temporal Early Prediction based on Multi-objective Reinforcement Learning

作者: Wei Shao, Yufan Kang, Ziyan Peng, Xiao Xiao, Lei Wang, Yuhui Yang, Flora D Salim

机构: Data61 CSIRO RMIT University Xidian University Zhejiang University University of New South Wales

摘要: 准确性和及时性在预测任务中确实经常是相互冲突的目标。过早的预测可能会导致更高的虚警率,而推迟预测以收集更多信息可能会使它们太晚而无法发挥作用。在野火、犯罪和交通拥堵等应用中,及时的预测对于保障人类生命和财产至关重要。因此,在准确性和及时性之间找到平衡是至关重要的。在本文中,我们提出了一个基于多目标强化学习的时空早期预测模型,可以根据偏好实施最优策略,或者根据少量样本推断偏好。该模型解决了两个主要挑战:1)提高早期预测的准确性,2)为确定每个区域最适合的预测时间提供最优策略。我们的方法在三个大规模真实世界数据集上展现出卓越的性能,在早期时空预测任务中超越了现有方法。

论文链接: https://arxiv.org/pdf/2406.04035

cs.AI: 预训练的Transformer在人类移动数据中发现了有意义的模式。

原标题: Pre-trained Transformer Uncovers Meaningful Patterns in Human Mobility Data

作者: Alameen Najjar

机构: 洛桑理工学院 楽天技术研究所

摘要: 我们通过实证证明,一个在国家规模未标记的人类流动数据上进行预训练的Transformer学习到的嵌入向量,经过微调后能够深入理解目标地理及其对应的流动模式。利用一个适应性框架,我们评估了我们预训练的嵌入在直接和间接涉及人类流动的广泛概念中的表现。这包括基本概念,如地理位置和距离,延伸到更复杂的构建,如行政区划和土地覆盖。我们广泛的实证分析显示,通过预训练获得了显著的性能提升,例如在树木覆盖回归等任务中高达38%。我们将这一结果归因于预训练能够揭示原始数据中隐藏的有意义模式,有助于建模相关的高层概念。预训练的嵌入出现为区域和轨迹的稳健表示,可能对各种下游应用有价值。

论文链接: https://arxiv.org/pdf/2406.04029

cs.AI: AC4MPC:用于非线性模型预测控制的演员-评论家强化学习

原标题: AC4MPC: Actor-Critic Reinforcement Learning for Nonlinear Model Predictive Control

作者: Rudolf Reiter, Andrea Ghezzi, Katrin Baumgärtner, Jasper Hoffmann, Robert D. McAllister, Moritz Diehl

摘要: \Ac{MPC}和\ac{RL}是两种强大的控制策略,可以说具有互补的优势。在这项工作中,我们展示了如何利用actor-critic \ac{RL}技术来提高\ac{MPC}的性能。\ac{RL}的评论者被用作最优值函数的近似,而演员展示提供了\ac{MPC}原始变量的初始猜测。提出了一种并行控制架构,其中每个\ac{MPC}实例针对不同的初始猜测解决两次。除了演员展示初始化外,还使用了来自先前解决方案的移位初始化。然后,再次使用演员和评论者来近似评估这些轨迹的无限时间成本。最低成本轨迹的控制动作应用于系统的每个时间步。我们建立了拟议算法保证优于原始\ac{RL}策略加上一个依赖评论者准确性并随着\ac{MPC}公式的时间跨度衰减的误差项。此外,我们不需要全局最优解来满足这些保证。该方法在一个说明性玩具示例和一个\ac{AD}超车场景中进行了演示。

论文链接: https://arxiv.org/pdf/2406.03995

cs.AI: 矢量化条件神经场:解决时间相关参数偏微分方程的框架

原标题: Vectorized Conditional Neural Fields: A Framework for Solving Time-dependent Parametric Partial Differential Equations

作者: Jan Hagnberger, Marimuthu Kalimuthu, Daniel Musekamp, Mathias Niepert

机构: 马克斯·普朗克学院 纽约大学

摘要: Transformer 模型越来越被用于解决偏微分方程(PDEs)。已经提出了几种改进方法,但都受到 Transformer 的典型问题的困扰,比如二次内存和时间复杂度。此外,所有主流的用于 PDE 求解的架构都缺少理想替代模型的几个理想特性之一,比如(i)泛化到训练过程中未见过的 PDE 参数,(ii)空间和时间的零样本超分辨率,(iii)连续的时间外推,(iv)支持 1D、2D 和 3D PDEs,以及(v)对更长时间滚动的有效推理。为了解决这些限制,我们提出了矢量化条件神经场(VCNeFs),将时变 PDEs 的解表示为神经场。与先前的方法相反,VCNeFs 可以并行计算一组多个时空查询点的解,并通过注意机制建模它们之间的依赖关系。此外,VCNeF 可以将神经场条件化为 PDE 的初始条件和参数。大量实验表明,VCNeFs 与现有基于机器学习的替代模型相竞争,并经常表现优异。

论文链接: https://arxiv.org/pdf/2406.03919

cs.AI: 深度学习中的记忆化:一项调查

原标题: Memorization in deep learning: A survey

作者: Jiaheng Wei, Yanjun Zhang, Leo Yu Zhang, Ming Ding, Chao Chen, Kok-Leong Ong, Jun Zhang, Yang Xiang

机构: 清华大学 哈尔滨工业大学

摘要: 深度学习(DL)由深度神经网络(DNNs)驱动,已经彻底改变了各个领域,然而理解DNN决策和学习过程的复杂性仍然是一个重大挑战。最近的研究揭示了一个有趣的记忆现象,即DNN倾向于记住示例中的具体细节,而不是学习一般模式,影响了模型的泛化、安全性和隐私性。这引发了关于DNN泛化性质及其对安全漏洞的敏感性的关键问题。在这项调查中,我们提出了一个系统框架,根据泛化和安全/隐私领域来组织记忆定义,并总结了示例和模型级别的记忆评估方法。通过全面的文献综述,我们探讨了DNN记忆行为及其对安全和隐私的影响。我们还介绍了由记忆引起的隐私漏洞以及遗忘现象,并探讨了它与记忆的联系。此外,我们重点介绍了利用记忆和遗忘机制的各种应用,包括嘈杂标签学习、隐私保护和模型增强。这项调查首次深入了解了DNN中的记忆现象,为增强人工智能发展的挑战和机遇提供了见解,同时解决了关键的伦理问题。

论文链接: https://arxiv.org/pdf/2406.03880

cs.AI: 量子隐式神经表示

原标题: Quantum Implicit Neural Representations

作者: Jiaming Zhao, Wenbo Qiao, Peng Zhang, Hui Gao

摘要: 隐式神经表示已经成为代表信号(如图像和声音)的强大范式。这种方法旨在利用神经网络来参数化信号的隐式函数。然而,在表示隐式函数时,传统的神经网络(如基于ReLU的多层感知器)在准确建模信号的高频成分方面面临挑战。最近的研究已经开始探索使用傅立叶神经网络(FNNs)来克服这一限制。在本文中,我们提出了量子隐式表示网络(QIREN),这是FNNs的一种新颖的量子泛化。此外,通过理论分析,我们证明了QIREN在量子优势上优于经典FNNs。最后,我们在信号表示、图像超分辨率和图像生成任务中进行了实验,展示了QIREN相对于最先进模型的卓越性能。我们的工作不仅将量子优势融入隐式神经表示中,还揭示了量子神经网络的一个有前途的应用方向。

论文链接: https://arxiv.org/pdf/2406.03873

cs.AI: 用于在语义级别衡量视觉相似性的语义相似度分数

原标题: Semantic Similarity Score for Measuring Visual Similarity at Semantic Level

作者: Senran Fan, Zhicheng Bao, Chen Dong, Haotai Liang, Xiaodong Xu, Ping Zhang

摘要: 语义通信作为一种革命性的通信架构,被认为是一种有前途的新型通信范式。与传统基于符号的无误差通信系统不同,基于语义的视觉通信系统在语义级别提取、压缩、传输和重构图像。然而,广泛使用的图像相似度评估指标,无论是基于像素的MSE或PSNR,还是基于结构的MS-SSIM,在系统传输过程中往往难以准确衡量源图像语义级别信息的丢失。这给评估视觉语义通信系统的性能带来了挑战,特别是在与传统通信系统进行比较时。为了解决这个问题,我们提出了一种语义评估指标——SeSS(语义相似度分数),基于场景图生成和图匹配,将图像之间的相似度分数转化为语义级别的图匹配分数。同时,手动为数以万计的图像对标注了语义相似度分数,以微调图匹配算法中的超参数,使指标更贴近人类的语义感知。SeSS的性能在不同数据集上进行了测试,包括(1)在不同压缩率下传输的传统和语义通信系统传输的图像,(2)在不同信噪比下传输的传统和语义通信系统传输的图像,(3)由大规模模型生成的引入不同噪声水平的图像,以及(4)经过某些特殊变换的图像情况。实验表明了SeSS的有效性,表明该指标可以衡量图像中语义级别信息的语义级差异,并可用于视觉语义通信系统的评估。

论文链接: https://arxiv.org/pdf/2406.03865

cs.AI: 对受限访问受害者策略的强化学习行为定向攻击

原标题: Behavior-Targeted Attack on Reinforcement Learning with Limited Access to Victim’s Policy

作者: Shojiro Yamabe, Kazuto Fukuchi, Ryoma Senda, Jun Sakuma

机构: 东京工业大学 理化学研究所 筑波大学 三重大学

摘要: 这项研究考虑了对强化学习智能体的攻击,其中对手旨在通过向受害者的状态观察添加敌对修改来控制受害者的行为,如对手所指定。虽然一些攻击方法报告成功操纵受害者智能体的行为,但这些方法通常依赖于特定于环境的启发式方法。此外,所有现有的攻击方法都需要对受害者的策略具有白盒访问权限。在这项研究中,我们提出了一种新颖的方法,用于在黑盒(即,对手只允许观察受害者的状态和动作)和无盒(即,对手只允许观察受害者的状态)设置中操纵受害者智能体,而无需特定于环境的启发式方法。我们的攻击方法被构建为一个双层优化问题,可以简化为一个分布匹配问题,并可以通过现有的模仿学习算法在黑盒和无盒设置中解决。对几个强化学习基准进行的实证评估表明,我们提出的方法在攻击性能上优于基线。

论文链接: https://arxiv.org/pdf/2406.03862

cs.AI: 诗歌:交互式提示优化,增强大语言模型的多模态推理

原标题: POEM: Interactive Prompt Optimization for Enhancing Multimodal Reasoning of Large Language Models

作者: Jianben He, Xingbo Wang, Shiyi Liu, Guande Wu, Claudio Silva, Huamin Qu

机构: 清华大学 哈佛大学 纽约大学

摘要: 大语言模型(LLMs)展示了在零样本或少样本设置中通过适当提示实现多模态内容理解和推理的令人印象深刻的能力。尽管已经开发了大量互动系统来支持LLMs的提示工程,涵盖各种任务,但大多数系统主要集中在文本或视觉输入上,从而忽略了多模态输入中各种模态之间的复杂相互作用。这种疏忽阻碍了通过充分利用多种模态提供的丰富上下文来引导模型多模态推理过程的有效提示的发展。在本文中,我们提出了POEM,这是一个视觉分析系统,旨在促进有效的提示工程,以增强LLMs的多模态推理性能。该系统使用户能够探索不同细节级别上跨模态的交互模式,以全面了解各种提示引发的多模态知识。通过多样的示例演示和指导原则的推荐,POEM支持用户迭代地制定和完善提示,以更好地使模型知识与人类见解相一致和增强。我们通过两个案例研究和专家访谈验证了我们系统的有效性和效率。

论文链接: https://arxiv.org/pdf/2406.03843

cs.AI: 利用深度学习方法主动检测物联网服务中的物理互操作漏洞

原标题: Proactive Detection of Physical Inter-rule Vulnerabilities in IoT Services Using a Deep Learning Approach

作者: Bing Huang, Chen Chen, Kwok-Yan Lam, Fuqun Huang

机构: 南洋理工大学 西华盛顿大学

摘要: 新兴的物联网(IoT)平台提供了先进的功能,通过启用用户创建触发-动作规则来自动化物联网服务。多个触发-动作规则可以通过共享环境通道(如温度、湿度和照明)在物理上相互交互。我们将通过共享环境通道进行的规则间交互称为物理规则间漏洞。攻击者可以利用这种漏洞对物联网系统发起攻击。我们提出了一个新框架,通过深度学习方法,从用户需求规范(即描述)中主动发现可能的物理规则间交互。具体来说,我们利用Transformer模型从其关联描述中生成触发-动作规则。我们利用自然语言处理(NLP)工具发现了两种类型的物理规则间漏洞,并确定了相关的环境通道。在提取的触发-动作规则和相关环境通道的基础上,提出了一种方法来识别它们之间的隐藏物理规则间漏洞。我们对27983个类似IFTTT风格的规则进行的实验表明,Transformer可以以95.22%的准确率成功从描述中提取触发-动作规则。我们还在60个SmartThings官方IoT应用上验证了我们方法的有效性,并发现了99个可能的物理规则间漏洞。

论文链接: https://arxiv.org/pdf/2406.03836

cs.AI: 智能物联网综述:应用、安全、隐私和未来方向

原标题: A Survey on Intelligent Internet of Things: Applications, Security, Privacy, and Future Directions

作者: Ons Aouedi, Thai-Hoc Vu, Alessio Sacco, Dinh C. Nguyen, Kandaraj Piamrat, Guido Marchetto, Quoc-Viet Pham

机构: 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空字符串 空

摘要: 物联网(IoT)的快速发展推动了通信技术的革命,并提供了各种客户服务。人工智能(AI)技术被利用来促进物联网操作,并最大限度地发挥其在现代应用场景中的潜力。特别是,物联网和人工智能的融合导致了一个称为智能物联网(IIoT)的新型网络范式,这有可能显著改变企业和工业领域。本文通过调查智能物联网在移动网络中的重要应用及其相关的安全和隐私问题,对IIoT进行了全面调查。具体来说,我们探讨了IIoT在各种关键应用领域中的作用,从智能医疗和智能城市到智能交通和智能工业。通过这些广泛讨论,我们调查了IIoT网络中的重要安全问题,分析了网络攻击、机密性、完整性和入侵,以及潜在的对策讨论。还对IIoT网络中的隐私问题进行了调查和讨论,包括数据、位置和模型隐私泄露。最后,我们概述了几个关键挑战,并强调了这一重要领域的潜在研究方向。

论文链接: https://arxiv.org/pdf/2406.03820

cs.AI: 跨变量线性集成增强变压器用于光伏功率预测

原标题: Cross-variable Linear Integrated ENhanced Transformer for Photovoltaic power forecasting

作者: Jiaxin Gao, Qinglong Cao, Yuntian Chen, Dongxiao Zhang

机构: 上海交通大学 宁波数字孪生研究所 东部工程技术学院 深圳南方科技大学

摘要: 光伏(PV)功率预测在优化光伏系统的运行和规划中发挥着至关重要的作用,从而实现高效的能源管理和电网集成。然而,由于天气条件的波动和不同变量之间复杂相互作用引起的不确定性给准确的光伏功率预测带来了重大挑战。在这项研究中,我们提出了PV-Client(用于光伏功率预测的跨变量线性集成增强Transformer),以解决这些挑战并提高光伏功率预测的准确性。PV-Client采用增强Transformer模块来捕捉光伏系统中各种特征的复杂相互作用,并利用线性模块来学习光伏功率的趋势信息。PV-Client与传统基于时间序列的Transformer模型不同,后者使用跨时间注意力来学习不同时间步之间的依赖关系,增强Transformer模块集成了跨变量注意力来捕捉光伏功率与天气因素之间的依赖关系。此外,PV-Client通过用投影层替换解码器模块简化了嵌入和位置编码层。对三个真实光伏功率数据集的实验结果证实了PV-Client在光伏功率预测中的最先进性能。具体而言,PV-Client在景岗站的均方误差(MSE)指标上比第二好的GRU模型高出5.3%,准确度指标高出0.9%。同样,PV-Client在新青年站的MSE指标上比第二好的SVR模型高出10.1%,准确度指标高出0.2%,在红星站,PV-Client表现出比第二好的SVR模型更优异的性能,MSE指标提高了3.4%,准确度指标提高了0.9%。

论文链接: https://arxiv.org/pdf/2406.03808

cs.AI: 增强语义分割管道用于WeatherProof数据集挑战。

原标题: Enhanced Semantic Segmentation Pipeline for WeatherProof Dataset Challenge

作者: Nan Zhang, Xidan Zhang, Jianing Wei, Fangjun Wang, Zhiming Tan

机构: 空字符串 空字符串

摘要: 这份报告描述了解决WeatherProof数据集挑战(CVPR 2024 UG2+ Track 3)的获胜方案。有关挑战的详细信息可在此网址找到。我们为这一挑战提出了一个增强的语义分割流程。首先,我们改进了语义分割模型,使用预先训练了Depth Anything的骨干网络来改进UperNet模型和SETRMLA模型,并根据天气和类别信息为InternImage模型添加语言引导。其次,我们引入了一个新的数据集WeatherProofExtra,具有更宽的视角,并采用了数据增强方法,包括恶劣天气和超分辨率。最后,我们应用了有效的训练策略和集成方法来进一步提高最终性能。我们的解决方案在最终排行榜上排名第一。代码将在此网址上提供。

论文链接: https://arxiv.org/pdf/2406.03799

Github: https://cvpr2024ug2challenge.github.io/track3.html

cs.AI: 增强图 U-Net 用于网格不可知的时空流预测

原标题: Enhancing Graph U-Nets for Mesh-Agnostic Spatio-Temporal Flow Prediction

作者: Sunwoong Yang, Ricardo Vinuesa, Namwoo Kang

机构: 高级科学技术学院 科技研究所 皇家理工学院 Narnia Labs

摘要: 这项研究旨在克服基于卷积神经网络的传统深度学习方法的局限性,这些方法对复杂几何形状和非结构化网格的适用性受到限制,因为它们固有的网格依赖性。我们提出了改进网格无关时空预测瞬态流场的新方法,使用图 U-Net,实现对不同网格配置的准确预测。对图 U-Net 架构的关键增强包括高斯混合模型卷积算子和噪声注入方法,提供了在建模节点动态方面增强的灵活性:前者与传统卷积算子相比,将预测误差降低了 95%,而后者提高了长期预测的稳健性,导致误差减少了 86%。我们还研究了图 U-Net 在提出的改进方面的传导学习和归纳学习视角。在传导设置中,它们有效地预测了在训练图中看不见的节点的数量。在归纳设置中,它们成功地在具有不同涡流脱落周期的网格场景中执行,相较于在没有归纳设置的情况下训练的模型,显示出对未来流场的预测有 98% 的改进。发现没有池化操作的图 U-Net,即没有减少和恢复图数据节点维度,由于能够从每个图的详细结构中学习,因此在归纳设置中表现更好。同时,我们还发现规范化技术的选择显著影响图 U-Net 的性能。

论文链接: https://arxiv.org/pdf/2406.03789

cs.AI: 将LLMs部署到资源受限的边缘设备的实证指南

原标题: Empirical Guidelines for Deploying LLMs onto Resource-constrained Edge Devices

作者: Ruiyang Qin, Dancheng Liu, Zheyu Yan, Zhaoxuan Tan, Zixuan Pan, Zhenge Jia, Meng Jiang, Ahmed Abbasi, Jinjun Xiong, Yiyu Shi

机构: 圣母大学 布法罗纽约州立大学

摘要: 缩放定律已成为设计大语言模型(LLMs)的实际指南,但它们是在假设训练和推理都有无限计算资源的情况下进行研究的。随着LLMs越来越多地被用作个性化智能助手,它们的定制化(即通过微调学习)和部署到资源受限的边缘设备将变得越来越普遍。一个迫切但开放的问题是,资源受限的计算环境将如何影响个性化LLM的设计选择。我们在这项工作中通过实证研究这一问题。具体而言,我们考虑了许多关键设计因素之间的权衡以及它们对学习效率和准确性的相互影响。这些因素包括LLM定制化的学习方法、用于学习定制化的个性化数据量、LLM的类型和大小、LLM的压缩方法、学习所需的时间量以及目标用例的难度级别。通过广泛的实验和基准测试,我们得出了一些令人惊讶的洞察指南,用于将LLMs部署到资源受限的设备上。例如,参数学习和RAG之间的最佳选择可能会根据下游任务的难度而变化,更长的微调时间不一定有助于模型,而压缩的LLM可能比未压缩的LLM更适合从有限的个性化数据中学习。

论文链接: https://arxiv.org/pdf/2406.03777

cs.AI: 通过基于SVD的权重修剪仅增强上下文学习性能:一个理论视角

原标题: Enhancing In-Context Learning Performance with just SVD-Based Weight Pruning: A Theoretical Perspective

作者: Xinhao Yao, Xiaolin Hu, Shenzhi Yang, Yong Liu

机构: 人民大学高灵人工智能学院 北京大数据管理与分析方法北京实验室

摘要: 预训练的基于Transformer的大语言模型(LLMs)展示了惊人的上下文学习(ICL)能力。通过少量演示输入-标签对,它们可以在没有任何参数更新的情况下预测未见输入的标签。在本文中,我们展示了一个令人兴奋的现象,即基于SVD的权重修剪可以增强ICL性能,更令人惊讶的是,在深层修剪权重通常会导致浅层性能的更稳定改进。然而,这些发现背后的机制仍然是一个悬而未决的问题。为了揭示这些发现,我们通过展示ICL的隐式梯度下降(GD)轨迹并通过完整的隐式GD轨迹给出ICL的基于互信息的泛化界限,进行了深入的理论分析。这有助于我们合理解释令人惊讶的实验发现。此外,基于我们所有的实验和理论见解,我们直观地提出了一个简单的、模型压缩和无导数的算法,用于增强ICL推理中的下游任务。在基准数据集和开源LLMs上的实验显示了该方法的有效性。【代码可在此https URL找到】。

论文链接: https://arxiv.org/pdf/2406.03768

Github: https://github.com/chen123CtrlS/EnhancingICL_SVDPruning

cs.AI: 在全景X射线中的实例分割和牙齿分类

原标题: Instance Segmentation and Teeth Classification in Panoramic X-rays

作者: Devichand Budagam, Ayush Kumar, Sayan Ghosh, Anuj Shrivastav, Azamat Zhanatuly Imanbayev, Iskander Rafailovich Akhmetov, Dmitrii Kaplun, Sergey Antonov, Artem Rychenkov, Gleb Cyganov, Aleksandr Sinitca

机构: 印度理工学院 哈拉格普分校 化学工程系 印度

印度理工学院 哈拉格普分校 人文社会科学系 印度

印度理工学院 哈拉格普分校 计算机科学与工程系 印度

印度理工学院 哈拉格普分校 建筑与区域规划系 印度

摘要: 牙齿分割和识别在各种牙科应用和牙科诊断中至关重要。通过整合深度学习模型,自动和准确的分割方法已经成为可能。尽管过去已经研究了牙齿分割,但只有一些技术能够同时有效地对牙齿进行分类和分割。本文提供了两个深度学习模型 U-Net 和 YOLOv8 的流程,形成了 BB-UNet,这是一种用于全景X射线牙齿分类和分割的高效可靠的新架构。通过利用 YOLOv8 和 U-Net 的能力,我们提高了牙齿分割的质量和可靠性。所提出的网络分别使用了 YOLOv8 和 BB-UNet 的平均精度(mAP)和 Dice 系数进行评估。与现有方法相比,我们在牙齿分类的 mAP 分数上实现了 3% 的增加,并在不同类别的牙齿上,与 U-Net 相比,牙齿分割的 Dice 系数提高了 10-15%。基于 UFBA-UESC 数据集创建了一个新的牙科数据集,其中包含 425 张牙科全景X射线的边界框和多边形注释。这项研究的发现为在牙科诊断领域更广泛地采用目标检测模型铺平了道路。

论文链接: https://arxiv.org/pdf/2406.03747

cs.AI: 使用先进的Transformer模型进行信用卡欺诈检测

原标题: Credit Card Fraud Detection Using Advanced Transformer Model

作者: Chang Yu, Yongshun Xu, Jin Cao, Ye Zhang, Yinxin Jin, Mengran Zhu

机构: 东北大学 马萨诸塞大学洛厄尔分校 约翰霍普金斯大学 匹兹堡大学 密歇根大学安娜堡分校 迈阿密大学

摘要: 随着各种在线和移动支付系统的普及,信用卡欺诈已经成为金融安全的重要威胁。本研究侧重于最新Transformer模型的创新应用,以实现更强大和精确的欺诈检测。为确保数据的可靠性,我们对数据源进行了精心处理,平衡数据集以显著解决数据稀疏性问题。我们还选择了高度相关的向量来加强训练,以保证新Transformer模型的可靠性和实用性,我们与几种广泛采用的模型进行了性能比较,包括支持向量机(SVM)、随机森林、神经网络和逻辑回归。我们严格使用精度、召回率和F1分数等指标比较这些模型。通过这些详细的分析和比较,我们向读者呈现了一个高效而强大的反欺诈机制,展示了可观的前景。结果表明,Transformer模型不仅在传统应用中表现出色,而且在欺诈检测等利基领域显示出巨大潜力,为该领域带来了实质性进展。

论文链接: https://arxiv.org/pdf/2406.03733

其他链接: http://process.To

cs.AI: FastGAS:用于上下文学习的快速基于图的注释选择

原标题: FastGAS: Fast Graph-based Annotation Selection for In-Context Learning

作者: Zihan Chen, Song Wang, Cong Shen, Jundong Li

机构: 弗吉尼亚大学

摘要: 在上下文学习(ICL)中,通过使用一系列训练实例作为提示,使大语言模型(LLMs)能够解决新任务。由于生成提示需要从大量实例中进行采样并对其进行注释(例如,在分类任务中添加标签),现有方法已经提出选择一些未标记的示例进行注释,从而提高提示的质量并同时减少注释成本。然而,由于其复杂性,这些方法通常需要很长时间来选择实例,从而阻碍了它们的实际可行性。为了解决这一限制,我们提出了一种基于图的选择方法FastGAS,旨在高效地识别高质量实例同时最小化计算开销。首先,我们基于实例相似性构建数据相似性图。随后,利用图分区算法将图分成片段。在每个片段(即子图)中,我们采用贪婪方法选择最具代表性的节点。通过从不同片段聚合节点并对相应实例进行注释,我们为ICL确定了一组多样且具有代表性的实例。与先前方法相比,我们的方法不仅在不同任务上表现出优越性能,而且显著减少了选择时间。此外,我们展示了我们的方法在更大规模的LLMs中的有效性。

论文链接: https://arxiv.org/pdf/2406.03730

cs.AI: 离线多目标优化

原标题: Offline Multi-Objective Optimization

作者: Ke Xue, Rong-Xi Tan, Xiaobin Huang, Chao Qian

机构: 清华大学 哈尔滨工业大学

摘要: 离线优化旨在通过静态数据集最大化一个黑盒目标函数,并具有广泛的应用。除了目标函数是黑盒且昂贵的评估外,许多复杂的现实世界问题涉及优化多个相互冲突的目标,即多目标优化(MOO)。然而,与离线单目标优化(SOO)相比,离线MOO的进展并不多,主要是由于缺乏像Design-Bench这样的SOO基准。为了弥合这一差距,我们提出了第一个离线MOO基准,涵盖了从合成到真实任务的一系列问题。该基准提供了任务、数据集和开源示例,可作为离线MOO方法比较和进展的基础。此外,我们分析了当前相关方法如何从数据、模型架构、学习算法和搜索算法四个基本角度适应离线MOO。实证结果显示相对于训练集的最佳值有所改善,证明了离线MOO方法的有效性。由于没有特别突出的方法,进一步提高离线MOO的有效性仍然是一个开放挑战。最后,我们讨论了离线MOO的未来挑战,希望为这一新兴领域提供一些启示。我们的代码可在\url{此https URL}上找到。

论文链接: https://arxiv.org/pdf/2406.03722

Github: https://github.com/lamda-bbo/offline-moo

cs.AI: 针对文本属性人物搜索的属性感知隐式模态对齐

原标题: Attribute-Aware Implicit Modality Alignment for Text Attribute Person Search

作者: Xin Wang, Fangfang Liu, Zheng Li, Caili Guo

机构: 空字符串

摘要: 文本属性人物搜索旨在通过给定的文本属性找到特定的行人,这在通过目击者描述搜索指定行人的场景中非常有意义。关键挑战在于文本属性和图像之间存在显著的模态差距。先前的方法侧重于通过单模态预训练模型实现显式表示和对齐。然而,在这些模型中缺乏跨模态对应可能导致在单模态的局部信息中出现失真。此外,这些方法仅考虑了跨模态的对齐,忽略了不同属性类别之间的差异。为了缓解上述问题,我们提出了一种属性感知隐式模态对齐(AIMA)框架,以学习文本属性和图像之间局部表示的对应关系,并结合全局表示匹配来缩小模态差距。首先,我们将CLIP模型引入作为骨干,并设计提示模板将属性组合转换为结构化句子。这有助于模型更好地理解和匹配图像细节。接下来,我们设计了一个遮罩属性预测(MAP)模块,通过多模态交互预测图像和遮罩文本属性特征相互作用后的遮罩属性,从而实现隐式局部关系对齐。最后,我们提出了一个属性-IoU引导的内模态对比(A-IoU IMC)损失,将嵌入空间中不同文本属性的分布与它们的IoU分布对齐,实现更好的语义排列。在Market-1501 Attribute、PETA和PA100K数据集上进行了大量实验,结果表明我们提出的方法的性能明显优于当前最先进的方法。

论文链接: https://arxiv.org/pdf/2406.03721

cs.AI: Pi-fusion: 用于学习流体动力学的物理信息扩散模型

原标题: Pi-fusion: Physics-informed diffusion model for learning fluid dynamics

作者: Jing Qiu, Jiancheng Huang, Xiangdong Zhang, Zeng Lin, Minglei Pan, Zengding Liu, Fen Miao

机构: 深圳先进技术研究院

摘要: 物理信息深度学习最近作为一种学习物理动态的新范式得到了发展。虽然一般的物理信息深度学习方法已经显示出在学习流体动力学方面的早期潜力,但在现实世界场景中难以推广到任意时间点,其中流体运动可以被视为涉及大规模粒子的时变轨迹。受扩散模型在学习数据分布方面的优势启发,我们首次提出了Pi-fusion,一种用于预测流体动力学中速度和压力场的时间演变的物理信息扩散模型。在Pi-fusion的推断过程中提出了物理信息引导采样,以提高学习流体动力学的准确性和可解释性。此外,我们引入了一种基于互学习的训练策略,以学习流体运动的准周期模式,从而提高模型的泛化能力。然后,通过将所提出的方法与最先进的物理信息深度学习方法进行比较,在合成和真实数据集上对其进行评估。实验结果表明,所提出的方法在预测速度和压力场的时间演变方面明显优于现有方法,通过进行前向过程的概率推断和物理信息引导采样来确认其强大的泛化能力。所提出的Pi-fusion还可以推广到学习由偏微分方程控制的其他物理动态。

论文链接: https://arxiv.org/pdf/2406.03711

cs.AI: TwinS: 重新审视多元时间序列预测中的非稳态性

原标题: TwinS: Revisiting Non-Stationarity in Multivariate Time Series Forecasting

作者: Jiaxi Hu, Qingsong Wen, Sijie Ruan, Li Liu, Yuxuan Liang

机构: 香港科技大学(广州)、松鼠AI、北京理工大学、重庆大学

摘要: 最近,由于多变量时间序列预测任务具有重要的实际应用,吸引了越来越多的关注,导致各种深度预测模型的出现。然而,现实世界中的时间序列表现出明显的非平稳分布特征。这些特征不仅仅局限于非平稳Transformer突出的时变统计特性,还包括三个关键方面:嵌套周期性、缺乏周期性分布以及时间变量之间的滞后效应。在本文中,我们首先通过小波分析验证了这一理论,并提出了基于Transformer的TwinS模型,该模型由三个模块组成,用于处理非平稳周期分布:小波卷积、周期感知注意力和通道-时间混合MLP。具体来说,小波卷积通过调整卷积核大小来模拟小波变换,从而模拟了嵌套周期。周期感知注意力通过通过卷积子网络生成周期相关性分数来引导注意力计算。通道-时间混合MLP通过通道-时间混合学习捕获时间序列之间的整体关系。与主流TS模型相比,TwinS实现了SOTA性能,在MSE方面最大改进达到了25.8%,超过了PatchTST。

论文链接: https://arxiv.org/pdf/2406.03710

cs.AI: 反思性策略优化

原标题: Reflective Policy Optimization

作者: Yaozhong Gan, Renye Yan, Zhe Wu, Junliang Xing

摘要: 在政策梯度强化学习方法中,如Trust Region Policy Optimization(TRPO)和Proximal Policy Optimization(PPO),通常需要每次更新大量数据,导致样本效率低下。本文介绍了Reflective Policy Optimization(RPO),这是一种新颖的基于政策的扩展,将过去和未来的状态-动作信息融合在一起进行政策优化。这种方法使智能体能够进行内省,允许在当前状态下修改其动作。理论分析证实,政策性能得到单调改善并收缩解空间,从而加快了收敛过程。实证结果表明RPO在两个强化学习基准测试中的可行性和有效性,最终实现了更高的样本效率。本工作的源代码可在此https URL找到。

论文链接: https://arxiv.org/pdf/2406.03678

Github: https://github.com/Edgargan/RPO

cs.AI: PANDA: 扩展宽度感知消息传递,超越重连

原标题: PANDA: Expanded Width-Aware Message Passing Beyond Rewiring

作者: Jeongwhan Choi, Sumin Park, Hyowon Wi, Sung-Bae Cho, Noseong Park

摘要: 最近在图神经网络(GNN)领域的研究已经确定了一个被称为“过度压缩”的关键问题,这是由于图结构中的瓶颈现象导致的,这一现象阻碍了长距离信息的传播。先前的研究提出了各种图重连概念,旨在优化图的空间或谱特性,以促进信号传播。然而,这些方法不可避免地会破坏原始图的拓扑结构,这可能导致信息流失真。为了解决这个问题,我们引入了一种扩展的宽度感知(PANDA)消息传递,这是一种新的消息传递范式,其中具有高中心性的节点,即可能导致过度压缩的节点,被选择性地在宽度上扩展,以封装来自远程节点的不断增长的信号。实验结果表明,我们的方法优于现有的重连方法,表明有选择性地扩展节点的隐藏状态可能是解决过度压缩问题的一个引人注目的替代方案。

论文链接: https://arxiv.org/pdf/2406.03671

cs.AI: 2024年CVPR PVUW研讨会MOSE Track的第三名解决方案:复杂视频对象分割

原标题: 3rd Place Solution for MOSE Track in CVPR 2024 PVUW workshop: Complex Video Object Segmentation

作者: Xinyu Liu, Jing Zhang, Kexin Zhang, Yuting Yang, Licheng Jiao, Shuyuan Yang

机构: 西安电子科技大学

摘要: 视频对象分割(VOS)是计算机视觉中的一个重要任务,重点是区分视频帧中的前景对象和背景。我们的工作受到Cutie模型的启发,我们研究了对象记忆、记忆帧的总数以及输入分辨率对分割性能的影响。本报告验证了我们推理方法在复杂视频对象分割(MOSE)数据集上的有效性,该数据集具有复杂的遮挡情况。我们的实验结果表明,我们的方法在测试集上实现了0.8139的J&F分数,获得了最终排名的第三名。这些发现突显了我们的方法在处理具有挑战性的VOS场景时的稳健性和准确性。

论文链接: https://arxiv.org/pdf/2406.03668

cs.AI: 通过强化学习实现动态趋势点检测的动态趋势过滤

原标题: Towards Dynamic Trend Filtering through Trend Point Detection with Reinforcement Learning

作者: Jihyeon Seong, Sekwang Oh, Jaesik Choi

机构: 韩国科学技术研究院(KAIST) INEEJI

摘要: 趋势过滤通过对数据应用平滑处理来简化复杂的时间序列数据,以过滤噪音并强调与原始数据的接近程度。然而,现有的趋势过滤方法由于“近似性”而未能反映趋势中的突变,导致平滑度保持不变。这种近似性会均匀地过滤掉时间序列数据的尾部分布,其特点是极端值,包括突变和噪音。在本文中,我们提出了作为马尔可夫决策过程(MDP)的趋势点检测,这是一种识别应该在趋势中反映的关键点的新方法,摆脱了近似。我们将这些关键点称为动态趋势点(DTPs),并通过插值来提取趋势。为了识别DTPs,我们利用强化学习(RL)在离散动作空间内,并将预测的平方损失函数作为奖励,称为动态趋势过滤网络(DTF-net)。DTF-net集成了灵活的噪音过滤,保留了关键的原始子序列,同时根据需要去除噪音以用于其他子序列。我们证明,与其他趋势过滤算法相比,DTF-net在捕捉突变方面表现出色,并提高了预测性能,因为它预测了突变而不是平滑处理。

论文链接: https://arxiv.org/pdf/2406.03665



声明

本文内容仅代表作者观点,或转载于其他网站,本站不以此文作为商业用途
如有涉及侵权,请联系本站进行删除
转载本站原创文章,请注明来源及作者。