AI模型预部署的可靠性评估

一条小凝阳 • 2025年05月21日 14:12 • 作者专栏 • 阅读 4

基础模型是大量的深度学习模型，这些模型已经在大量通用的、未标记的数据上进行了预训练。它们可以应用于各种任务，比如生成图像或回答客户问题。但是，作...

基础模型是大量的深度学习模型，这些模型已经在大量通用的、未标记的数据上进行了预训练。它们可以应用于各种任务，比如生成图像或回答客户问题。

但是，作为ChatGPT和DALL-E等强大人工智能工具的支柱，这些模型可能会提供不正确或误导性的信息。在安全关键的情况下，比如行人接近自动驾驶汽车，这些错误可能会造成严重后果。

为了防止此类错误，麻省理工学院和麻省理工学院- ibm沃森人工智能实验室的研究人员开发了一种技术，可以在将基础模型部署到特定任务之前评估其可靠性。

他们通过训练一组彼此略有不同的基础模型来做到这一点。然后，他们使用他们的算法来评估每个模型对相同测试数据点学习的表示的一致性。如果表示是一致的，就意味着模型是可靠的。

当他们将他们的技术与最先进的基线方法进行比较时，它在捕获各种分类任务的基础模型的可靠性方面表现得更好。

有人可以使用这种技术来决定一个模型是否应该应用于特定的环境，而不需要在现实世界的数据集上进行测试。当数据集可能由于隐私问题而无法访问时，例如在医疗保健环境中，这可能特别有用。此外，该技术可用于基于可靠性分数对模型进行排序，使用户能够为其任务选择最佳模型。

“所有模型都可能出错，但知道自己什么时候出错的模型更有用。对于这些基础模型来说，量化不确定性或可靠性的问题变得更加困难，因为它们的抽象表示难以比较。我们的方法可以让你量化表示模型对于任何给定输入数据的可靠性，”资深作者Navid Azizan说，他是麻省理工学院机械工程系和数据、系统和社会研究所(IDSS)的Esther和Harold E. Edgerton助理教授，也是信息和决策系统实验室(LIDS)的成员。

他与第一作者Young-Jin Park (LIDS研究生)一起撰写了一篇关于这项工作的论文;麻省理工学院- ibm沃森人工智能实验室的研究科学家王浩;以及Netflix的高级研究科学家谢尔文·阿德希尔。该论文将在人工智能不确定性会议上发表。

统计共识

传统的机器学习模型被训练来执行特定的任务。这些模型通常根据输入做出具体的预测。例如，模型可能会告诉你某张图片中是猫还是狗。在这种情况下，评估可靠性可能只是查看最终预测，看看模型是否正确。

但基金会的模式是不同的。该模型使用一般数据进行预训练，其创建者并不知道该模型将应用于的所有下游任务。用户在训练完成后就可以让它适应自己的特定任务。

与传统的机器学习模型不同，基础模型不会给出像“猫”或“狗”标签这样的具体输出。相反，它们基于输入数据点生成抽象表示。

为了评估基础模型的可靠性，研究人员使用了一种集成方法，通过训练几个模型，这些模型具有许多相同的特性，但彼此之间略有不同。

“我们的想法就像计算共识。如果所有这些基础模型对我们数据集中的任何数据都给出了一致的表示，那么我们可以说这个模型是可靠的，”Park说。

但他们遇到了一个问题:他们如何比较抽象的表示?

他补充说:“这些模型只是输出一个矢量，由一些数字组成，所以我们不能轻易地比较它们。”

他们用一种叫做邻域一致性的想法解决了这个问题。

对于他们的方法，研究人员准备了一组可靠的参考点来测试模型的集合。然后，对于每个模型，他们调查位于该模型表示的测试点附近的参考点。

通过观察相邻点的一致性，他们可以估计模型的可靠性。

对齐表示

基础模型在所谓的表示空间中映射数据点。我们可以把这个空间看成一个球体。每个模型都将相似的数据点映射到其球体的同一部分，因此猫的图像放在一个地方，狗的图像放在另一个地方。

但是每个模型会在自己的领域内绘制不同的动物地图，所以当猫可能被分组在一个球体的南极附近时，另一个模型可以在北半球的某个地方绘制猫的地图。

研究人员使用像锚一样的邻近点来对齐这些球体，这样它们就可以使表征具有可比性。如果一个数据点的邻居在多个表示中是一致的，那么应该对该点的模型输出的可靠性有信心。

当他们在大范围的分类任务中测试这种方法时，他们发现它比基线更加一致。另外，它不会因为挑战测试点而导致其他方法失败。

此外，他们的方法可用于评估任何输入数据的可靠性，因此人们可以评估模型对特定类型的个体(例如具有某些特征的患者)的效果如何。

王说:“即使所有型号的整体性能都是平均水平，从个人的角度来看，你也会更喜欢最适合自己的型号。”

然而，一个限制来自于它们必须训练一个大型基础模型的集合，这在计算上是昂贵的。在未来，他们计划找到更有效的方法来建立多个模型，也许是通过使用单个模型的小扰动。

这项工作部分由麻省理工学院- ibm沃森人工智能实验室、MathWorks和亚马逊资助。

本文来自作者[一条小凝阳]投稿，不代表美橙号立场，如若转载，请注明出处：https://wak.chengcrm.top/zlan/202505-1603.html

4 4

本文作者

一条小凝阳签约作者

0 文章

1 粉丝

我是美橙号的签约作者[一条小凝阳],本篇文章《AI模型预部署的可靠性评估》主要讲述了:基础模型是大量的深度学习模型，这些模型已经在大量通用的、未标记的数据上进行了预训练。它们可以应用于各种任务，比如生成图像或回答客户问题。但是，作...

科技世界

安华要求慕尤丁就联邦土地发展局债务问题道歉并赔偿2亿令吉

　　　　吉隆坡，7月21日——拿督斯里安华今天要求丹斯里慕尤丁在24小时内道歉并赔偿2亿令吉，否则将面临法律诉讼。　　他的律师拿督桑卡拉向《马来邮报》证实，他的当事人的信件已于今天下午4点45分送达代表慕尤丁的律师事务所。　　“我们的客户(安华)坚持

一只向凝呀
2025年05月21日
0
知识分享

《周日》节目：黄金时段调查新闻的落幕

最初由衍生剧出版据证实，新西兰电视台周日的新闻节目将于5月停播，这也意味着黄金时段的调查性新闻节目的终结。国家广播公司的一位发言人表示:“随着会议的结束，我可以证实，已经提出了一项可能导致周日取消的提案。”“由于其他会议正在进行中，现阶段我无法进一步置评

一条小新槐
2025年05月21日
0
生活经验

普京任命前瓦格纳指挥官掌管军队

　　(彭博社)——克里姆林宫在其网站上宣布，弗拉基米尔·普京总统已任命瓦格纳雇佣军组织的前最高指挥官负责乌克兰的志愿部队。普京指出，这些部队将承担“多种作战任务”。五角大楼的主计长表示，如果联邦政府关闭，负责监督训练并与乌克兰军队进行日常接触的美国欧洲司令部将在

一条小凝阳
2025年05月21日
0
生活经验

六款最受欢迎的任天堂游戏推荐

不过，并不是所有人都愿意花一大笔钱购买全新的控制器。有些人可能更愿意节省一些钱，用他们已经拥有的控制器制作一个赛车轮。它不会像一个全动力的赛车轮那样身临其境或精确，但你可以通过购买一个外壳，把你的Switch附带的joy-con变成一个运动控制的赛车轮。亚马逊

一只博耘呀
2025年05月21日
1
作者专栏

乌克兰无人机攻击俄罗斯别尔哥罗德地区，造成4人受伤

当局周四早些时候表示，别尔哥罗德地区谢贝基尼奥镇发生无人机袭击，造成至少4人受伤，其中包括两名医护人员。别尔哥罗德州州长维亚切斯拉夫·格拉德科夫说，一名女护理人员的一条腿和一条胳膊受伤。一名男性护理人员因爆炸导致脑震荡，背部有弹片伤。州长说，两名护理

一条小荷紫
2025年05月21日
1
生活经验

地毯对烟草烟雾中的污染物展现出持久的抑制作用

在吸烟频繁的环境中，即使吸烟行为已经停止很久，烟草的痕迹依然会留在室内的表面。这种被称为三手烟的残留物可能成为室内污染物的长期来源。由美国能源部劳伦斯伯克利国家实验室的研究团队进行的一项新研究，专注于地毯，地毯是烟草污染物的一个特别强大且难以清除的储存库。

一只博耘呀
2025年05月21日
0
科技世界

检方召唤十名证人出庭作证，涉及歌手亚辛的毒品案件

　　　　8月9日，百打灵查亚讯——今天在法庭上获悉，预计将在nasyid歌手及作曲家穆罕默德·亚辛·苏莱曼的毒品案件审判中，传唤8至10名控方证人作证。　　副检察官拉贾·扎伊祖尔·法里达·拉贾·扎哈鲁丁在法官法伊兹·迪亚乌丁面前的案件管理期间向法庭

一只向凝呀
2025年05月21日
0
生活经验

“工作人员在Gwinnett县清理废墟、砍伐树木并修复电线，面对严重灾后挑战”

佐治亚州格温内特县在格威内特县，工作人员正在努力清理倒下的树木和电线。热带风暴“海伦”夜间在格威内特县和乔治亚州登陆。在利尔本阿尔卑斯大道上的一户人家，一棵大树倒在了一户人家的车库顶上。“地震发生时，我正在房间后面睡觉，整个房子都震动了。周

一条小新槐
2025年05月21日
1
知识分享

ELLIS AI卓越中心在巴塞罗那揭幕

UAB和CVC是欧洲学习和智能系统实验室(ELLIS)的一部分，该实验室是泛欧人工智能卓越网络，连接了欧洲该领域最优秀的研究人员。埃利斯小组将于6月12日星期五上午11点在巴塞罗那举行就职典礼，研究和大学部长若阿金·纳达尔和商业和劳工部长罗杰·托瑞特将出席加泰罗尼亚研究所Pratd

一条小荷紫
2025年05月21日
1
综合

兰开斯特父亲因枪杀四名子女及岳母被判无期徒刑

兰开斯特，加州——周三，一名兰开斯特男子被判终身监禁，不得假释，他枪杀了自己的四个年幼的孩子和照看他们的祖母。3月12日，32岁的格马库斯·拉马尔·大卫被判五项一级谋杀罪，罪名是在2021年11月28日杀害了他11岁的女儿米尼亚和他的三个儿子，7岁的小格马库斯，2

一条小凝阳
2025年05月21日
1

发表回复

本站作者后才能评论

评论列表（4条）

一条小凝阳 2025年05月21日

我是美橙号的签约作者“一条小凝阳”！

回复
一条小凝阳 2025年05月21日

希望本篇文章《AI模型预部署的可靠性评估》能对你有所帮助！

回复
一条小凝阳 2025年05月21日

本站[美橙号]内容主要涵盖：国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

回复
一条小凝阳 2025年05月21日

本文概览：基础模型是大量的深度学习模型，这些模型已经在大量通用的、未标记的数据上进行了预训练。它们可以应用于各种任务，比如生成图像或回答客户问题。但是，作...

回复

AI模型预部署的可靠性评估

本文作者

文章推荐

发表回复

评论列表（4条）

联系我们