AMZ123跨境卖家导航
拖动LOGO到书签栏,立即收藏AMZ123
首页跨境头条文章详情

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

Shulex
Shulex
4939
2024-05-16 10:59
2024-05-16 10:59
4939

想系统掌握亚马逊广告的投放逻辑与底层闭环?点击免费学习《亚马逊广告基础逻辑》


Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

目录:



概述

今年AI指数的技术表现部分提供了2023AI进步的全面概述。它从AI技术性能的高级概述开始,追踪其随时间的广泛演变。然后,本章研究了广泛的AI能力的现状,包括语言处理、编码、计算机视觉(图像和视频分析)、推理、音频处理、自主代理、机器人和强化学习。它还聚焦了过去一年中显著的AI研究突破,探索了通过提示、优化和微调来改进法学硕士的方法,并以探索AI系统的环境足迹结束。

欢迎来到第七版AI指数报告。2024年指数是我们迄今为止最全面的指数,在AI对社会的影响从未如此明显的重要时刻到来。今年,我们扩大了研究范围,更广泛地涵盖了AI的技术进步、公众对该技术的看法以及围绕其发展的地缘政治动态等基本趋势。该版本提供了比以往更多的原始数据,介绍了对AI培训成本的新估计,对负责任的AI前景的详细分析,以及专门介绍AI对科学和医学影响的全新章节。

AI指数报告跟踪、整理、提炼和可视化与人工智能(AI)相关的数据。我们的使命是提供公正、严格审查、来源广泛的数据,以便政策制定者、研究人员、高管、记者和公众对复杂的AI领域有更全面、更细致的了解。

AI指数是全球公认的最可信、最权威的人工智能数据和见解来源之一。之前的版本曾被《纽约时报》、《彭博社》、《卫报》等主要报纸引用,积累了数百次学术引用,并被美国、英国、欧盟等地的高层决策者引用。今年的版本在规模、规模和范围上都超过了以往的所有版本,反映了AI在我们生活中越来越重要。

本章重点:

1. AI在某些任务上胜过人类,但并非在所有任务上都胜过人类。AI在几个基准上的表现超过了人类,包括图像分类、视觉推理和英语理解。然而,它在更复杂的任务上落后于人类,比如竞赛级数学、视觉常识推理和规划。

2. 多模式AI了。传统上,AI系统的范围有限,语言模型在文本理解方面表现出色,但在图像处理方面表现不佳,反之亦然。然而,最近的进步导致了强大的多模态模型的发展,例如GoogleGeminiOpenAIGPT-4。这些模型展示了灵活性,能够处理图像和文本,在某些情况下甚至可以处理音频。

3. 更严格基准出现了。AI模型在ImageNetSQuADSuperGLUE等既定基准上的性能已经达到饱和,这促使研究人员开发更具挑战性的模型。2023年,出现了几个具有挑战性的新基准,包括用于编码的SWE-bench、用于图像生成的HEIM、用于一般推理的MMMU、用于道德推理的MoCa、用于基于代理的行为的AgentBench和用于幻觉的HaluEval

4. 更好的AI意味着更好的数据,这意味着更好的AI。新的AI模型,如SegmentAnythingSkoltech,正被用来为图像分割和3D重建等任务生成专门的数据。数据对于AI技术改进至关重要。使用AI来创建更多的数据增强了当前的能力,并为未来的算法改进铺平了道路,特别是在更难的任务上。

5. 人的评价很流行。随着生成模型产生高质量的文本、图像等,基准测试已经慢慢开始转向纳入人类评估,如聊天机器人竞技场排行榜,而不是像ImageNetSQuAD这样的计算机化排名。公众对AI的感受正在成为跟踪AI进展的一个越来越重要的考虑因素。


6. 多亏了法学硕士,机器人变得更加灵活。语言建模与机器人技术的融合催生了更灵活的机器人系统,比如PaLM-ERT-2。除了改进的机器人能力之外,这些模型还可以提出问题,这标志着机器人朝着能够更有效地与现实世界互动的方向迈出了重要的一步。


7. agenticAI中更多的技术研究。创建AI代理,即能够在特定环境中自主操作的系统,长期以来一直是计算机科学家面临的挑战。然而,新兴的研究表明,自主AI代理的性能正在提高。目前的智能体现在可以掌握像《我的世界》这样的复杂游戏,并有效地处理现实世界的任务,比如网上购物和研究协助。


8. 封闭式法学硕士的表现明显优于开放式的。10个选定的AI基准测试中,封闭模型的表现优于开放模型,平均性能优势为24.2%。封闭模型和开放模型的表现差异对AI政策辩论具有重要意义。

2.12023年AI概述

时间轴:重大模型发布

根据AI指数指导委员会的选择,以下是2023年发布的一些最值得注意的模型:

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

AI性能状态

截至2023年,AI已经在一系列任务中实现了超越人类能力的性能水平。图2.1.16说明了AI系统相对于人类基线的进展,对应于9个任务(例如,图像分类或基础级阅读理解)9AI基准人工智能指数团队选择了一个基准来代表每个任务。

多年来,AI在一些基准上超过了人类的基线,比如2015年的图像分类、2017年的基本阅读理解、2020年的视觉推理和2021年的自然语言推理。截至2023年,仍有一些任务类别AI无法超越人类的能力。这些任务往往是更复杂的认知任务,比如视觉常识推理和高级数学问题解决(竞赛级别的数学问题)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

人工智能指数基准

正如去年报告中强调的那样,AI技术性能的一个新兴主题是在许多基准上观察到的饱和,例如用于评估AI模型熟练程度的ImageNet

近年来,这些基准的表现停滞不前,表明要么是AI能力停滞不前,要么是研究人员转向更复杂的研究挑战。由于饱和,2023年人工智能指数中的几个基准在今年的报告中被省略了。图2.1.17突出显示了2023年版本中包含但未在今年报告中出现的一些基准它还显示了自2022年以来这些基准的改善情况。“NA”表示没有注意到任何改善。

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

2.1.18显示了2023年人工智能指数报告中精选基准的同比改善情况(以百分比为单位)。大多数基准测试在引入后很快就会看到显著的性能提升,然后改善速度减慢。在过去的几年里,许多这些基准测试几乎没有显示出任何改善。

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

为了应对基准测试的饱和,AI研究人员正在从传统的基准测试转向在更困难的挑战上测试AI2024AI Index跟踪了几个新基准的进展,包括编码、高级推理和代理行为方面的任务,这些领域在以前的报告版本中代表性不足(2.1.19)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

2.2 语言

自然语言处理(NLP)使计算机能够理解、解释、生成和转换文本。目前最先进的模型,如OpenAIGPT-4和谷歌的双子座,能够生成流畅连贯的散文,并显示出高水平的语言理解能力(2.2.1)。许多这样的模型现在也可以处理不同的输入形式,比如图像和音频(2.2.2)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

理解

英语语言理解挑战人工智能系统以各种方式理解英语,如阅读理解和逻辑推理。

HELM:语言模型整体评估如上所述,近年来,法学硕士在传统的英语基准上的表现超过了人类,比如SQuAD(问答)SuperGLUE(语言理解)。这种快速的进步导致需要更全面的基准测试。

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

2022年,斯坦福大学的研究人员引入了HELM(语言模型整体评估),旨在评估各种场景下的法学硕士,包括阅读理解、语言理解和数学推理HELM评估了几家领先公司的模型,如Anthropic、谷歌、MetaOpenAI,并使用平均胜率来跟踪所有场景的平均表现。截至20241月,GPT-40.96的平均胜率领跑总HELM排行榜(2.2.3);然而,不同的模型停止不同的任务类别(2.2.4)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

MMLU:大规模多任务语言理解

海量多任务语言理解(MMLU)基准评估模型在57个科目(包括人文学科、STEM和社会科学)的零射击或少射击场景中的性能(2.2.5)MMLU已经成为总理评估LLM能力的基准:许多最先进的模型,如GPT-4Claude 2Gemini,已经针对MMLU进行了评估。

2023年初,GPT-4MMLU上取得了最先进的成绩,后来被谷歌的Gemini Ultra超越。图2.2.6显示了不同年份MMLU基准上的最高模型得分。报告的分数是整个测试集的平均值。截至20241月,Gemini Ultra的得分最高,为90.0%,自2022年以来提高了14.8个百分点,自2019MMLU成立以来提高了57.6个百分点。Gemini Ultra的得分首次超过了MMLU的人类基线89.8%

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

在生成任务中,测试AI模型产生流利和实用的语言响应的能力。

聊天机器人竞技场排行榜

有能力的法学硕士的崛起,使得了解哪些模型是正确的变得越来越重要受到大众的青睐。聊天机器人竞技场排行榜于2023年推出,是对公众法学硕士偏好的首批综合评估之一。排行榜允许用户查询两个匿名模型,并投票选出偏好的世代(2.2.7)。截至2024年初,该平台已获得超过20万张选票,用户将OpenAIGPT-4 Turbo评为最受欢迎的模型(2.2.8)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

真实性

尽管取得了显著的成就,但法学硕士仍然容易受到事实不准确和内容幻觉的影响——创造看似真实但虚假的信息。现实世界中法学硕士产生幻觉的例子——例如在法庭案件中——凸显了密切监测法学硕士事实趋势的日益必要性。

ACL 2022上推出的TruthfulQA是一个旨在评估法学硕士在生成问题答案时的真实性的基准。该基准包括38个类别的约800个问题,包括健康、政治和金融。许多问题都是为了挑战人们普遍持有的误解而精心设计的,这些误解通常会导致人们回答错误(2.2.9)。尽管本文的观察结果之一是较大的模型往往不太真实,但在2024年初发布的GPT-4 (RLHF)TruthfulQA基准上取得了迄今为止最高的性能,得分为0.6(1)

(2.2.10)。这一分数比2021年测试的基于gpt -2的模型高出近三倍,表明法学硕士在提供真实答案方面正变得越来越好。

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

HaluEval

如前所述,法学硕士容易产生幻觉,鉴于他们在法律和医学等关键领域的广泛部署,这是一个令人担忧的特征。虽然现有的研究旨在了解幻觉的原因,但很少有人致力于评估法学硕士幻觉的频率,并确定他们特别脆弱的特定内容领域。

HaluEval2023年推出,是一种旨在评估法学硕士幻觉的新基准。它包括超过35,000个样本,包括幻觉和正常,供法学硕士分析和评估(2.2.11)。研究表明,ChatGPT在大约19.5%的回复中捏造了无法验证的信息,这些捏造跨越了语言、气候和技术等各种主题。此外,该研究还检验了当前法学硕士检测幻觉的能力。图2.2.12展示了领先的法学硕士在各种任务中识别幻觉的表现,包括问题回答、基于知识的对话和文本摘要。研究结果显示,许多法学硕士在这些任务中挣扎,强调了幻觉是一个重要的持续问题。

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

编码涉及生成指令,计算机可以遵循这些指令来执行任务。最近,法学硕士已经成为熟练的程序员,成为计算机科学家的宝贵助手。越来越多的证据表明,许多程序员发现AI编码助手非常有用。

2.3 编码

在许多编码任务中,AI模型面临着生成可用代码或解决计算机科学问题的挑战。

HumanEval

HumanEval是评估AI系统编码能力的基准,由OpenAI研究人员于2021年推出。它由164个具有挑战性的手写编程问题组成(2.3.1)GPT-4模型变体(AgentCoder)目前在HumanEval性能方面领先,得分为96.3%,比最高分提高了11.2个百分点在2022(2.3.2)。自2021年以来,HumanEval的表现提高了64.1个百分点。

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

SWE-工作台

随着AI系统编码能力的提高,在更具挑战性的任务上对模型进行基准测试变得越来越重要。202310月,研究人员引入了sw -bench,这是一个包含2294个软件工程问题的数据集,这些问题来自真实的GitHub问题和流行的Python存储库(2.3.3)sw -benchAI编码能力提出了更严格的测试,要求系统协调各个方面的变化多个功能,与各种执行环境交互,进行复杂推理。

即使是最先进的法学硕士也面临着sw -bench的重大挑战。表现最好的模型Claude 2只解决了数据集问题的4.8%(2.3.4)2023年,sw -bench上表现最好的车型比2022年的最佳车型高出4.3个百分点。

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

计算机视觉允许机器理解图像和视频,并从文本提示或其他输入创建逼真的视觉效果。这项技术被广泛应用于自动驾驶、医学成像和视频游戏开发等领域。

2.4 图像计算机视觉和图像生成

图像生成是生成与真实图像无法区分的图像的任务。今天的图像生成器非常先进,以至于大多数人很难区分ai生成的图像和人脸的实际图像(2.4.1)。图2.4.2突出了从2022年到2024年的各种中途旅行模型变体的几代,以提示哈利波特的超现实形象。这一进展表明,在两年的时间里,中途旅行生成超现实图像的能力有了显著提高。2022年,该模型制作出了卡通化的、不准确的哈利波特效果图,但到2024年,它可以创造出惊人的逼真的描绘。

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

HEIM:文本到图像模型的整体评估

AI文本到图像系统的快速发展促使了更复杂的评估方法的发展。2023年,斯坦福大学的研究人员引入了文本到图像模型的整体评估(HEIM),这是一个基准,旨在从12个关键方面全面评估图像生成器,这些方面对现实世界的部署至关重要,如图像-文本对齐、图像质量和美学人类评估员被用来对模型进行评级,这是一个至关重要的特征,因为许多自动化指标难以准确评估图像的各个方面。

HEIM的研究结果表明,没有一个模型在所有标准中都表现出色。对于人类对图像到文本对齐的评估(评估生成的图像与输入文本的匹配程度)OpenAIDALL-E 2得分最高(2.4.3)。在图像质量(衡量图像是否与真实照片相似)、美学(评估视觉吸引力)和原创性(衡量新图像生成和避免侵犯版权)方面,基于Stable diffusionDreamlike Photoreal模型排名最高(2.4.4)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)强调研究:MVDream

从文本提示创建3D几何或模型一直是AI研究人员面临的重大挑战,现有模型正在努力解决诸如多面两面问题(不准确地再生文本提示所描述的上下文)和内容漂移(不同3D视图之间的不一致)等问题。MVDream是由字节跳动和加州大学圣地亚哥分校的研究人员克服了其中的一些障碍(2.4.5)。在定量评价中,MVDream生成的模型达到了Inception Score (IS)CLIP分数与训练集中的分数相当,表明生成的图像(2.4.6)MVDream具有重大意义,特别是对在创意产业中,3D内容创作传统上是耗时且劳动密集型的。

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

指导遵循

在计算机视觉中,指令跟随是视觉语言模型解释与图像相关的基于文本的指令的能力。例如,AI系统可以获得各种食材的图像,并负责建议如何使用它们来准备一顿健康的饭。能够跟随指令的视觉语言模型是开发高级AI助手所必需的。

访问信息工作台

2023年,一个由行业和学术研究人员组成的团队推出了VisIT-Bench,这是一个由592个具有挑战性的视觉语言指令组成的基准,涵盖约70个指令类别,如情节分析、艺术知识和位置理解(图2.4.8)。截至2024年1月,VisIT-Bench上的领先模型是GPT-4V, GPT-4 Turbo的视觉版本,Elo得分为1349,略高于VisIT-Bench的人类参考得分(图2.4.9)。

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

编辑

图像编辑包括使用AI根据文本提示修改图像。这种人工智能辅助的方法在工程、工业设计和电影制作等领域有着广泛的现实应用。

编辑值

尽管文本引导的图像编辑很有前景,但很少有可靠的方法可以评估AI图像编辑器遵守编辑提示的准确性。EditVal是一个评估文本引导图像编辑的新基准,它包括超过13种编辑类型,例如在19个对象类中添加对象或更改其位置(2.4.10)。该基准被应用于评估包括SINENull-text在内的八种领先的文本引导图像编辑方法。自2021年以来,在各种基准的编辑任务上的性能改进如图2.4.11所示。

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

强调研究:

调节输入或执行条件控制是指通过指定生成的图像必须满足的某些条件来引导图像生成器生成的输出的过程。现有的文本到图像模型往往缺乏对图像空间构成的精确控制,因此很难单独使用提示来生成布局复杂、形状多样和特定姿势的图像。通过在额外的图像上训练这些模型来微调这些模型以获得更大的构图控制在理论上是可行的,但是许多专门的数据集,比如人类姿势的数据集,都不够大,无法支持成功的训练。

2023年,斯坦福大学的研究人员推出了一种改进的新模型——控制网(ControlNet)用于大型文本到图像扩散模型的条件控制编辑(2.4.12)

控制网因其处理各种调节输入的能力而脱颖而出。与2022年之前发布的其他模型相比,人类评分者在质量和条件保真度方面都更喜欢控制网(2.4.13)。控制网的引入是朝着创建高级文本到图像生成器迈出的重要一步,该生成器能够编辑图像,更准确地复制现实世界中经常遇到的复杂图像。

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

强调研究:

新模型可以只使用文本指令编辑3D几何图形。Instruct-NeRF2NeRF是伯克利研究人员开发的一个模型,它采用图像条件扩散模型对3D几何图形进行基于文本的迭代编辑

(2.4.14)。这种方法有效地生成新的、经过编辑的图像,这些图像遵循文本指令,实现了比当前领先方法更大的一致性(2.4.15)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

分割涉及到将单个图像像素分配到特定的类别(例如:人、自行车或街道)

强调研究:

2023年,Meta研究人员启动了Segment Anything项目,该项目以Segment Anything模型(SAM)和用于图像分割的广泛SA-1B数据集为特色。SAM值得注意的是,它是第一个可广泛推广的分割模型之一,在新任务和分布上表现良好。Segment Anything23个分割数据集中的16个上优于RITM等领先的分割方法(2.4.17)。评估Segment Anything的度量是平均交点除以联合(IoU)


然后使用MetaSegment Anything模型,与人类注释器一起创建SA-1B数据集,其中包括1100万张图像中超过10亿个分割掩码(2.4.16)。这种规模的新分割数据集将加速未来图像分割器的训练。《Segment Anything》展示了AI模型如何与人类一起使用,以更有效地创建大型数据集,而这些数据集又可以用来训练更好的AI系统。


Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

3D从图像重建

3D图像重建是从二维图像创建三维数字几何图形的过程。这种类型的重建可用于医学成像、机器人技术和虚拟现实。

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

实时融合

牛津大学研究人员开发的RealFusion是一种新方法,可以从单张图像中生成完整的物体3D模型,克服了单张图像信息不足的挑战,无法进行360度的完整重建。RealFusion利用现有的2D图像生成器生成一个对象的多个视图,然后将这些视图组装成一个完整的360度模型(2.4.20)。与2021年最先进的方法(货架监督)相比,该技术可以在广泛的对象上产生更精确的3D重建(2.4.21)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

视频分析关注的是跨视频执行任务,而不是单个图像。2.5视频计算机视觉和视频生成
视频生成涉及使用AI从文本或图像生成视频。
UCF101
UCF101是一个包含101个动作类别的逼真动作视频动作识别数据集(2.5.1)。最近,UCF101被用于对视频生成器进行基准测试。今年的顶级模特W.A.L.T-XLFVD16得分为36,比去年的最高分减少了一半多(2.5.2)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

调整你的潜力
大多数现有的方法只能创建短的、低分辨率的视频。为了解决这一限制,一个国际研究团队应用了传统上用于生成高质量图像的潜在扩散模型来制作高分辨率视频(2.5.3)。他们的潜在扩散模型(LDM)在分辨率质量上明显优于之前在2022年发布的最先进的方法,如Long video an (LVG)(2.5.4)。采用文本到图像的架构来创建LDM(一种高效的文本到视频模型),体现了先进的AI技术如何在计算机视觉的不同领域中重新利用。LDM强大的视频生成能力有许多现实世界的应用,例如创建逼真的驾驶模拟。

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

Emu Video
传统上,视频生成的进展落后于图像生成,因为它的复杂性更高,可用于训练的数据集更小。Emu VideoMeta研究人员创建的一种新的基于变压器的视频生成模型,它代表了一个重要的进步(2.5.5)Emu Video从文本生成图像,然后基于文本和图像创建视频。图2.5.6说明了Emu Video模型优于先前发布的最先进的视频生成方法的程度。度量标准是人类评估者更喜欢Emu Video的图像质量或对文本的忠实度的情况的比例。

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)对比方法上的指令。Emu Video简化了视频生成过程,标志着高质量视频生成的新时代。Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

AI中的推理涉及AI系统从不同形式的信息中得出逻辑有效结论的能力。AI系统越来越多地在不同的推理环境中进行测试,包括视觉(对图像进行推理)、道德(理解道德困境)和社会推理(在社会情境中导航)

2.6 推理

一般的推理
一般推理是指AI系统能够在广泛而非特定的领域进行推理。例如,作为一般推理挑战的一部分,AI系统可能会被要求跨多个主题进行推理,而不是执行一个狭窄的任务(例如,下棋)
MMMU:面向专家AGI的大规模多学科多模式理解和推理基准专家AGI
近年来,AI系统的推理能力已经取得了很大的进步,像SQuAD(用于文本推理)VQA(用于视觉推理)这样的传统基准已经饱和,这表明需要更具挑战性的推理测试。
对此,来自美国和加拿大的研究人员最近开发了MMMU,即大规模多学科多模式理解和推理基准专家AGIMMMU包含约11500个大学水平的问题,涉及六个核心学科:艺术与设计、商业、科学、健康与医学、人文与社会科学、技术与工程(2.6.1)。问题格式包括图表、地图、表格、化学结构等。MMMU是迄今为止AI领域对感知、知识和推理要求最高的测试之一。截至20241月,表现最高的模型是Gemini Ultra,它在所有学科类别中以59.4%的总分领先(2.6.2)在大多数单独的任务类别上,顶级模型仍然远远超过了中等水平的人类专家(2.6.3)。这个相对较低的分数证明了MMMU作为评估AI推理能力的基准的有效性。

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

GPQA:一个研究生级别的防谷歌问答基准
去年,来自纽约大学、AnthropicMeta的研究人员引入了GPQA基准来测试一般的多学科AI推理。这个数据集包括448个很难的选择题,无法通过谷歌搜索轻松回答。这些问题是由生物学、物理学和化学等各个领域的主题专家精心设计的(2.6.4)。博士级别的专家在各自领域的GPQA上达到了65%的准确率,而非专业人士的准确率约为34%。表现最好的AI模型GPT-4在主测试集上的得分仅为41.0%(2.6.5)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)


比较人类、GPT-4和GPT-4V在抽象和推理任务上的表现

抽象推理涉及使用已知信息来解决不熟悉的和新颖的问题,是人类认知的一个关键方面,即使在幼儿中也很明显。虽然最近像GPT-4这样的法学硕士表现出了令人印象深刻的表现,但他们真正抽象推理的能力仍然是一个备受争议的话题为了进一步探讨这一主题,圣达菲研究所的研究人员在ConceptARC基准上测试了GPT-4,这是一个旨在评估一般抽象推理能力的类比谜题集合(2.6.6)。研究显示,GPT-4在抽象推理能力上明显落后于人类:人类在基准上的得分为95%,而最好的GPT-4系统的得分仅为69%(2.6.7)。真正通用AI的发展需要抽象推理能力。因此,继续跟踪这一领域的进展将是非常重要的。

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)


数学推理
数学问题解决基准评估AI系统的数学推理能力。AI可以用一系列数学问题来测试模型,从小学水平到竞赛标准数学。
GSM8K
GSM8K是一个包含大约8000个不同的小学数学单词问题的数据集,它要求AI模型利用算术运算开发多步解决方案(2.6.8)GSM8K已迅速成为评估高级llm的首选基准。GSM8K上表现最好的模型是GPT-4变体(GPT-4代码解释器),准确率为97%,比前一年的最先进分数提高了4.4%,比2022年首次引入基准时提高了30.4%(2.6.9)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)


MATH

MATH是加州大学伯克利分校的研究人员在2021年引入的12500个具有挑战性的竞赛级数学问题的数据集(2.6.10)。当MATH首次发布时,AI系统在它上挣扎,只能解决6.9%的问题。性能有了明显的提升。在2023年,基于gpt -4的模型取得了最好的结果,成功解决了84.3%的数据集问题(2.6.11)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
计划工作台
计划系统接收指定的目标、初始状态和一系列行动。每个行动都由先决条件定义,必须满足先决条件才能执行该行动,以及执行该行动所产生的效果。系统构建一个由一系列动作组成的计划,从初始状态开始实现目标。
有人声称llm可以解决计划问题。来自亚利桑那州立大学的一个小组提出了PlanBench,这是一个包含自动化规划社区中使用的问题的基准套件,特别是那些在国际规划竞赛中使用的问题。他们使用一次性学习测试了I-GPT-3GPT-4Blocksworld领域的600个问题上(当一只手每次只允许将一个块移动到桌子或一个清晰块的顶部时,它试图构建一堆块),并表明GPT-4可以在34%的时间内生成正确的计划和成本最优的计划,而I-GPT-3约为6%(2.6.12)。验证一个计划的正确性更容易。
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
V视觉推理
视觉推理测试AI系统在视觉和文本数据之间的推理能力。
V视觉常识推理(VCR)
2019年推出的视觉常识推理(VCR)挑战测试AI系统的常识视觉推理能力。在这个挑战,AI系统不仅根据图像回答问题,还可以推理其答案背后的逻辑(2.6.13)VCR的性能是用Q->AR分数来衡量的,它评估了机器选择问题的正确答案(Q-> a)和选择答案背后的适当理由(Q->R)的能力。虽然AI系统在这项任务上还没有超越人类,但它们的能力正在稳步提高。在2022年至2023年期间,AIVCR挑战中的性能提高了7.93%(2.6.14)
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
道德推理
在未来,AI将越来越多地应用于道德考虑至关重要的领域,例如医疗保健和司法系统。因此,AI系统必须具备强大的道德推理能力,使它们能够有效地驾驭和推理伦理原则和道德考虑。
MoCa
AI模型在语言和视觉领域的推理能力已经很好地建立起来了,但它们的道德推理能力,尤其是与人类道德判断相一致的道德推理能力,还不太为人所知为了进一步探讨这个话题,斯坦福大学的一个研究小组创建了一个新的数据集(MoCa),其中包含了带有道德元素的人类故事(2.6.15)。然后,研究人员向这些模型展示人类行为的故事,并促使模型做出回应,用离散协议度量来衡量道德一致性:得分越高,表明与人类道德判断更接近。这项研究产生了有趣的结果。没有一个模型能完全匹配人类的道德体系,但是像GPT-4Claude这样的更新、更大的模型比像GPT-3这样的小模型更符合人类的道德情感,这表明随着AI模型的扩展,它们在道德上逐渐与人类更加一致。在所有被调查的模型中,GPT-4与人类道德情感的一致性最大(2.6.16)
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
因果推理
因果推理评估AI系统理解因果关系的能力。随着AI变得越来越普遍,评估AI模型是否不仅可以解释它们的输出,还可以更新它们的结论——因果推理的关键方面——变得非常重要。
BigToM
评估法学硕士是否具有心理理论(ToM)能力——理解和归因心理状态,如信念、意图和情绪——传统上一直是AI研究人员面临的挑战。早期评估法学硕士ToM的方法不充分且缺乏鲁棒性。为了解决这个问题,研究人员在2023年开发了一个名为BigToM的新基准,旨在评估法学硕士的社会和因果推理能力。BigToM25个控制和5000个模型生成的评估组成,已被人类评估人员评为优于现有ToM基准。BigToM对法学硕士进行了前向信念(预测未来事件)、前向行动(根据未来事件预测采取行动)和后向信念(追溯地推断行动的原因)的测试(2.6.17)
在基准上的法学硕士测试中,GPT-4表现最佳,其ToM能力接近但不超过人类水平(2.6.18、图2.6.19和图2.6.20)。更具体地说,在正确推断信念的准确性方面,GPT-4在向前信念和向后信念任务中的表现与人类非常接近,在向前行动任务中的表现略高于人类。重要的是,该研究表明,LLMToM基准测试上的性能呈上升趋势,GPT-4等新型号的性能优于GPT-3.5(2022年发布)等旧型号。
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
宾根因果配对
来自微软和芝加哥大学的研究人员已经证明,法学硕士是有效的因果推理者。该团队使用t宾根因果对数据集评估了几个最近的法学硕士,包括GPT-4。该基准包括37个子学科的100多个因果对,测试AI系统识别因果关系的能力(2.6.21)GPT-4的准确率达到96%,比去年的最佳成
绩高出13个百分点(2.6.22)。值得注意的是,GPT-4优于基于先验协方差的AI模型,后者被明确训练用于因果推理任务。此外,研究人员发现,某些提示,特别是那些旨在鼓励帮助的提示,可以显着增强LLM的因果推理能力。
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
AI系统擅长处理人类语音,具有音频功能,包括将口语转录为文本和识别单个说话者。最近,AI在生成合成音频内容方面取得了进展。
2.7 音频
2023年是音频生成领域意义重大的一年,音频生成涉及创建合成音频内容,从人类语音到音乐文件。几个著名的音频生成器(UniAudioMusicGenMusicLM)的发布凸显了这一进步。
UniAudio
UniAudio是一种用于创建音频内容的高级语言建模技术。UniAudio统一标记所有音频类型,并且像现代llm一样,使用下一个标记预测来生成高质量的音频。UniAudio能够生成高质量的语音、声音和音乐。
UniAudio在文本转语音、语音增强和语音转换等任务上超越了领先的方法(2.7.1)。凭借10亿个参数和16.5万小时的音频训练,UniAudio展示了大数据和自我监督对音乐生成的功效。
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
MusicGEN和MusicLM
MetaMusicGen是一种新颖的音频生成模型,它还利用了语言模型中常见的转换器架构来生成音频。MusicGen允许用户为期望的音频结果指定文本,然后使用特定的旋律对其进行微调。在比较研究中,MusicGen在各种生成音乐指标上优于其他流行的文本到音乐模型,如RiffusionmosaiMusicLM。它拥有较低的FAD分数,表明更可信的音乐生成,较低的KL分数表明更好地与参考音乐保持一致,以及较高的CLAP分数,反映了对参考音乐文本描述的更大依从性(2.7.2)
人类评估者也喜欢MusicGen的整体质量(OVL)
虽然MusicGen比今年早些时候发布的某些文本到音乐的模型表现更好,但MusicLM值得强调,因为它的发布伴随着MusicCaps的推出,这是一个最先进的5.5K音乐-文本对数据集。MusicGen的研究人员使用MusicCaps来对其系列模型的性能进行基准测试。像MusicGen这样的新模型的出现,以及像MusicCaps这样的新的音乐到文本的基准,突显了生成AI从语言和图像扩展到更多样化的技能模式,如音频生成。
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

AI代理,即设计用于在特定环境中运行以实现目标的自主或半自主系统,代表了AI研究的一个令人兴奋的前沿。这些代理具有各种各样的潜在应用,从协助学术研究和安排会议到促进在线购物和度假预订。
2.8 代理
普通代理
本节重点介绍可以在一般任务环境中灵活操作的代理的基准和研究。
AgentBench
AgentBench是一个为评估基于法学硕士的代理而设计的新基准,它包含八种不同的交互设置,包括网页浏览、在线购物、家庭管理、拼图和数字纸牌游戏(2.8.1)。该研究评估了超过25个基于法学硕士的代理,包括那些建立在OpenAIGPT-4, AnthropicClaude 2MetaLlama 2上的代理。GPT-4得分最高,总分4.01分,显著高于Claude 22.49(2.8.2)。研究还表明,2023年发布的法学硕士在代理环境中的表现优于早期版本。此外,AgentBench团队推测,代理在某些基准子部分上的挣扎可以归因于他们在长期推理、决策和指令遵循方面的有限能力。
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)旅行者/航海家号
英伟达、加州理工学院、德克萨斯大学奥斯汀分校、斯坦福大学和威斯康星大学麦迪逊分校最近的研究表明,现有的法学硕士,如GPT-4,可以用来开发能够持续学习的灵活代理。该团队创建了旅行者,一个基于gpt -4“我的世界”代理——一个复杂的视频游戏,没有固定的端点,本质上是一个无限的虚拟游乐场(2.8.3)。旅行者号在这种环境下表现出色,它能熟练地记住计划,适应新的环境,并传递知识。它明显优于以前的模型,收集3.3倍的独特物品,旅行2.3倍的距离,并以15.3倍的速度达到关键里程碑(2.8.4)
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
特定于任务的代理
本节重点介绍针对特定任务环境(如数学问题解决或学术研究)进行优化的代理的基准测试和研究。
MLAgentBench
MLAgentBench是评估AI研究代理性能的新基准,测试AI代理是否有能力从事科学实验。更具体地说,MLAgentBench评估了AI系统作为计算机科学研究助手的潜力,评估了它们在15个不同研究任务中的表现。这些任务的例子包括改进CIFAR-10图像数据集的基线模型,以及在BabyLM中训练超过1000万个单词的语言模型。测试了各种基于llm的代理,包括GPT-4Claude-1AutoGPTLangChain。结果表明,尽管AI研究代理有希望,但不同任务的表现差异很大。虽然一些智能体在ogbn-arxiv(改进基准论文分类模型)等任务上的得分超过80%,但在BabyLM(训练小型语言模型)上的得分都为0%(2.8.5)。其中,GPT-4一直提供最好的结果。
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

随着时间的推移,AI越来越多地融入机器人技术,增强了机器人执行复杂任务的能力。特别是随着基础模型的兴起,这种集成使机器人能够迭代地从周围环境中学习,灵活地适应新的设置,并做出自主决策。
2.9 机器人
PaLM-E
PaLM-E是谷歌推出的一款新型AI模型,它将机器人技术与语言建模相结合,以解决机器人操作等现实世界任务,以及问答和图像字幕等知识任务。利用基于变压器的架构,最大的PaLM-E模型可扩展到562B个参数。该模型在不同的视觉语言以及机器人数据上进行了训练,从而在各种机器人基准测试中取得了卓越的性能。PaLM-E还在OK-VQA等视觉任务中设定了新的标准,在其他语言任务中表现出色,并且可以从事思维链,数学和多图像推理,即使没有在这些领域进行过专门的训练。图2.9.1说明了PaLM-E模型可以执行的一些任务。

在任务和运动规划(TAMP)领域,机器人必须操纵物体,palm - e在具体化的视觉问答和规划方面优于以前最先进的方法,如SayCanPaLI(2.9.2)在机器人操作任务中,PaLM-E在检测故障的能力上优于竞争模型(PaLICLIP-FT),这是机器人执行闭环规划的关键一步(2.9.3)
PaLM-E的意义在于,它证明了语言建模技术和文本数据可以增强AI系统在非语言领域(如机器人)的性能。PaLM-E还强调,已经有语言熟练的机器人能够与现实世界互动并进行高级推理。开发这类多面机器人是创造更通用的机器人助手的重要一步,例如,可以帮助做家务。
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
RT-2
现实世界的机器人可以从llm拥有的某些功能中受益,例如文本和代码生成,以及视觉理解。DeepMind发布的新机器人RT-2代表了一项雄心勃勃的尝试,即创建具有一定LLM功能的可推广机器人模型。RT-2使用基于变压器的架构,并在机器人轨迹数据上进行训练,这些数据被标记为文本和广泛的视觉语言数据。
RT-2作为调节机器人政策最令人印象深刻和适应性最强的方法之一脱颖而出。它超越了最先进的模型,比如在各种基准测试中操纵开放世界物体(MOO),特别是在涉及看不见的物体的任务中。在这样的任务中,RT-2/PaLM-E变体达到80%的成功率,显著高于MOO53%(2.9.4)。在看不见的物体任务中,RT-2超过了前一年最先进的模型RT-1高出43个百分点。这表明随着时间的推移,机器人在新环境中的表现有所改善。Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
在强化学习中,AI系统通过交互式学习其先前的行为来训练其在给定任务上的最大性能。如果系统实现了预期的目标,就会得到奖励,如果失败就会受到惩罚。
2.10 强化学习
从人类反馈中强化学习
强化学习在增强GPT-4Llama 2等最先进的语言模型方面得到了普及。2017年推出的从人类反馈中强化学习(RLHF)将人类反馈纳入奖励函数,使模型能够接受有益和无害等特征的训练。
今年,AI指数追踪了使用RLHF作为训练一部分的基础模型数量的数据。更具体地说,Index团队查看了CRFM生态系统图中包含的所有模型的技术报告和其他文档,这是基础模型生态系统最全面的存储库之一图2.10.1说明了在一段时间内报告使用RLHF的基础模型的数量。2021年,没有新发布的基础模型使用RLHF。在2022IIndex报告7个模型报告使用RLHF, 2023年,16个模型报告使用RLHFRLHF越来越受欢迎的事实也证明了许多领先的法学硕士报告用RLHF改进了他们的模型(2.10.2)
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)RLAIF

RLHF是对齐AI模型的一种强大方法,但可能会受到生成用于模型对齐的人类偏好数据集所需的时间和劳动力的阻碍。作为替代方案,来自AI反馈的强化学习(RLAIF)使用基于法学硕士偏好的强化学习,使其他AI模型与人类偏好保持一致。
谷歌研究院最近的一项研究将RLAIF与传统的黄金标准RLHF进行了比较,以评估RLAIF是否有效可以作为可靠的替代品。研究发现,对于总结和帮助任务,RLAIFRLHF都优于监督微调(SFT),并且RLHF的优先程度没有统计学差异(2.10.3)。值得注意的是,在专注于产生最小危害输出的无害对话生成任务中,RLAIF(88%)的有效性超过了RLHF(76%)(2.10.4)。该研究表明,RLAIF可能是一种资源效率更高、成本效益更高的AI模型对齐方法。
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
直接偏好优化
如上所述,RLHF是一种将法学硕士与人类偏好相匹配的有用方法。然而,RLHF需要大量的计算资源,包括多语言模型的训练和在训练循环中集成LM策略采样。这种复杂性可能会阻碍其更广泛的采用。
作为回应,斯坦福大学和CZ Biohub的研究人员开发了一种新的强化学习算法,用于对齐称为直接偏好优化(DPO)的模型。DPORLHF简单,但同样有效。研究人员表明,在摘要等任务上,DPO与其他现有的对齐方法(如近端策略优化(PPO)和监督微调(SFT)一样有效(2.10.5)。像DPO这样的技术的出现表明,模型对齐方法正变得更加直接和易于访问。
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)本节侧重于探索LLMs的关键特性的研究,例如他们在推理中突然行为转变和自我纠正的能力。重要的是要强调这些研究,以了解日益代表AI研究前沿的法学硕士是如何运作和行为的。
2.11 LLMs的性质
挑战突发行为的概念
多论文认为,LLMs表现出突发性能力,这意味着他们可以在更大的范围内不可预测地突然显示出新的能力这引起了人们的担忧,即更大的模型可能会发展出令人惊讶的、也许是无法控制的新能力。
然而,斯坦福大学的研究挑战了这一概念,认为新能力的出现通常是用于评估的基准的反映,而不是模型本身的固有属性。研究人员发现,当使用多项选择评分等非线性或不连续指标来评估模型时,新兴能力似乎更加明显。相比之下,当使用线性或连续指标时,这些能力基本上消失了。研究人员分析了来自综合LLM评估工具BIG-bench的一套基准测试,发现在39个基准测试中,只有5个测试中出现了突发性能力(2.11.1)。这些发现对AI安全和一致性研究具有重要意义,因为它们挑战了一种普遍的观点,即AI模型将不可避免地学习新的、不可预测的行为。

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)



LLMs表现随时间的变化
公开可用的闭源法LLms,如GPT-4Claude 2Gemini,通常由其开发人员根据新数据或用户反馈及时更新。然而,关于这类模型的性能如何响应这种更新而发生变化(如果有的话)的研究很少。

斯坦福大学和伯克利大学进行的一项研究探讨了某些公开可用的法学硕士随着时间的推移的表现,并强调,事实上,它们的表现可能会有很大的变化。更具体地说,该研究比较了20233月和6月版本的GPT-3.5GPT-4,并证明了在几个任务上的表现有所下降。例如,6月份版本的GPT-4比较3月份的版本相比,生成代码的能力差了42个百分点,回答敏感问题的能力差了16个百分点,33个百分点。

在某些数学任务上差了几个百分点(2.11.2)。研究人员还发现,GPT-4遵循指令的能力随着时间的推移而减弱,这可能解释了更广泛的表现下降。这项研究强调,LLM的性能可以随着时间的推移而发展,并建议普通用户应该注意这种变化。

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

LLMs是差劲的自我纠错者
一般认为,像GPT-4这样的LLMs具有推理局限性,有时会产生幻觉。针对此类问题提出的一种解决方案是自我纠正,即法学硕士识别并纠正自己的推理缺陷。随着AI的社会角色越来越重要,内在自我纠正的概念——允许法学硕士在没有外部指导的情况下自主纠正他们的推理——尤其吸引人。然而,目前还不清楚法学硕士实际上是否能够进行这种自我纠正。
来自DeepMind和伊利诺伊大学厄巴纳-香槟分校的研究人员在三个推理基准上测试了GPT-4的性能:GSM8K(小学数学)CommonSenseQA(常识推理)HotpotQA(多文档推理)。他们发现,当模型在没有指导的情况下自行决定自我纠正时,其性能在所有测试基准上都有所下降(2.11.3)Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
封闭与开放模型性能
随着法LLMs课程变得越来越普遍,关于其不同程度的可及性的争论也愈演愈烈。一些模型,如谷歌的Gemini,仍然是封闭的,仅对其开发人员开放。相比之下,OpenAIGPT-4AnthropicClaude 2等模型提供了有限的访问权限,可以通过API公开访问。然而,模型权重并没有完全发布,这意味着模型不能被公众独立修改或进一步审查。相反,MetaLlama 2Stability AIStable Diffusion采用了一种开放的方法,完全释放了它们的模型权重。开源模型可以被修改,任何人都可以自由使用。
关于封闭和开放AI模型的优点,人们的观点存在分歧。一些人支持开放模式,理由是它们能够抵消市场集中度,促进创新,并提高AI生态系统的透明度。另一些人则认为,开源模型存在相当大的安全风险,例如促进虚假信息或生物武器的产生,因此应谨慎对待。
在这场辩论的背景下,重要的是要承认,目前的证据表明开放模型和封闭模型之间存在显着的性能差距图2.11.42.11.5在一系列基准上并列列出了顶级封闭模型和开放模型的性能在所有选定的基准测试中,封闭模型的表现优于开放模型。具体来说,在10个选定的基准测试中,封闭模型实现了24.2%的中位数性能优势,其差异从数学任务(GSM8K)4.0%到代理任务(AgentBench)317.7%不等。Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
随着LLMs使用的增加,人们正在寻求提高其性能和效率的技术。本节将探讨其中的一些进步。
2.12 LLM改进技术
提示是人工智能管道的一个重要方面,它需要为模型提供描述模型应该执行的任务的自然语言指令。
掌握制作有效提示的艺术可以显著提高LLMs的性能,而不需要模型进行潜在的改进。
思维图提示
思维链(CoT)和思维树(ToT)是提示方法,可以提高法学硕士在推理任务上的表现。2023年,欧洲研究人员引入了另一种提示方法,思维图(GoT),也显示出了希望(2.12.1)。《GoT》使法学硕士能够以一种更灵活、更接近人类实际推理的图形结构来建模他们的思想。然后,研究人员设计了一个模型架构来实现GoT,并发现,与ToT相比,它将排序任务的输出质量提高了62%,同时降低了约31%的成本(2.12.2)
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
提示优化(OPRO)
DeepMind的一篇论文介绍了提示优化(OPRO),这是一种使用法学硕士迭代生成提示以提高算法性能的方法。OPRO使用自然语言指导法学硕士根据问题描述和先前的解决方案创建新的提示(2.12.3)。生成的提示旨在提高AI系统在特定基准上的性能。与其他提示方法(让我们一步一步思考或空白起点)相比,ORPO在几乎所有23BIG-bench Hard任务上都具有更高的准确性(2.12.4)
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
微调
微调作为一种增强LLMs的方法越来越受欢迎,涉及在较小的数据集上进一步训练或调整模型。
QLoRA
华盛顿大学于2023年开发的,是一种更有效的模型微调的新方法。它极大地减少了内存使用,能够在单个48 GB GPU上对650亿个参数模型进行微调,同时保持完整的16位微调性能。从这个角度来看,微调一个65B Llama模型,一个领先的开源LLM,通常需要大约780 GBGPU内存。因此,QLoRA的效率提高了近16倍。
微调不仅提升了模型的整体性能,还提高了模型在特定任务上的能力。它还允许对模型的行为进行更精确的控制。QLoRA设法通过4NormalFloat (NF4)、双量化和页面优化器等技术来提高效率。QLoRA用于训练一个名为Guanaco的模型,该模型在骆马基准(llm的输出进行排名的基准)上的性能与ChatGPT等模型相当甚至超过(2.12.5)。值得注意的是,Guanaco模型仅在单个GPU上进行了24小时的微调。QLoRa强调了优化和进一步改进模型的方法如何变得更加高效,这意味着需要更少的资源来制造功能越来越强的模型。
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
LLMs可以灵活地处理各种任务,但通常需要大量的计算资源来训练。如前所述,高昂的培训成本可能会阻碍
flash解码
斯坦福大学研究人员开发的flash解码,通过加快注意力机制,特别是在需要长序列的任务中,解决了传统法学硕士的低效率问题。它通过并行加载键和值来实现这一点,然后分别重新缩放和组合它们以保持正确的注意力输出(2.12.6)。在各种测试中,flash解码的表现优于PyTorch EagerFlashAttention-2等其他领先的方法,显示出更快的ai被更广泛地采用。优化方法旨在提高AI的效率,例如,通过改善内存使用,从而使法学硕士更易于访问和实用。

推断:例如,在256批处理大小和256序列长度的情况下,flash解码比PyTorch Eager48倍,比FlashAttention-26(2.12.7)。在ChatGPT这样的模型上进行推理,每个响应的成本可能为0.01美元,当将这样的模型部署到数百万用户时,这个成本可能会变得非常昂贵。像flash解码这样的创新对于降低人工智能的推理成本至关重要。Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
本节探讨了AI系统对环境影响的趋势,强调了透明度和意识的不断变化。从历史上看,模型开发人员很少披露他们的AI系统的碳足迹,让研究人员做出最好的估计。最近,人们开始向更开放的方向转变,特别是在训练AI模型的碳成本方面。然而,与推理相关的环境成本(一个潜在的更重要的问题)的披露仍然不足。本节介绍了开发人员报告的碳排放数据,以及探索AI与环境影响交叉点的著名研究。随着AI模型的规模越来越大,应用越来越广泛,AI研究社区努力监测和减轻AI系统对环境的影响从未像现在这样重要。
2.13 AI系统对环境的影响
一般环境影响
2.13.1显示了选定llm在训练期间释放的碳(以吨为单位)与人类参考点的比较。标有星号的模型的排放数据是由独立研究人员估计的,因为它们没有由其开发人员披露。
排放数据差异很大。例如,Meta公司的美洲驼2 70B型汽车排放了大约291.2吨碳,这几乎是一个旅客从纽约到旧金山往返航班排放的碳的291倍,大约是一个美国人一年平均排放量的16倍然而,美洲驼2的排放量仍然少于据报道在OpenAI GPT-3训练期间释放的502吨。
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
排放估计值的差异是由于模型大小、数据中心能源效率和能源网格的碳强度等因素造成的。图2.13.2显示了所选模型的排放量与其规模的关系。一般来说,更大的模型排放更多的碳,这是一个趋势在美洲驼2模型系列中可以清楚地看到,它们都是在同一台超级计算机(Meta的研究超级集)上训练的。然而,如果在效率较低的能源驱动的能源网格上训练,较小的模型仍然会产生高排放。一些估计表明,随着时间的推移,模型的排放量已经下降,这可能与模型训练机制越来越有效有关。图2.13.3显示了选定模型的排放量及其功耗。
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
评估AI模型对环境影响的一个主要挑战是排放缺乏透明度。与其他研究的结果一致,大多数著名的模型开发人员不报告碳排放,阻碍了对这一指标进行彻底和准确评估的努力例如,许多著名的模型开发人员,如OpenAI、谷歌、AnthropicMistral,都没有报告训练中的排放,尽管Meta会报告。
如前所述,训练AI模型对环境的影响可能是巨大的。虽然推理的每次查询排放可能相对较低,但当模型每天被查询数千次(如果不是数百万次)时,总影响可能会超过训练。关于模型推理的排放的研究很少。Luccioni等人于2023年发表的一项研究是第一批全面评估模型推断排放的研究之一。图2.13.4 说明了跨各种模型任务的1000个推断的排放量,揭示了图像生成等任务的碳足迹比文本分类高得多。Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
尽管训练AI系统的环境成本得到了广泛认可,但AI可以为环境可持续性做出积极贡献。图2.13.5展示了AI支持环境努力的各种最新案例这些应用包括加强热能系统管理,改进害虫防治策略,提高城市空气质量。
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)


12.12 厦门emag沙龙-文章页底部
TikTok、Facebook、谷歌、Twitter广告服务,0门槛抢占全球流量!
极速开户+优化投流+风险保障+效果跟踪,仅需4步,轻松撬动亿万海外流量,让品牌销量翻倍增长!
已成功开通5000+账户
二维码
免责声明
本文链接:
本文经作者许可发布在AMZ123跨境头条,如有疑问,请联系客服。
最新热门报告作者标签
俄罗斯电商市场快速增长,综合平台优势大于独立站
AMZ123获悉,近日,Euromonitor、EMARKETER及Yakov and Partners发布了《俄罗斯电商市场发展现状》报告。报告基于2020-2024年的数据,对俄罗斯电商市场的发展趋势、综合电商平台与独立电商的竞争格局、各品类表现、未来市场预测进行了系统分析。一、俄罗斯电商趋势1.互联网渗透率增长放缓2020至2024年,俄罗斯互联网使用率从78.1%(约9560万用户)提升至85.5%(约1.04亿用户),四年间增加7.4%(新增约790万用户)。俄罗斯的互联网渗透率增速正在逐年放缓,预计到2029年互联网渗透率将达到89%(约1.08亿用户)。
越南加强进口商品监管,修订多项增值税和海关规则
AMZ123获悉,近日,越南海关公布了2026年对增值税(VAT)、特别消费税(SCT)及电子交易管理的多项修订,核心在于统一税制规则、扩大免税范围并加强跨境与电子化申报管理。此次调整既有减轻企业合规成本、扶持出口与产业链升级的内容,也伴随对部分消费品与临时进口再出口环节的更严监管,直接影响生产、进出口和跨境电商卖家。在增值税方面,新法律将此前零散的官方函件并入法律和配套法令,提升透明度并便于电子化处理。关键变化包括扩大增值税免税目录:列入政府清单的自然资源与矿产(无论原料还是加工品)在出口时被明确归为增值税免税项目。
TikTok Shop黑五复盘,一堆中国卖家晒出百万GMV
黑五复盘,TikTok卖家:“库存差点给我爆完了!”
存生命危险!美国CPSC紧急召回超1万件儿童手写板玩具
AMZ123获悉,近日,美国消费品安全委员会(CPSC)宣布,紧急召回亚马逊在售的KTEBO品牌的儿童书写板玩具,原因是该产品未能符合玩具类产品的强制性安全标准,电池仓固定螺丝无法保持牢固,可能导致纽扣电池外露。若儿童误吞纽扣电池,可能造成严重伤害、内部化学灼伤,甚至威胁生命。此次召回涉及KTEBO品牌的双件套书写平板玩具,召回数量约10,380件,产品提供四种颜色组合,包括粉色/蓝色、绿色/黄色、橙色/蓝色以及紫色/红色,并有8.5英寸与10英寸两种规格,每套配有与机身同色的手写笔。
AliExpress波兰11月增长显著,双十一活动日活用户增长37%
AMZ123获悉,近日,AliExpress的数据显示,平台11月的消费者参与度与卖家销售额大幅增长。今年11月11日至19日举行的AliExpress双十一购物节活动期间,波兰用户的参与度显著提升,日活跃用户数量同比增长37%。随着去年秋季AliExpress开放波兰本地卖家入驻,今年波兰本地卖家的参与度也明显提高,他们在此次双十一促销期间的GMV同比增长74%。从消费偏好来看,智能生活类产品持续吸引波兰消费者,智能家居与清洁设备成为销售榜单的主导品类。Dreame、ILIFE、Laresar等品牌的扫地机器人和自动吸尘设备进入最畅销产品行列,反映波兰家庭对智能化、便捷化生活方式的需求不断上升。
亚马逊印度计划投资127亿美元,推动本地云和AI基础设施建设
AMZ123获悉,近日,亚马逊宣布,将在2030年前进一步推动人工智能在印度的普及,计划投入127亿美元建设本地云和AI基础设施。亚马逊表示,这项长期投资将为超过1500万家中小企业带来AI应用能力,同时在2030年前为400万名公立学校学生提供AI素养课程与职业教育,提高数字技能普及度。亚马逊认为,AI正成为提升印度数字包容性的关键力量,能够突破语言、读写能力与访问渠道的限制,让更多个人与企业受益。在中小企业领域,亚马逊正在推出新一代AI工具,以降低经营门槛、简化业务操作并提升增长效率。
“黑五网一”DTC投放数据复盘,流量都去哪了?
2025 年“黑五网一”大战,终于落下帷幕。除了 GMV ,这场仗花了多少“弹药”,你算清楚了吗?流量场上的每一发子弹,都正中靶心了吗?偏离的原因找到了吗?除了看自己后台的数据,还要看清整个大盘的趋势——这决定了我们下一步该往哪儿走。基于 GoodsFox 监控的投放数据,我们有以下发现:服装、美妆的竞争力度只增不减3D 打印与机械键盘,从“小众圈层”跃升为热门赛道宠物经济的流量稳定,不靠爆点也能撑起大盘这些变化背后,都在重塑今年“黑五网一”的投放结构,我们先从流量基本盘讲起——尽管每年都有新风口,但从广告投放的绝对体量来看,传统大盘仍在支撑整体流量水位。
还在“索评”?亚马逊Review管理的红线与出路
亚马逊的评论管理格局是如何改变的?首先要明确一点:过去几年,亚马逊的Review生态系统发生了剧变,这对各类管理工具产生了深远影响。在买家端,那些专门用来标记“虚假评论”(或帮助买家鉴别真伪)的老一代工具正在失效甚至消失。不少买家就因为Fakespot在平台冲突、合规问题和数据接口变更的压力下关停而感到措手不及。Fakespot是一个分析电商产品评论真实性、帮助消费者识别虚假评价的平台。在卖家端,亚马逊的政策合规和风控机制变得更加严厉。这意味着Review的风险红线变了:以前那些“地毯式索评”或“送测(Giveaway)”的套路可能有效,但现在操作这些手段的封号风险极高。
AMZ123PayPal计算器使用指南及常见问题详解(内附计算公式)
Paypal手续费计算器介绍及计算公式分享 https://www.amz123.com/tools-paypal
重磅!亚马逊公布2026年战略重心变化
AMZ123获悉,12月4日,2025年亚马逊全球开店跨境峰会上,亚马逊回顾了过去一年里中国卖家在亚马逊上所取得的进展,并围绕2026年四大业务战略重点——供应链服务、AI赋能、全球拓展布局、本地服务,揭晓了40余项创新举措。根据亚马逊披露的数据:2025年以来,中国卖家通过亚马逊全球站点售出数十亿件商品,在美欧等成熟站点的销售额增长超过15%,在新兴站点的销售额增长超过30%;2025年以来,销售额达到200万、500万、800万美金的中国卖家数量,增长均超过20%;销售额超过1000万美金的中国卖家数量,增幅近30%。
卖家还在等口径!欠税公示制度却已明确落地
卖家还在“等政策”,但政策已明确趋严过去几个月里,跨境卖家对税务政策最大的期待就是——“能不能再等等,看会不会有新口径”。但事实上,政策并没有往宽松走,而是沿着“数据透明—提醒申报—强化监管”这条路径一步步推进。AMZ123了解到,目前已有超过7000家境内外平台完成涉税信息报送,卖家的线上线下销售数据已全面纳入监管体系。随着数据比对展开,税务部门对申报明显低于平台数据的经营者陆续发出提示,要求补充申报;多数卖家在收到提示后完成了更正,但也的确还有部分经营者迟迟没有动作,继续处于观望甚至低申报的状态。在这种情况下,监管的态度也开始变得更为明确:对于未按规定申报的行为,将从提醒阶段进入到强化管理阶段。
亚马逊新功能,能救你一整条链接!
最近有卖家后台发现,亚马逊多了一个新功能,看起来不起眼,实则很关键——绩效提醒(Performance Notifications)。这个功能解决了我们运营过程中的一个老大难:链接出问题时能不能第一时间被提醒?以前我们发现Listing出状况,大多靠“事后诸葛”:出单突然断了,去查是不是被下架;关键词排名一夜暴跌,才想起去对比转化率;广告Acos拉爆、CTR异常,才知道图可能挂了;等你发现问题,可能已经晚了。这次,亚马逊终于“良心发现”,开始主动提醒你链接的数据异常了。这个新功能到底能干啥?说白了,它就是一个链接级别的数据异常预警系统。
汽配类目又现吸金王,TikTok卖家30天入账1100万
月销量暴涨36007900%,这一汽配用品在TikTok卖爆了
跨界AI失败?深圳大卖资产重组终止!
12月2日,跨境3C 配件大卖杰美特发布公告,宣布决定终止筹划以现金方式收购AI 算力解决方案提供商思腾合力(天津)科技有限公司(以下简称“思腾合力”)控制权的重大资产重组事项。这场筹划半年、备受行业关注的跨界收购突然落幕,消息一出引发市场热议。AMZ123获悉,杰美特于2025年6月21日首次披露了筹划重组的提示性公告,拟通过现金交易控股思腾合力,该交易初步测算构成重大资产重组,且不涉及发行股份、不构成关联交易,也不会导致公司控制权变更。杰美特是“中国手机壳第一股”,主营业务为移动智能终端保护类产品的研发、设计与销售,产品包括手机、平板及穿戴设备的保护壳与表带等。
宠物消费持续升温,亚马逊10款月销过万宠物产品推荐
AMZ123获悉,近日,亚马逊各类产品搜索量增长显著,以下10款产品在亚马逊上销量表现突出,深受消费者欢迎。1. 猫咪情绪舒缓喷雾预计销售额:139.84万美元/月销量:26,000+星级评分:4.4好评数量:12,694+图源:亚马逊产品描述:FELIWAY Optimum猫咪情绪舒缓喷雾的专利信息素复合物能显著减少猫咪的应激表现,包括喷尿、抓挠、恐惧反应、紧张冲突等。产品无药性、安全且不干扰人类与其他宠物,每个喷雾覆盖面积约 700 平方英尺。
TikTok Shop英国站黑五创历史新高,销售额同比飙升50%
AMZ123获悉,近日,根据TikTok的公告,TikTok Shop英国站在今年黑色星期五期间创下平台历史最高销售纪录,整体销售额较去年同期提升50%。高峰期出现在黑色星期五当天,当日每秒售出27件商品,刷新TikTok Shop在英国的单日销售纪录。今年消费者开始促销季的时间更早,“假黑五”(Fake Friday,即黑五前一周)的销售额达到去年黑色星期五的纪录水平。黑五周末期间,“TikTok Shop Black Friday”搜索量同比增长404%,成为2025年与黑五相关的最高热度搜索词。同期,平台活跃购物人数较去年增加28%。
《亚马逊生活日用品类攻略手册》PDF下载
作为日常生活不可或缺的重要组成,生活百货品类覆盖范围广泛,包括家居用品、家具、车用配件、户外装备、园艺 工具、运动器材、家装用品、厨房、玩具以及宠物用品等众多领域。这类产品不仅是满足基本生活所需,更体现了人们对美好生活的向往和追求。
《掘金泰国-市场洞察与战略机遇报告2025》PDF下载
随着全球经济一体化的加速,泰国作为东盟的核心枢纽,凭借其独特的地缘优势庞大的消费市场以及持续优化的营商环境,成为众多企业战略布局的重要目标。本报告深入剖析泰国市场的政策红利、消费趋势、产业机遇以及合规挑战,旨在为有志于开拓泰国市场的中国企业提供行动指南,助力企业在东盟这片充满活力的土地上把握机遇、应对挑战、!实现可持续发展。
《2025欧美假日购物季营销指南》PDF下载
2025年美国假日购物季零售额预计同比仅增长1.2%,总销售额约1.359万亿美元,虽仍保持正增长,但为2009年以来最低增速,市场正在步入低增长的新常态。
《2025年跨境电商东南亚市场进入战略白皮书》PDF下载
东南亚电商,正以惊人的速度复刻中国电商高速增长的黄金时代。2024年东南亚电商GMV达到1284亿美元,短短5年涨幅超过3倍。全球电商2024年GMV增幅最快的十大市场中,东南亚独占四席。东南亚是拥有约6.7亿人口的广阔市场,在现今全球关税的不确定性大格局下,因其电商基建完善,利好的贸易政策,和更高的年轻人口占比,成为跨境卖家生意拓张焦点之一。
《2025年TikTok Shop玩具品类行业报告(欧美站)》PDF下载
分析TikTok Shop美国市场、英国市场、西班牙市场、墨西哥市场等主流市场点短视频及直播电商数据,选取TikTok与玩具爱好品类相关的内容进行分析报告。
《2025 洗护品类趋势与创新洞察》PDF下载
本报告独特价值:将消费者的“行为结果”据),揭示消费者深层心理动机、并能精准预判未来增长机会
《亚马逊双轨增长指南》PDF下载
亚马逊以“以客户为中心”为核心理念,通过整合B2B与B2C的全渠道服务,帮助卖家实现“一店双拓”-- 一次上架,同步触达个人消费者与企业买家,获得双重收益。同时,基于Direct to Buyer(直接触达买家)的模式,更能有效减少中间环节,提升利润空间与品牌掌控力。
《亚马逊全球线上商采趋势与区域洞察》PDF下载
随着全球企业数字化转型的深入推进,B2B商采有望成为下一个万亿级别的蓝海市场然而,中国卖家在开拓海外企业商采市场时往往面临着一个关键挑战:难以准确把握海外企业买家的商采行为和决策模式。这种认知偏差不仅影响了产品开发方向,也制约了市场拓展策略的制定。
北美电商资讯
AMZ123旗下北美跨境电商新闻栏目,专注北美跨境电商热点资讯,为广大卖家提供北美跨境电商最新动态、最热新闻。
亚马逊全球开店
亚马逊全球开店官方公众号,致力于为中国跨境卖家提供最新,最全亚马逊全球开店资讯,运营干货分享及开店支持。
跨境学院
跨境电商大小事,尽在跨境学院。
跨境电商干货集结
跨境电商干货集结,是结合亚马逊跨境电商卖家交流群内大家在交流过程中最常遇到的问题,进行收集整理,汇总解答,将会持续更新大家当前最常遇见的问题。欢迎大家加入跨境电商干货集结卖家交流群一起探讨。
亚马逊公告
AMZ123旗下亚马逊公告发布平台,实时更新亚马逊最新公告,致力打造最及时和有态度的亚马逊公告栏目!
AMZ123选品观察员
选品推荐及选品技巧分享。
跨境电商赢商荟
跨境电商行业唯一一家一年365天不断更的媒体!
亿邦动力网
消除一切电商知识鸿沟,每日发布独家重磅新闻。
首页
跨境头条
文章详情
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
Shulex
2024-05-16 10:59
4939


Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

目录:



概述

今年AI指数的技术表现部分提供了2023AI进步的全面概述。它从AI技术性能的高级概述开始,追踪其随时间的广泛演变。然后,本章研究了广泛的AI能力的现状,包括语言处理、编码、计算机视觉(图像和视频分析)、推理、音频处理、自主代理、机器人和强化学习。它还聚焦了过去一年中显著的AI研究突破,探索了通过提示、优化和微调来改进法学硕士的方法,并以探索AI系统的环境足迹结束。

欢迎来到第七版AI指数报告。2024年指数是我们迄今为止最全面的指数,在AI对社会的影响从未如此明显的重要时刻到来。今年,我们扩大了研究范围,更广泛地涵盖了AI的技术进步、公众对该技术的看法以及围绕其发展的地缘政治动态等基本趋势。该版本提供了比以往更多的原始数据,介绍了对AI培训成本的新估计,对负责任的AI前景的详细分析,以及专门介绍AI对科学和医学影响的全新章节。

AI指数报告跟踪、整理、提炼和可视化与人工智能(AI)相关的数据。我们的使命是提供公正、严格审查、来源广泛的数据,以便政策制定者、研究人员、高管、记者和公众对复杂的AI领域有更全面、更细致的了解。

AI指数是全球公认的最可信、最权威的人工智能数据和见解来源之一。之前的版本曾被《纽约时报》、《彭博社》、《卫报》等主要报纸引用,积累了数百次学术引用,并被美国、英国、欧盟等地的高层决策者引用。今年的版本在规模、规模和范围上都超过了以往的所有版本,反映了AI在我们生活中越来越重要。

本章重点:

1. AI在某些任务上胜过人类,但并非在所有任务上都胜过人类。AI在几个基准上的表现超过了人类,包括图像分类、视觉推理和英语理解。然而,它在更复杂的任务上落后于人类,比如竞赛级数学、视觉常识推理和规划。

2. 多模式AI了。传统上,AI系统的范围有限,语言模型在文本理解方面表现出色,但在图像处理方面表现不佳,反之亦然。然而,最近的进步导致了强大的多模态模型的发展,例如GoogleGeminiOpenAIGPT-4。这些模型展示了灵活性,能够处理图像和文本,在某些情况下甚至可以处理音频。

3. 更严格基准出现了。AI模型在ImageNetSQuADSuperGLUE等既定基准上的性能已经达到饱和,这促使研究人员开发更具挑战性的模型。2023年,出现了几个具有挑战性的新基准,包括用于编码的SWE-bench、用于图像生成的HEIM、用于一般推理的MMMU、用于道德推理的MoCa、用于基于代理的行为的AgentBench和用于幻觉的HaluEval

4. 更好的AI意味着更好的数据,这意味着更好的AI。新的AI模型,如SegmentAnythingSkoltech,正被用来为图像分割和3D重建等任务生成专门的数据。数据对于AI技术改进至关重要。使用AI来创建更多的数据增强了当前的能力,并为未来的算法改进铺平了道路,特别是在更难的任务上。

5. 人的评价很流行。随着生成模型产生高质量的文本、图像等,基准测试已经慢慢开始转向纳入人类评估,如聊天机器人竞技场排行榜,而不是像ImageNetSQuAD这样的计算机化排名。公众对AI的感受正在成为跟踪AI进展的一个越来越重要的考虑因素。


6. 多亏了法学硕士,机器人变得更加灵活。语言建模与机器人技术的融合催生了更灵活的机器人系统,比如PaLM-ERT-2。除了改进的机器人能力之外,这些模型还可以提出问题,这标志着机器人朝着能够更有效地与现实世界互动的方向迈出了重要的一步。


7. agenticAI中更多的技术研究。创建AI代理,即能够在特定环境中自主操作的系统,长期以来一直是计算机科学家面临的挑战。然而,新兴的研究表明,自主AI代理的性能正在提高。目前的智能体现在可以掌握像《我的世界》这样的复杂游戏,并有效地处理现实世界的任务,比如网上购物和研究协助。


8. 封闭式法学硕士的表现明显优于开放式的。10个选定的AI基准测试中,封闭模型的表现优于开放模型,平均性能优势为24.2%。封闭模型和开放模型的表现差异对AI政策辩论具有重要意义。

2.12023年AI概述

时间轴:重大模型发布

根据AI指数指导委员会的选择,以下是2023年发布的一些最值得注意的模型:

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

AI性能状态

截至2023年,AI已经在一系列任务中实现了超越人类能力的性能水平。图2.1.16说明了AI系统相对于人类基线的进展,对应于9个任务(例如,图像分类或基础级阅读理解)9AI基准人工智能指数团队选择了一个基准来代表每个任务。

多年来,AI在一些基准上超过了人类的基线,比如2015年的图像分类、2017年的基本阅读理解、2020年的视觉推理和2021年的自然语言推理。截至2023年,仍有一些任务类别AI无法超越人类的能力。这些任务往往是更复杂的认知任务,比如视觉常识推理和高级数学问题解决(竞赛级别的数学问题)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

人工智能指数基准

正如去年报告中强调的那样,AI技术性能的一个新兴主题是在许多基准上观察到的饱和,例如用于评估AI模型熟练程度的ImageNet

近年来,这些基准的表现停滞不前,表明要么是AI能力停滞不前,要么是研究人员转向更复杂的研究挑战。由于饱和,2023年人工智能指数中的几个基准在今年的报告中被省略了。图2.1.17突出显示了2023年版本中包含但未在今年报告中出现的一些基准它还显示了自2022年以来这些基准的改善情况。“NA”表示没有注意到任何改善。

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

2.1.18显示了2023年人工智能指数报告中精选基准的同比改善情况(以百分比为单位)。大多数基准测试在引入后很快就会看到显著的性能提升,然后改善速度减慢。在过去的几年里,许多这些基准测试几乎没有显示出任何改善。

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

为了应对基准测试的饱和,AI研究人员正在从传统的基准测试转向在更困难的挑战上测试AI2024AI Index跟踪了几个新基准的进展,包括编码、高级推理和代理行为方面的任务,这些领域在以前的报告版本中代表性不足(2.1.19)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

2.2 语言

自然语言处理(NLP)使计算机能够理解、解释、生成和转换文本。目前最先进的模型,如OpenAIGPT-4和谷歌的双子座,能够生成流畅连贯的散文,并显示出高水平的语言理解能力(2.2.1)。许多这样的模型现在也可以处理不同的输入形式,比如图像和音频(2.2.2)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

理解

英语语言理解挑战人工智能系统以各种方式理解英语,如阅读理解和逻辑推理。

HELM:语言模型整体评估如上所述,近年来,法学硕士在传统的英语基准上的表现超过了人类,比如SQuAD(问答)SuperGLUE(语言理解)。这种快速的进步导致需要更全面的基准测试。

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

2022年,斯坦福大学的研究人员引入了HELM(语言模型整体评估),旨在评估各种场景下的法学硕士,包括阅读理解、语言理解和数学推理HELM评估了几家领先公司的模型,如Anthropic、谷歌、MetaOpenAI,并使用平均胜率来跟踪所有场景的平均表现。截至20241月,GPT-40.96的平均胜率领跑总HELM排行榜(2.2.3);然而,不同的模型停止不同的任务类别(2.2.4)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

MMLU:大规模多任务语言理解

海量多任务语言理解(MMLU)基准评估模型在57个科目(包括人文学科、STEM和社会科学)的零射击或少射击场景中的性能(2.2.5)MMLU已经成为总理评估LLM能力的基准:许多最先进的模型,如GPT-4Claude 2Gemini,已经针对MMLU进行了评估。

2023年初,GPT-4MMLU上取得了最先进的成绩,后来被谷歌的Gemini Ultra超越。图2.2.6显示了不同年份MMLU基准上的最高模型得分。报告的分数是整个测试集的平均值。截至20241月,Gemini Ultra的得分最高,为90.0%,自2022年以来提高了14.8个百分点,自2019MMLU成立以来提高了57.6个百分点。Gemini Ultra的得分首次超过了MMLU的人类基线89.8%

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

在生成任务中,测试AI模型产生流利和实用的语言响应的能力。

聊天机器人竞技场排行榜

有能力的法学硕士的崛起,使得了解哪些模型是正确的变得越来越重要受到大众的青睐。聊天机器人竞技场排行榜于2023年推出,是对公众法学硕士偏好的首批综合评估之一。排行榜允许用户查询两个匿名模型,并投票选出偏好的世代(2.2.7)。截至2024年初,该平台已获得超过20万张选票,用户将OpenAIGPT-4 Turbo评为最受欢迎的模型(2.2.8)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

真实性

尽管取得了显著的成就,但法学硕士仍然容易受到事实不准确和内容幻觉的影响——创造看似真实但虚假的信息。现实世界中法学硕士产生幻觉的例子——例如在法庭案件中——凸显了密切监测法学硕士事实趋势的日益必要性。

ACL 2022上推出的TruthfulQA是一个旨在评估法学硕士在生成问题答案时的真实性的基准。该基准包括38个类别的约800个问题,包括健康、政治和金融。许多问题都是为了挑战人们普遍持有的误解而精心设计的,这些误解通常会导致人们回答错误(2.2.9)。尽管本文的观察结果之一是较大的模型往往不太真实,但在2024年初发布的GPT-4 (RLHF)TruthfulQA基准上取得了迄今为止最高的性能,得分为0.6(1)

(2.2.10)。这一分数比2021年测试的基于gpt -2的模型高出近三倍,表明法学硕士在提供真实答案方面正变得越来越好。

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

HaluEval

如前所述,法学硕士容易产生幻觉,鉴于他们在法律和医学等关键领域的广泛部署,这是一个令人担忧的特征。虽然现有的研究旨在了解幻觉的原因,但很少有人致力于评估法学硕士幻觉的频率,并确定他们特别脆弱的特定内容领域。

HaluEval2023年推出,是一种旨在评估法学硕士幻觉的新基准。它包括超过35,000个样本,包括幻觉和正常,供法学硕士分析和评估(2.2.11)。研究表明,ChatGPT在大约19.5%的回复中捏造了无法验证的信息,这些捏造跨越了语言、气候和技术等各种主题。此外,该研究还检验了当前法学硕士检测幻觉的能力。图2.2.12展示了领先的法学硕士在各种任务中识别幻觉的表现,包括问题回答、基于知识的对话和文本摘要。研究结果显示,许多法学硕士在这些任务中挣扎,强调了幻觉是一个重要的持续问题。

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

编码涉及生成指令,计算机可以遵循这些指令来执行任务。最近,法学硕士已经成为熟练的程序员,成为计算机科学家的宝贵助手。越来越多的证据表明,许多程序员发现AI编码助手非常有用。

2.3 编码

在许多编码任务中,AI模型面临着生成可用代码或解决计算机科学问题的挑战。

HumanEval

HumanEval是评估AI系统编码能力的基准,由OpenAI研究人员于2021年推出。它由164个具有挑战性的手写编程问题组成(2.3.1)GPT-4模型变体(AgentCoder)目前在HumanEval性能方面领先,得分为96.3%,比最高分提高了11.2个百分点在2022(2.3.2)。自2021年以来,HumanEval的表现提高了64.1个百分点。

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

SWE-工作台

随着AI系统编码能力的提高,在更具挑战性的任务上对模型进行基准测试变得越来越重要。202310月,研究人员引入了sw -bench,这是一个包含2294个软件工程问题的数据集,这些问题来自真实的GitHub问题和流行的Python存储库(2.3.3)sw -benchAI编码能力提出了更严格的测试,要求系统协调各个方面的变化多个功能,与各种执行环境交互,进行复杂推理。

即使是最先进的法学硕士也面临着sw -bench的重大挑战。表现最好的模型Claude 2只解决了数据集问题的4.8%(2.3.4)2023年,sw -bench上表现最好的车型比2022年的最佳车型高出4.3个百分点。

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

计算机视觉允许机器理解图像和视频,并从文本提示或其他输入创建逼真的视觉效果。这项技术被广泛应用于自动驾驶、医学成像和视频游戏开发等领域。

2.4 图像计算机视觉和图像生成

图像生成是生成与真实图像无法区分的图像的任务。今天的图像生成器非常先进,以至于大多数人很难区分ai生成的图像和人脸的实际图像(2.4.1)。图2.4.2突出了从2022年到2024年的各种中途旅行模型变体的几代,以提示哈利波特的超现实形象。这一进展表明,在两年的时间里,中途旅行生成超现实图像的能力有了显著提高。2022年,该模型制作出了卡通化的、不准确的哈利波特效果图,但到2024年,它可以创造出惊人的逼真的描绘。

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

HEIM:文本到图像模型的整体评估

AI文本到图像系统的快速发展促使了更复杂的评估方法的发展。2023年,斯坦福大学的研究人员引入了文本到图像模型的整体评估(HEIM),这是一个基准,旨在从12个关键方面全面评估图像生成器,这些方面对现实世界的部署至关重要,如图像-文本对齐、图像质量和美学人类评估员被用来对模型进行评级,这是一个至关重要的特征,因为许多自动化指标难以准确评估图像的各个方面。

HEIM的研究结果表明,没有一个模型在所有标准中都表现出色。对于人类对图像到文本对齐的评估(评估生成的图像与输入文本的匹配程度)OpenAIDALL-E 2得分最高(2.4.3)。在图像质量(衡量图像是否与真实照片相似)、美学(评估视觉吸引力)和原创性(衡量新图像生成和避免侵犯版权)方面,基于Stable diffusionDreamlike Photoreal模型排名最高(2.4.4)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)强调研究:MVDream

从文本提示创建3D几何或模型一直是AI研究人员面临的重大挑战,现有模型正在努力解决诸如多面两面问题(不准确地再生文本提示所描述的上下文)和内容漂移(不同3D视图之间的不一致)等问题。MVDream是由字节跳动和加州大学圣地亚哥分校的研究人员克服了其中的一些障碍(2.4.5)。在定量评价中,MVDream生成的模型达到了Inception Score (IS)CLIP分数与训练集中的分数相当,表明生成的图像(2.4.6)MVDream具有重大意义,特别是对在创意产业中,3D内容创作传统上是耗时且劳动密集型的。

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

指导遵循

在计算机视觉中,指令跟随是视觉语言模型解释与图像相关的基于文本的指令的能力。例如,AI系统可以获得各种食材的图像,并负责建议如何使用它们来准备一顿健康的饭。能够跟随指令的视觉语言模型是开发高级AI助手所必需的。

访问信息工作台

2023年,一个由行业和学术研究人员组成的团队推出了VisIT-Bench,这是一个由592个具有挑战性的视觉语言指令组成的基准,涵盖约70个指令类别,如情节分析、艺术知识和位置理解(图2.4.8)。截至2024年1月,VisIT-Bench上的领先模型是GPT-4V, GPT-4 Turbo的视觉版本,Elo得分为1349,略高于VisIT-Bench的人类参考得分(图2.4.9)。

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

编辑

图像编辑包括使用AI根据文本提示修改图像。这种人工智能辅助的方法在工程、工业设计和电影制作等领域有着广泛的现实应用。

编辑值

尽管文本引导的图像编辑很有前景,但很少有可靠的方法可以评估AI图像编辑器遵守编辑提示的准确性。EditVal是一个评估文本引导图像编辑的新基准,它包括超过13种编辑类型,例如在19个对象类中添加对象或更改其位置(2.4.10)。该基准被应用于评估包括SINENull-text在内的八种领先的文本引导图像编辑方法。自2021年以来,在各种基准的编辑任务上的性能改进如图2.4.11所示。

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

强调研究:

调节输入或执行条件控制是指通过指定生成的图像必须满足的某些条件来引导图像生成器生成的输出的过程。现有的文本到图像模型往往缺乏对图像空间构成的精确控制,因此很难单独使用提示来生成布局复杂、形状多样和特定姿势的图像。通过在额外的图像上训练这些模型来微调这些模型以获得更大的构图控制在理论上是可行的,但是许多专门的数据集,比如人类姿势的数据集,都不够大,无法支持成功的训练。

2023年,斯坦福大学的研究人员推出了一种改进的新模型——控制网(ControlNet)用于大型文本到图像扩散模型的条件控制编辑(2.4.12)

控制网因其处理各种调节输入的能力而脱颖而出。与2022年之前发布的其他模型相比,人类评分者在质量和条件保真度方面都更喜欢控制网(2.4.13)。控制网的引入是朝着创建高级文本到图像生成器迈出的重要一步,该生成器能够编辑图像,更准确地复制现实世界中经常遇到的复杂图像。

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

强调研究:

新模型可以只使用文本指令编辑3D几何图形。Instruct-NeRF2NeRF是伯克利研究人员开发的一个模型,它采用图像条件扩散模型对3D几何图形进行基于文本的迭代编辑

(2.4.14)。这种方法有效地生成新的、经过编辑的图像,这些图像遵循文本指令,实现了比当前领先方法更大的一致性(2.4.15)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

分割涉及到将单个图像像素分配到特定的类别(例如:人、自行车或街道)

强调研究:

2023年,Meta研究人员启动了Segment Anything项目,该项目以Segment Anything模型(SAM)和用于图像分割的广泛SA-1B数据集为特色。SAM值得注意的是,它是第一个可广泛推广的分割模型之一,在新任务和分布上表现良好。Segment Anything23个分割数据集中的16个上优于RITM等领先的分割方法(2.4.17)。评估Segment Anything的度量是平均交点除以联合(IoU)


然后使用MetaSegment Anything模型,与人类注释器一起创建SA-1B数据集,其中包括1100万张图像中超过10亿个分割掩码(2.4.16)。这种规模的新分割数据集将加速未来图像分割器的训练。《Segment Anything》展示了AI模型如何与人类一起使用,以更有效地创建大型数据集,而这些数据集又可以用来训练更好的AI系统。


Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

3D从图像重建

3D图像重建是从二维图像创建三维数字几何图形的过程。这种类型的重建可用于医学成像、机器人技术和虚拟现实。

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

实时融合

牛津大学研究人员开发的RealFusion是一种新方法,可以从单张图像中生成完整的物体3D模型,克服了单张图像信息不足的挑战,无法进行360度的完整重建。RealFusion利用现有的2D图像生成器生成一个对象的多个视图,然后将这些视图组装成一个完整的360度模型(2.4.20)。与2021年最先进的方法(货架监督)相比,该技术可以在广泛的对象上产生更精确的3D重建(2.4.21)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

视频分析关注的是跨视频执行任务,而不是单个图像。2.5视频计算机视觉和视频生成
视频生成涉及使用AI从文本或图像生成视频。
UCF101
UCF101是一个包含101个动作类别的逼真动作视频动作识别数据集(2.5.1)。最近,UCF101被用于对视频生成器进行基准测试。今年的顶级模特W.A.L.T-XLFVD16得分为36,比去年的最高分减少了一半多(2.5.2)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

调整你的潜力
大多数现有的方法只能创建短的、低分辨率的视频。为了解决这一限制,一个国际研究团队应用了传统上用于生成高质量图像的潜在扩散模型来制作高分辨率视频(2.5.3)。他们的潜在扩散模型(LDM)在分辨率质量上明显优于之前在2022年发布的最先进的方法,如Long video an (LVG)(2.5.4)。采用文本到图像的架构来创建LDM(一种高效的文本到视频模型),体现了先进的AI技术如何在计算机视觉的不同领域中重新利用。LDM强大的视频生成能力有许多现实世界的应用,例如创建逼真的驾驶模拟。

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

Emu Video
传统上,视频生成的进展落后于图像生成,因为它的复杂性更高,可用于训练的数据集更小。Emu VideoMeta研究人员创建的一种新的基于变压器的视频生成模型,它代表了一个重要的进步(2.5.5)Emu Video从文本生成图像,然后基于文本和图像创建视频。图2.5.6说明了Emu Video模型优于先前发布的最先进的视频生成方法的程度。度量标准是人类评估者更喜欢Emu Video的图像质量或对文本的忠实度的情况的比例。

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)对比方法上的指令。Emu Video简化了视频生成过程,标志着高质量视频生成的新时代。Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

AI中的推理涉及AI系统从不同形式的信息中得出逻辑有效结论的能力。AI系统越来越多地在不同的推理环境中进行测试,包括视觉(对图像进行推理)、道德(理解道德困境)和社会推理(在社会情境中导航)

2.6 推理

一般的推理
一般推理是指AI系统能够在广泛而非特定的领域进行推理。例如,作为一般推理挑战的一部分,AI系统可能会被要求跨多个主题进行推理,而不是执行一个狭窄的任务(例如,下棋)
MMMU:面向专家AGI的大规模多学科多模式理解和推理基准专家AGI
近年来,AI系统的推理能力已经取得了很大的进步,像SQuAD(用于文本推理)VQA(用于视觉推理)这样的传统基准已经饱和,这表明需要更具挑战性的推理测试。
对此,来自美国和加拿大的研究人员最近开发了MMMU,即大规模多学科多模式理解和推理基准专家AGIMMMU包含约11500个大学水平的问题,涉及六个核心学科:艺术与设计、商业、科学、健康与医学、人文与社会科学、技术与工程(2.6.1)。问题格式包括图表、地图、表格、化学结构等。MMMU是迄今为止AI领域对感知、知识和推理要求最高的测试之一。截至20241月,表现最高的模型是Gemini Ultra,它在所有学科类别中以59.4%的总分领先(2.6.2)在大多数单独的任务类别上,顶级模型仍然远远超过了中等水平的人类专家(2.6.3)。这个相对较低的分数证明了MMMU作为评估AI推理能力的基准的有效性。

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

GPQA:一个研究生级别的防谷歌问答基准
去年,来自纽约大学、AnthropicMeta的研究人员引入了GPQA基准来测试一般的多学科AI推理。这个数据集包括448个很难的选择题,无法通过谷歌搜索轻松回答。这些问题是由生物学、物理学和化学等各个领域的主题专家精心设计的(2.6.4)。博士级别的专家在各自领域的GPQA上达到了65%的准确率,而非专业人士的准确率约为34%。表现最好的AI模型GPT-4在主测试集上的得分仅为41.0%(2.6.5)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)


比较人类、GPT-4和GPT-4V在抽象和推理任务上的表现

抽象推理涉及使用已知信息来解决不熟悉的和新颖的问题,是人类认知的一个关键方面,即使在幼儿中也很明显。虽然最近像GPT-4这样的法学硕士表现出了令人印象深刻的表现,但他们真正抽象推理的能力仍然是一个备受争议的话题为了进一步探讨这一主题,圣达菲研究所的研究人员在ConceptARC基准上测试了GPT-4,这是一个旨在评估一般抽象推理能力的类比谜题集合(2.6.6)。研究显示,GPT-4在抽象推理能力上明显落后于人类:人类在基准上的得分为95%,而最好的GPT-4系统的得分仅为69%(2.6.7)。真正通用AI的发展需要抽象推理能力。因此,继续跟踪这一领域的进展将是非常重要的。

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)


数学推理
数学问题解决基准评估AI系统的数学推理能力。AI可以用一系列数学问题来测试模型,从小学水平到竞赛标准数学。
GSM8K
GSM8K是一个包含大约8000个不同的小学数学单词问题的数据集,它要求AI模型利用算术运算开发多步解决方案(2.6.8)GSM8K已迅速成为评估高级llm的首选基准。GSM8K上表现最好的模型是GPT-4变体(GPT-4代码解释器),准确率为97%,比前一年的最先进分数提高了4.4%,比2022年首次引入基准时提高了30.4%(2.6.9)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)


MATH

MATH是加州大学伯克利分校的研究人员在2021年引入的12500个具有挑战性的竞赛级数学问题的数据集(2.6.10)。当MATH首次发布时,AI系统在它上挣扎,只能解决6.9%的问题。性能有了明显的提升。在2023年,基于gpt -4的模型取得了最好的结果,成功解决了84.3%的数据集问题(2.6.11)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
计划工作台
计划系统接收指定的目标、初始状态和一系列行动。每个行动都由先决条件定义,必须满足先决条件才能执行该行动,以及执行该行动所产生的效果。系统构建一个由一系列动作组成的计划,从初始状态开始实现目标。
有人声称llm可以解决计划问题。来自亚利桑那州立大学的一个小组提出了PlanBench,这是一个包含自动化规划社区中使用的问题的基准套件,特别是那些在国际规划竞赛中使用的问题。他们使用一次性学习测试了I-GPT-3GPT-4Blocksworld领域的600个问题上(当一只手每次只允许将一个块移动到桌子或一个清晰块的顶部时,它试图构建一堆块),并表明GPT-4可以在34%的时间内生成正确的计划和成本最优的计划,而I-GPT-3约为6%(2.6.12)。验证一个计划的正确性更容易。
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
V视觉推理
视觉推理测试AI系统在视觉和文本数据之间的推理能力。
V视觉常识推理(VCR)
2019年推出的视觉常识推理(VCR)挑战测试AI系统的常识视觉推理能力。在这个挑战,AI系统不仅根据图像回答问题,还可以推理其答案背后的逻辑(2.6.13)VCR的性能是用Q->AR分数来衡量的,它评估了机器选择问题的正确答案(Q-> a)和选择答案背后的适当理由(Q->R)的能力。虽然AI系统在这项任务上还没有超越人类,但它们的能力正在稳步提高。在2022年至2023年期间,AIVCR挑战中的性能提高了7.93%(2.6.14)
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
道德推理
在未来,AI将越来越多地应用于道德考虑至关重要的领域,例如医疗保健和司法系统。因此,AI系统必须具备强大的道德推理能力,使它们能够有效地驾驭和推理伦理原则和道德考虑。
MoCa
AI模型在语言和视觉领域的推理能力已经很好地建立起来了,但它们的道德推理能力,尤其是与人类道德判断相一致的道德推理能力,还不太为人所知为了进一步探讨这个话题,斯坦福大学的一个研究小组创建了一个新的数据集(MoCa),其中包含了带有道德元素的人类故事(2.6.15)。然后,研究人员向这些模型展示人类行为的故事,并促使模型做出回应,用离散协议度量来衡量道德一致性:得分越高,表明与人类道德判断更接近。这项研究产生了有趣的结果。没有一个模型能完全匹配人类的道德体系,但是像GPT-4Claude这样的更新、更大的模型比像GPT-3这样的小模型更符合人类的道德情感,这表明随着AI模型的扩展,它们在道德上逐渐与人类更加一致。在所有被调查的模型中,GPT-4与人类道德情感的一致性最大(2.6.16)
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
因果推理
因果推理评估AI系统理解因果关系的能力。随着AI变得越来越普遍,评估AI模型是否不仅可以解释它们的输出,还可以更新它们的结论——因果推理的关键方面——变得非常重要。
BigToM
评估法学硕士是否具有心理理论(ToM)能力——理解和归因心理状态,如信念、意图和情绪——传统上一直是AI研究人员面临的挑战。早期评估法学硕士ToM的方法不充分且缺乏鲁棒性。为了解决这个问题,研究人员在2023年开发了一个名为BigToM的新基准,旨在评估法学硕士的社会和因果推理能力。BigToM25个控制和5000个模型生成的评估组成,已被人类评估人员评为优于现有ToM基准。BigToM对法学硕士进行了前向信念(预测未来事件)、前向行动(根据未来事件预测采取行动)和后向信念(追溯地推断行动的原因)的测试(2.6.17)
在基准上的法学硕士测试中,GPT-4表现最佳,其ToM能力接近但不超过人类水平(2.6.18、图2.6.19和图2.6.20)。更具体地说,在正确推断信念的准确性方面,GPT-4在向前信念和向后信念任务中的表现与人类非常接近,在向前行动任务中的表现略高于人类。重要的是,该研究表明,LLMToM基准测试上的性能呈上升趋势,GPT-4等新型号的性能优于GPT-3.5(2022年发布)等旧型号。
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
宾根因果配对
来自微软和芝加哥大学的研究人员已经证明,法学硕士是有效的因果推理者。该团队使用t宾根因果对数据集评估了几个最近的法学硕士,包括GPT-4。该基准包括37个子学科的100多个因果对,测试AI系统识别因果关系的能力(2.6.21)GPT-4的准确率达到96%,比去年的最佳成
绩高出13个百分点(2.6.22)。值得注意的是,GPT-4优于基于先验协方差的AI模型,后者被明确训练用于因果推理任务。此外,研究人员发现,某些提示,特别是那些旨在鼓励帮助的提示,可以显着增强LLM的因果推理能力。
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
AI系统擅长处理人类语音,具有音频功能,包括将口语转录为文本和识别单个说话者。最近,AI在生成合成音频内容方面取得了进展。
2.7 音频
2023年是音频生成领域意义重大的一年,音频生成涉及创建合成音频内容,从人类语音到音乐文件。几个著名的音频生成器(UniAudioMusicGenMusicLM)的发布凸显了这一进步。
UniAudio
UniAudio是一种用于创建音频内容的高级语言建模技术。UniAudio统一标记所有音频类型,并且像现代llm一样,使用下一个标记预测来生成高质量的音频。UniAudio能够生成高质量的语音、声音和音乐。
UniAudio在文本转语音、语音增强和语音转换等任务上超越了领先的方法(2.7.1)。凭借10亿个参数和16.5万小时的音频训练,UniAudio展示了大数据和自我监督对音乐生成的功效。
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
MusicGEN和MusicLM
MetaMusicGen是一种新颖的音频生成模型,它还利用了语言模型中常见的转换器架构来生成音频。MusicGen允许用户为期望的音频结果指定文本,然后使用特定的旋律对其进行微调。在比较研究中,MusicGen在各种生成音乐指标上优于其他流行的文本到音乐模型,如RiffusionmosaiMusicLM。它拥有较低的FAD分数,表明更可信的音乐生成,较低的KL分数表明更好地与参考音乐保持一致,以及较高的CLAP分数,反映了对参考音乐文本描述的更大依从性(2.7.2)
人类评估者也喜欢MusicGen的整体质量(OVL)
虽然MusicGen比今年早些时候发布的某些文本到音乐的模型表现更好,但MusicLM值得强调,因为它的发布伴随着MusicCaps的推出,这是一个最先进的5.5K音乐-文本对数据集。MusicGen的研究人员使用MusicCaps来对其系列模型的性能进行基准测试。像MusicGen这样的新模型的出现,以及像MusicCaps这样的新的音乐到文本的基准,突显了生成AI从语言和图像扩展到更多样化的技能模式,如音频生成。
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

AI代理,即设计用于在特定环境中运行以实现目标的自主或半自主系统,代表了AI研究的一个令人兴奋的前沿。这些代理具有各种各样的潜在应用,从协助学术研究和安排会议到促进在线购物和度假预订。
2.8 代理
普通代理
本节重点介绍可以在一般任务环境中灵活操作的代理的基准和研究。
AgentBench
AgentBench是一个为评估基于法学硕士的代理而设计的新基准,它包含八种不同的交互设置,包括网页浏览、在线购物、家庭管理、拼图和数字纸牌游戏(2.8.1)。该研究评估了超过25个基于法学硕士的代理,包括那些建立在OpenAIGPT-4, AnthropicClaude 2MetaLlama 2上的代理。GPT-4得分最高,总分4.01分,显著高于Claude 22.49(2.8.2)。研究还表明,2023年发布的法学硕士在代理环境中的表现优于早期版本。此外,AgentBench团队推测,代理在某些基准子部分上的挣扎可以归因于他们在长期推理、决策和指令遵循方面的有限能力。
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)旅行者/航海家号
英伟达、加州理工学院、德克萨斯大学奥斯汀分校、斯坦福大学和威斯康星大学麦迪逊分校最近的研究表明,现有的法学硕士,如GPT-4,可以用来开发能够持续学习的灵活代理。该团队创建了旅行者,一个基于gpt -4“我的世界”代理——一个复杂的视频游戏,没有固定的端点,本质上是一个无限的虚拟游乐场(2.8.3)。旅行者号在这种环境下表现出色,它能熟练地记住计划,适应新的环境,并传递知识。它明显优于以前的模型,收集3.3倍的独特物品,旅行2.3倍的距离,并以15.3倍的速度达到关键里程碑(2.8.4)
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
特定于任务的代理
本节重点介绍针对特定任务环境(如数学问题解决或学术研究)进行优化的代理的基准测试和研究。
MLAgentBench
MLAgentBench是评估AI研究代理性能的新基准,测试AI代理是否有能力从事科学实验。更具体地说,MLAgentBench评估了AI系统作为计算机科学研究助手的潜力,评估了它们在15个不同研究任务中的表现。这些任务的例子包括改进CIFAR-10图像数据集的基线模型,以及在BabyLM中训练超过1000万个单词的语言模型。测试了各种基于llm的代理,包括GPT-4Claude-1AutoGPTLangChain。结果表明,尽管AI研究代理有希望,但不同任务的表现差异很大。虽然一些智能体在ogbn-arxiv(改进基准论文分类模型)等任务上的得分超过80%,但在BabyLM(训练小型语言模型)上的得分都为0%(2.8.5)。其中,GPT-4一直提供最好的结果。
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

随着时间的推移,AI越来越多地融入机器人技术,增强了机器人执行复杂任务的能力。特别是随着基础模型的兴起,这种集成使机器人能够迭代地从周围环境中学习,灵活地适应新的设置,并做出自主决策。
2.9 机器人
PaLM-E
PaLM-E是谷歌推出的一款新型AI模型,它将机器人技术与语言建模相结合,以解决机器人操作等现实世界任务,以及问答和图像字幕等知识任务。利用基于变压器的架构,最大的PaLM-E模型可扩展到562B个参数。该模型在不同的视觉语言以及机器人数据上进行了训练,从而在各种机器人基准测试中取得了卓越的性能。PaLM-E还在OK-VQA等视觉任务中设定了新的标准,在其他语言任务中表现出色,并且可以从事思维链,数学和多图像推理,即使没有在这些领域进行过专门的训练。图2.9.1说明了PaLM-E模型可以执行的一些任务。

在任务和运动规划(TAMP)领域,机器人必须操纵物体,palm - e在具体化的视觉问答和规划方面优于以前最先进的方法,如SayCanPaLI(2.9.2)在机器人操作任务中,PaLM-E在检测故障的能力上优于竞争模型(PaLICLIP-FT),这是机器人执行闭环规划的关键一步(2.9.3)
PaLM-E的意义在于,它证明了语言建模技术和文本数据可以增强AI系统在非语言领域(如机器人)的性能。PaLM-E还强调,已经有语言熟练的机器人能够与现实世界互动并进行高级推理。开发这类多面机器人是创造更通用的机器人助手的重要一步,例如,可以帮助做家务。
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
RT-2
现实世界的机器人可以从llm拥有的某些功能中受益,例如文本和代码生成,以及视觉理解。DeepMind发布的新机器人RT-2代表了一项雄心勃勃的尝试,即创建具有一定LLM功能的可推广机器人模型。RT-2使用基于变压器的架构,并在机器人轨迹数据上进行训练,这些数据被标记为文本和广泛的视觉语言数据。
RT-2作为调节机器人政策最令人印象深刻和适应性最强的方法之一脱颖而出。它超越了最先进的模型,比如在各种基准测试中操纵开放世界物体(MOO),特别是在涉及看不见的物体的任务中。在这样的任务中,RT-2/PaLM-E变体达到80%的成功率,显著高于MOO53%(2.9.4)。在看不见的物体任务中,RT-2超过了前一年最先进的模型RT-1高出43个百分点。这表明随着时间的推移,机器人在新环境中的表现有所改善。Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
在强化学习中,AI系统通过交互式学习其先前的行为来训练其在给定任务上的最大性能。如果系统实现了预期的目标,就会得到奖励,如果失败就会受到惩罚。
2.10 强化学习
从人类反馈中强化学习
强化学习在增强GPT-4Llama 2等最先进的语言模型方面得到了普及。2017年推出的从人类反馈中强化学习(RLHF)将人类反馈纳入奖励函数,使模型能够接受有益和无害等特征的训练。
今年,AI指数追踪了使用RLHF作为训练一部分的基础模型数量的数据。更具体地说,Index团队查看了CRFM生态系统图中包含的所有模型的技术报告和其他文档,这是基础模型生态系统最全面的存储库之一图2.10.1说明了在一段时间内报告使用RLHF的基础模型的数量。2021年,没有新发布的基础模型使用RLHF。在2022IIndex报告7个模型报告使用RLHF, 2023年,16个模型报告使用RLHFRLHF越来越受欢迎的事实也证明了许多领先的法学硕士报告用RLHF改进了他们的模型(2.10.2)
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)RLAIF

RLHF是对齐AI模型的一种强大方法,但可能会受到生成用于模型对齐的人类偏好数据集所需的时间和劳动力的阻碍。作为替代方案,来自AI反馈的强化学习(RLAIF)使用基于法学硕士偏好的强化学习,使其他AI模型与人类偏好保持一致。
谷歌研究院最近的一项研究将RLAIF与传统的黄金标准RLHF进行了比较,以评估RLAIF是否有效可以作为可靠的替代品。研究发现,对于总结和帮助任务,RLAIFRLHF都优于监督微调(SFT),并且RLHF的优先程度没有统计学差异(2.10.3)。值得注意的是,在专注于产生最小危害输出的无害对话生成任务中,RLAIF(88%)的有效性超过了RLHF(76%)(2.10.4)。该研究表明,RLAIF可能是一种资源效率更高、成本效益更高的AI模型对齐方法。
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
直接偏好优化
如上所述,RLHF是一种将法学硕士与人类偏好相匹配的有用方法。然而,RLHF需要大量的计算资源,包括多语言模型的训练和在训练循环中集成LM策略采样。这种复杂性可能会阻碍其更广泛的采用。
作为回应,斯坦福大学和CZ Biohub的研究人员开发了一种新的强化学习算法,用于对齐称为直接偏好优化(DPO)的模型。DPORLHF简单,但同样有效。研究人员表明,在摘要等任务上,DPO与其他现有的对齐方法(如近端策略优化(PPO)和监督微调(SFT)一样有效(2.10.5)。像DPO这样的技术的出现表明,模型对齐方法正变得更加直接和易于访问。
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)本节侧重于探索LLMs的关键特性的研究,例如他们在推理中突然行为转变和自我纠正的能力。重要的是要强调这些研究,以了解日益代表AI研究前沿的法学硕士是如何运作和行为的。
2.11 LLMs的性质
挑战突发行为的概念
多论文认为,LLMs表现出突发性能力,这意味着他们可以在更大的范围内不可预测地突然显示出新的能力这引起了人们的担忧,即更大的模型可能会发展出令人惊讶的、也许是无法控制的新能力。
然而,斯坦福大学的研究挑战了这一概念,认为新能力的出现通常是用于评估的基准的反映,而不是模型本身的固有属性。研究人员发现,当使用多项选择评分等非线性或不连续指标来评估模型时,新兴能力似乎更加明显。相比之下,当使用线性或连续指标时,这些能力基本上消失了。研究人员分析了来自综合LLM评估工具BIG-bench的一套基准测试,发现在39个基准测试中,只有5个测试中出现了突发性能力(2.11.1)。这些发现对AI安全和一致性研究具有重要意义,因为它们挑战了一种普遍的观点,即AI模型将不可避免地学习新的、不可预测的行为。

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)



LLMs表现随时间的变化
公开可用的闭源法LLms,如GPT-4Claude 2Gemini,通常由其开发人员根据新数据或用户反馈及时更新。然而,关于这类模型的性能如何响应这种更新而发生变化(如果有的话)的研究很少。

斯坦福大学和伯克利大学进行的一项研究探讨了某些公开可用的法学硕士随着时间的推移的表现,并强调,事实上,它们的表现可能会有很大的变化。更具体地说,该研究比较了20233月和6月版本的GPT-3.5GPT-4,并证明了在几个任务上的表现有所下降。例如,6月份版本的GPT-4比较3月份的版本相比,生成代码的能力差了42个百分点,回答敏感问题的能力差了16个百分点,33个百分点。

在某些数学任务上差了几个百分点(2.11.2)。研究人员还发现,GPT-4遵循指令的能力随着时间的推移而减弱,这可能解释了更广泛的表现下降。这项研究强调,LLM的性能可以随着时间的推移而发展,并建议普通用户应该注意这种变化。

Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)

LLMs是差劲的自我纠错者
一般认为,像GPT-4这样的LLMs具有推理局限性,有时会产生幻觉。针对此类问题提出的一种解决方案是自我纠正,即法学硕士识别并纠正自己的推理缺陷。随着AI的社会角色越来越重要,内在自我纠正的概念——允许法学硕士在没有外部指导的情况下自主纠正他们的推理——尤其吸引人。然而,目前还不清楚法学硕士实际上是否能够进行这种自我纠正。
来自DeepMind和伊利诺伊大学厄巴纳-香槟分校的研究人员在三个推理基准上测试了GPT-4的性能:GSM8K(小学数学)CommonSenseQA(常识推理)HotpotQA(多文档推理)。他们发现,当模型在没有指导的情况下自行决定自我纠正时,其性能在所有测试基准上都有所下降(2.11.3)Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
封闭与开放模型性能
随着法LLMs课程变得越来越普遍,关于其不同程度的可及性的争论也愈演愈烈。一些模型,如谷歌的Gemini,仍然是封闭的,仅对其开发人员开放。相比之下,OpenAIGPT-4AnthropicClaude 2等模型提供了有限的访问权限,可以通过API公开访问。然而,模型权重并没有完全发布,这意味着模型不能被公众独立修改或进一步审查。相反,MetaLlama 2Stability AIStable Diffusion采用了一种开放的方法,完全释放了它们的模型权重。开源模型可以被修改,任何人都可以自由使用。
关于封闭和开放AI模型的优点,人们的观点存在分歧。一些人支持开放模式,理由是它们能够抵消市场集中度,促进创新,并提高AI生态系统的透明度。另一些人则认为,开源模型存在相当大的安全风险,例如促进虚假信息或生物武器的产生,因此应谨慎对待。
在这场辩论的背景下,重要的是要承认,目前的证据表明开放模型和封闭模型之间存在显着的性能差距图2.11.42.11.5在一系列基准上并列列出了顶级封闭模型和开放模型的性能在所有选定的基准测试中,封闭模型的表现优于开放模型。具体来说,在10个选定的基准测试中,封闭模型实现了24.2%的中位数性能优势,其差异从数学任务(GSM8K)4.0%到代理任务(AgentBench)317.7%不等。Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
随着LLMs使用的增加,人们正在寻求提高其性能和效率的技术。本节将探讨其中的一些进步。
2.12 LLM改进技术
提示是人工智能管道的一个重要方面,它需要为模型提供描述模型应该执行的任务的自然语言指令。
掌握制作有效提示的艺术可以显著提高LLMs的性能,而不需要模型进行潜在的改进。
思维图提示
思维链(CoT)和思维树(ToT)是提示方法,可以提高法学硕士在推理任务上的表现。2023年,欧洲研究人员引入了另一种提示方法,思维图(GoT),也显示出了希望(2.12.1)。《GoT》使法学硕士能够以一种更灵活、更接近人类实际推理的图形结构来建模他们的思想。然后,研究人员设计了一个模型架构来实现GoT,并发现,与ToT相比,它将排序任务的输出质量提高了62%,同时降低了约31%的成本(2.12.2)
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
提示优化(OPRO)
DeepMind的一篇论文介绍了提示优化(OPRO),这是一种使用法学硕士迭代生成提示以提高算法性能的方法。OPRO使用自然语言指导法学硕士根据问题描述和先前的解决方案创建新的提示(2.12.3)。生成的提示旨在提高AI系统在特定基准上的性能。与其他提示方法(让我们一步一步思考或空白起点)相比,ORPO在几乎所有23BIG-bench Hard任务上都具有更高的准确性(2.12.4)
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
微调
微调作为一种增强LLMs的方法越来越受欢迎,涉及在较小的数据集上进一步训练或调整模型。
QLoRA
华盛顿大学于2023年开发的,是一种更有效的模型微调的新方法。它极大地减少了内存使用,能够在单个48 GB GPU上对650亿个参数模型进行微调,同时保持完整的16位微调性能。从这个角度来看,微调一个65B Llama模型,一个领先的开源LLM,通常需要大约780 GBGPU内存。因此,QLoRA的效率提高了近16倍。
微调不仅提升了模型的整体性能,还提高了模型在特定任务上的能力。它还允许对模型的行为进行更精确的控制。QLoRA设法通过4NormalFloat (NF4)、双量化和页面优化器等技术来提高效率。QLoRA用于训练一个名为Guanaco的模型,该模型在骆马基准(llm的输出进行排名的基准)上的性能与ChatGPT等模型相当甚至超过(2.12.5)。值得注意的是,Guanaco模型仅在单个GPU上进行了24小时的微调。QLoRa强调了优化和进一步改进模型的方法如何变得更加高效,这意味着需要更少的资源来制造功能越来越强的模型。
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
LLMs可以灵活地处理各种任务,但通常需要大量的计算资源来训练。如前所述,高昂的培训成本可能会阻碍
flash解码
斯坦福大学研究人员开发的flash解码,通过加快注意力机制,特别是在需要长序列的任务中,解决了传统法学硕士的低效率问题。它通过并行加载键和值来实现这一点,然后分别重新缩放和组合它们以保持正确的注意力输出(2.12.6)。在各种测试中,flash解码的表现优于PyTorch EagerFlashAttention-2等其他领先的方法,显示出更快的ai被更广泛地采用。优化方法旨在提高AI的效率,例如,通过改善内存使用,从而使法学硕士更易于访问和实用。

推断:例如,在256批处理大小和256序列长度的情况下,flash解码比PyTorch Eager48倍,比FlashAttention-26(2.12.7)。在ChatGPT这样的模型上进行推理,每个响应的成本可能为0.01美元,当将这样的模型部署到数百万用户时,这个成本可能会变得非常昂贵。像flash解码这样的创新对于降低人工智能的推理成本至关重要。Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
本节探讨了AI系统对环境影响的趋势,强调了透明度和意识的不断变化。从历史上看,模型开发人员很少披露他们的AI系统的碳足迹,让研究人员做出最好的估计。最近,人们开始向更开放的方向转变,特别是在训练AI模型的碳成本方面。然而,与推理相关的环境成本(一个潜在的更重要的问题)的披露仍然不足。本节介绍了开发人员报告的碳排放数据,以及探索AI与环境影响交叉点的著名研究。随着AI模型的规模越来越大,应用越来越广泛,AI研究社区努力监测和减轻AI系统对环境的影响从未像现在这样重要。
2.13 AI系统对环境的影响
一般环境影响
2.13.1显示了选定llm在训练期间释放的碳(以吨为单位)与人类参考点的比较。标有星号的模型的排放数据是由独立研究人员估计的,因为它们没有由其开发人员披露。
排放数据差异很大。例如,Meta公司的美洲驼2 70B型汽车排放了大约291.2吨碳,这几乎是一个旅客从纽约到旧金山往返航班排放的碳的291倍,大约是一个美国人一年平均排放量的16倍然而,美洲驼2的排放量仍然少于据报道在OpenAI GPT-3训练期间释放的502吨。
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
排放估计值的差异是由于模型大小、数据中心能源效率和能源网格的碳强度等因素造成的。图2.13.2显示了所选模型的排放量与其规模的关系。一般来说,更大的模型排放更多的碳,这是一个趋势在美洲驼2模型系列中可以清楚地看到,它们都是在同一台超级计算机(Meta的研究超级集)上训练的。然而,如果在效率较低的能源驱动的能源网格上训练,较小的模型仍然会产生高排放。一些估计表明,随着时间的推移,模型的排放量已经下降,这可能与模型训练机制越来越有效有关。图2.13.3显示了选定模型的排放量及其功耗。
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
评估AI模型对环境影响的一个主要挑战是排放缺乏透明度。与其他研究的结果一致,大多数著名的模型开发人员不报告碳排放,阻碍了对这一指标进行彻底和准确评估的努力例如,许多著名的模型开发人员,如OpenAI、谷歌、AnthropicMistral,都没有报告训练中的排放,尽管Meta会报告。
如前所述,训练AI模型对环境的影响可能是巨大的。虽然推理的每次查询排放可能相对较低,但当模型每天被查询数千次(如果不是数百万次)时,总影响可能会超过训练。关于模型推理的排放的研究很少。Luccioni等人于2023年发表的一项研究是第一批全面评估模型推断排放的研究之一。图2.13.4 说明了跨各种模型任务的1000个推断的排放量,揭示了图像生成等任务的碳足迹比文本分类高得多。Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)
尽管训练AI系统的环境成本得到了广泛认可,但AI可以为环境可持续性做出积极贡献。图2.13.5展示了AI支持环境努力的各种最新案例这些应用包括加强热能系统管理,改进害虫防治策略,提高城市空气质量。
Shulex整理|斯坦福:2024年人工智能指数报告第二章:技术性能(中文详解-2)


咨询
官方微信群
官方客服

扫码添加,立即咨询

加群
官方微信群
官方微信群

扫码添加,拉你进群

更多
订阅号服务号跨境资讯
二维码

为你推送和解读最前沿、最有料的跨境电商资讯

二维码

90% 亚马逊卖家都在关注的微信公众号

二维码

精选今日跨境电商头条资讯

回顶部