OpenAI的AGI之路

chatgpt中文网2024-02-20411

chatgpt 欢迎访问chatgpt中文教程网,学习chatgpt相关知识,以下是正文内容:

我们在谈论人工智能(AI),谈论通用人工智能(AGI)的时候,有一家机构是不得不提,也是绕不开的,那就是OpenAI,它几乎以一己之力将AI带入到了全新的阶段,使一众主流AI玩家和自我AI标榜的大厂倍感压力,让世界各地的产学研只能追随它的脚步。OpenAI通过自己的追求和研究树立了若干的颠覆性突破的AI里程碑,第一次将AI与最广泛的人群紧密联系,实实在在让世界看到了AGI的可能性和强大。


OpenAI相信,他们的研究最终将通向通用人工智能(AGI),一个可以解决人类水平层面问题的系统。他们认为构建安全有益的AGI是他们的使命。他们认为安全地对齐强大的人工智能系统是他们任务中最重要的未解决的问题之一,从人类反馈中学习等技术正在帮助他,他们正在积极研究新技术来帮助他们填补空白。

他们使用深度学习的技术来构建生成模型(该技术利用大量数据来训练 AI 系统来执行任务),在文本、图像、音频、视频等领域已经取得了诸多突破性的成就,并且基于AI模型能力提供了一系列API、开发者工具和产品。

在文本领域,他们研发的文本模型是先进的语言处理工具(GPT4),可以生成、分类和总结具有高度连贯性和准确性的文本。
https://openai.com/gpt-4

https://chat.openai.com/chat

在图像领域,他们对图像生成建模的研究产出了表征模型,例如 CLIP,它可以在文本和图像之间建立 AI 可以读取的映射关系,以及 DALL-E,一种从文本描述创建生动图像的工具。

https://openai.com/dall-e-2

在音频领域,他们在将人工智能应用于音频处理和音频生成方面的研究推动了自动语音识别和原创音乐作品的发展。

https://platform.openai.com/playground

在视频领域,他们最近发布了号称世界模拟器的Sora模型,可以高保真的生成长达1分钟的视频,将视频生成领域带入了一个新阶段。

https://openai.com/sora


这么多的成果,并非一触而就,而是建立在之前大量研究的基础之上,可以说是从量变引起质变。OpenAI官方公开给出的研究成果就有9页共计170项(从2016年2月25日至今)。由于篇幅原因,本文只重点介绍具有里程碑意义的研究,下面我们一起来看看吧。

2024年 2月 15日

Video generation models as world simulators

视频生成模型作为世界模拟器

他们探索了在视频数据上大规模训练生成模型。具体来说,他们在可变持续时间、分辨率和纵横比的视频和图像上联合训练文本条件扩散模型。他们利用一种 transformer 架构,该架构在视频和图像潜在代码的时空补丁上运行。他们最大的型号 Sora 能够生成一分钟的高保真视频。他们的结果表明,扩展视频生成模型是构建物理世界通用模拟器的一条有前途的途径。

https://openai.com/research/video-generation-models-as-world-simulators


2023年 3月 14日

GPT-4


他们创建了GPT-4,这是 OpenAI在扩展深度学习方面的最新里程碑。GPT-4是一个大型多模态模型(接受图像和文本输入,发出文本输出),虽然在许多现实世界场景中的能力不如人类,但在各种专业和学术基准上表现出人类水平的表现。例如,它通过了模拟律师考试,分数在考生中排名前10%左右;相比之下,GPT-3.5的得分在倒数10%左右。他们迭代了6个月调整GPT-4 使用他们的对抗性测试程序和ChatGPT的经验教训,在事实性、可操纵性和拒绝超越护栏方面取得了有史以来最好的结果(尽管远非完美)。 

他们重建了整个深度学习技术栈,并与Azure一起从头开始共同设计了一台超级计算机。他们训练GPT-3.5作为系统的第一次“测试运行”。他们发现并修复了一些错误,并改进了理论基础。因此,他们的 GPT-4 训练运行(至少对他们来说)空前稳定,成为他们第一个能够提前准确预测其训练性能的大型模型。随着他们继续专注于可靠的扩展,他们的目标是打磨方法,以帮助他们越来越提前地预测和准备未来的能力——这对安全至关重要。 

通过 ChatGPT 和 API 发布 GPT-4 的文本输入功能以及图像输入功能。他们也在开源OpenAI的评估,允许任何人报告他们模型中的缺点,以帮助指导进一步的改进。在随意的对话中,GPT-3.5和GPT-4之间的区别可能很微妙。当任务的复杂性达到足够的阈值时,差异就显现出来了——GPT-4 比 GPT-3.5更可靠、更有创意,并且能够处理更细微的指令。

https://openai.com/research/gpt-4

https://arxiv.org/abs/2303.08774


2022年 9月 21日

Introducing Whisper

Whisper简介

他们训练并开源了一个名为Whisper的神经网络,该网络在英语语音识别方面接近人类水平的鲁棒性和准确性。Whisper 是一种自动语音识别 (ASR) 系统,基于从网络收集的 680,000 小时多语言和多任务监督数据进行训练。他们表明,使用如此庞大而多样化的数据集可以提高对口音、背景噪声和技术语言的鲁棒性。此外,它还支持多种语言的转录,以及从这些语言翻译成英语。而且他们提供的是开源模型和推理代码,可以作为构建有用应用程序和进一步研究鲁棒语音处理的基础。

https://openai.com/research/whisper

https://cdn.openai.com/papers/whisper.pdf


2022年 4月 13日

Hierarchical text-conditional image generation with CLIP latents

具有 CLIP 潜特征的分阶段文本条件图像生成

像 CLIP 这样的对比模型已被证明可以学习捕捉语义和风格的图像的鲁棒表示。为了利用这些表示来生成图像,他们提出了一个两阶段模型:一个先验模型,它生成给定文本标题的 CLIP 图像嵌入,另一个解码器生成一个以图像嵌入为条件的图像。他们表明,显式生成图像表示可以提高图像多样性,同时将照片真实感和标题相似度的损失降至最低。他们以图像表示为条件的解码器还可以生成图像的变体,同时保留其语义和风格,同时改变图像表示中缺失的非必要细节。此外,CLIP的联合嵌入空间支持以零样本方式进行语言引导的图像处理。他们对解码器使用扩散模型,并对先验使用自回归模型和扩散模型进行实验,发现后者在计算上更有效,并产生更高质量的样本。

https://openai.com/research/hierarchical-text-conditional-image-generation-with-clip-latents

https://arxiv.org/abs/2204.06125


2022年 1月 27日

Aligning language models to follow instructions

对齐语言模型以遵循指令

他们训练的语言模型比 GPT-3 更善于遵循用户意图,同时使用通过他们的对齐研究开发的技术使它们更真实、有害性更小。这些 InstructGPT 模型在循环中与人类一起训练,现在部署为他们的 API 上的默认语言模型。

GPT-3语言模型可以使用精心设计的文本提示来执行自然语言任务。但这些模型也可能产生不真实的、有害的或反映有害情绪的输出。这在一定程度上是因为GPT-3被训练为预测大型互联网文本数据集上的下一个单词,而不是安全地执行用户想要的语言任务。换句话说,这些模型与其用户不一致。 

为了使模型更安全、更有用、更一致,他们使用了一种现有的技术,称为来自人类反馈的强化学习(RLHF)。根据客户向 API 提交的提示,提供所需模型行为的展示,并对模型的多个输出进行排名。然后,使用这些数据来微调GPT-3。由此产生的InstructGPT模型在遵循指令方面比GPT-3要好得多。它们也较少地捏造事实,并显示出有害输出小幅下降。他们的标注人员更喜欢1.3B的InstructGPT模型的输出,而不是175B的GPT-3模型的输出,尽管参数少了100倍以上。同时没有在GPT-3的功能上进行妥协,正如模型在学术 NLP评估中的表现所衡量的那样。

https://openai.com/research/instruction-following

https://arxiv.org/abs/2203.02155


2021年 9月 23日

Summarizing books with human feedback

基于人类反馈总结书籍

为了在未来安全地部署强大的通用人工智能,他们需要确保机器学习模型按照人类的意图行事。这一挑战被称为对齐问题。 对齐问题的可扩展解决方案需要面对模型输出难以评估或耗时的任务。为了测试可扩展的对齐技术,他们训练了一个模型来总结整本书。他们的模型的工作原理是首先总结一本书的一小部分,然后将这些摘要总结为更高层次的摘要,依此类推。

https://openai.com/research/summarizing-books


2021年 7月 7日

Evaluating large language models trained on code

评估在代码上训练的大型语言模型

Codex,这是一种 GPT 语言模型,根据 GitHub 上的公开代码进行了微调,并研究了其 Python 代码编写能力。Codex 的独特生产版本为 GitHub Copilot 提供支持。在 HumanEval 上,他们发布了一个新的评估集,用于衡量从文档字符串合成程序的功能正确性,他们的模型解决了 28.8% 的问题,而 GPT-3 解决了 0%,GPT-J 解决了 11.4%。此外,他们发现从模型中重复采样是一种令人惊讶的有效策略,可以作为困难的提示生成工作解决方案。使用这种方法,他们解决了 70.2% 的问题,每个问题有 100 个样本。仔细研究他们的模型会发现它的局限性,包括描述长运算链的文档字符串和将运算绑定到变量的困难。最后,他们讨论了部署强大的代码生成技术的潜在更广泛影响,包括安全、安保和经济性。

https://openai.com/research/evaluating-large-language-models-trained-on-code

https://arxiv.org/abs/2107.03374


2021年 3月 4日

Multimodal neurons in artificial neural networks

人工神经网络中的多模态神经元

他们在 CLIP 中发现了对相同概念做出反应的神经元,无论是字面上、象征上还是概念上。这也许可以解释CLIP在对概念的令人惊讶的视觉演绎进行分类方面的准确性,也是理解CLIP和类似模型学习的关联和偏见的重要一步。

https://openai.com/research/multimodal-neurons

https://distill.pub/2021/multimodal-neurons/


2021年 1月 5日

DALL·E: Creating images from text

DALL·E:从文本创建图像

达尔·E 是GPT-3的120 亿参数的版本,使用文本-图像对数据集训练,实现从文本描述生成图像。他们发现它具有多种功能,包括创建动物和物体的拟人化版本、以合理的方式组合不相关的概念、渲染文本以及对现有图像应用转换。

https://openai.com/research/dall-e


2021年 1月 5日

CLIP: Connecting text and images

CLIP:连接文本和图像

尽管深度学习已经彻底改变了计算机视觉,但目前的方法存在几个主要问题:典型的视觉数据集是劳动密集型的,创建成本高昂,同时只教授一组狭窄的视觉概念;标准视觉模型擅长一项任务,而且只擅长一项任务,需要付出巨大的努力才能适应新任务。他们正在引入一种名为 CLIP 的神经网络,它可以有效地从自然语言监督中学习视觉概念。CLIP 可以应用于任何视觉分类基准,只需提供要识别的视觉类别的名称,类似于 GPT-2 和 GPT-3 的“零样本”功能。

https://openai.com/research/clip

https://arxiv.org/abs/2103.00020


2020年 9月 4日

Learning to summarize with human feedback

学会用人类的反馈进行总结

大规模语言模型在 NLP 任务上的能力越来越强。这些模型通常以在人类编写的文本数据集上预测下一个单词为目标进行训练。但这个目标并不能准确地捕捉到他们想要的东西。作为他们安全工作的一部分,他们希望开发技术,使他们的模型目标与他们真正关心的最终行为保持一致。随着他们的模型变得越来越强大,他们相信将模型与他们的目标保持一致对于确保模型对人类有益将非常重要。在短期内,他们想测试人类反馈技术是否可以帮助他们的模型提高有用任务的性能。他们应用了来自人类反馈的强化学习来训练更擅长总结的语言模型。

https://openai.com/research/learning-to-summarize-with-human-feedback

https://arxiv.org/abs/2009.01325


2020年 6月 17日

Image GPT

图像 GPT

无监督和自监督学习,或者没有人工标记数据的学习,是机器学习的一个长期挑战。最近,它在语言方面取得了令人难以置信的成功,作为transformer模型,像BERT,GPT-2,RoBERTa,T5和其他变体在各种语言任务中取得了最佳表现。然而,同样广泛的模型类别并没有成功地为图像分类产生强大的效果。他们的工作旨在了解和弥合这一差距。他们发现,就像在语言上训练的大型 transformer 模型可以生成连贯的文本一样,在像素序列上训练的相同模型也可以生成连贯的图像完整作品和样品。通过建立样本质量和图像分类精度之间的相关性,他们表明,在无监督设置中,他们的最佳生成模型还包含可以与顶级卷积网络竞争的特性。

https://openai.com/research/image-gpt

https://cdn.openai.com/papers/Generative_Pretraining_from_Pixels_V2.pdf


2020年 5月 28日

Language models are few-shot learners

语言模型是少样本学习者

最近的工作表明,通过对大型文本语料库进行预训练,然后对特定任务进行微调,在许多 NLP 任务和基准测试方面取得了实质性进展。虽然在架构中通常与任务无关,但这种方法仍然需要数千或数万个示例的特定任务的微调数据集。相比之下,人类通常只需要通过几个示例或简单的指令来执行新的语言任务 - 这是当前的NLP系统仍然难以做到的。在这里,他们展示了扩大语言模型的规模可以极大地提高与任务无关的、少样本的性能,有时甚至可以获得优于最先进的微调方法的竞争力表现。具体来说,他们训练了 GPT-3,这是一种具有 1750 亿个参数的自回归语言模型,比以前的任何非稀疏语言模型都多 10 倍,并在少数样本设置中测试其性能。对于所有任务,GPT-3 的应用没有任何梯度更新或微调,任务和小样本演示完全通过与模型的文本交互来指定。GPT-3 在许多 NLP 数据集上都取得了强大的性能,包括翻译、问答和完形填空任务,以及一些需要即时推理或领域适应的任务,例如解读单词、在句子中使用新单词或执行3位数算术。同时,他们还确定了一些 GPT-3 的少样本学习仍然难以解决的数据集,以及一些 GPT-3 面临与大型网络语料库训练相关的方法论问题的数据集。最后,他们发现 GPT-3 可以生成人类评估者难以与人类撰写的文章区分开来的新闻文章样本。他们讨论了这一发现和 GPT-3 的更广泛的社会影响。

https://openai.com/research/language-models-are-few-shot-learners

https://arxiv.org/abs/2005.14165


2020年 4月 30日

Jukebox

点唱机

他们正在推出点唱机,这是一个神经网络,可以生成音乐,包括基本的歌唱,作为各种流派和艺术家风格的原始音频。他们将发布模型权重和代码,以及用于探索生成的样本的工具。Jukebox 提供流派、艺术家和歌词作为输入,输出从头开始制作的新的音乐样本。

https://openai.com/research/jukebox

https://arxiv.org/abs/2005.00341


2019年 10月 15日

Solving Rubik’s Cube with a robot hand

用机械手来玩魔方

他们训练了一对神经网络,用类似人类的机器手来玩魔方。神经网络完全在模拟仿真环境中训练,使用与OpenAI Five一样的强化学习代码,同时配合上了一种称为自动域随机化 (ADR) 的新技术。该系统可以处理在训练期间从未见过的情况(包括各种干扰)。这表明强化学习不仅仅是虚拟任务的工具,而且可以解决需要前所未有的灵活性的物理世界问题。

https://openai.com/research/solving-rubiks-cube

https://arxiv.org/abs/1910.07113


2019年 9月 17日

Emergent tool use from multi-agent interaction

从多智能体交互涌现工具使用能力

他们观察到,在玩简单的捉迷藏游戏时,智能体逐步发现了更复杂工具的使用。通过在他们新的模拟捉迷藏环境中进行训练,智能体可以构建一套六种不同的策略和对策,其中一些他们都不知道他们的环境可以支持。在这种简单环境中的自我监督的涌现的复杂性进一步表明,多智能体协同适应有一天可能会产生极其复杂和智能的行为。

https://openai.com/research/emergent-tool-use

https://arxiv.org/abs/1909.07528


2019年 4月 25日

MuseNet

缪斯网络

他们创建了 MuseNet,这是一个深度神经网络,可以使用 10 种不同的乐器生成 4 分钟的音乐作品,并且可以结合从乡村到莫扎特再到披头士乐队的风格。MuseNet并没有根据他们对音乐的理解进行明确的编程,而是通过学习预测数十万个MIDI文件中的下一个token来发现和声、节奏和风格的模式。MuseNet使用与GPT-2相同的通用无监督技术(general-purpose),大型transformer模型,经过训练之后,可以预测序列中的下一个token,无论是音频还是文本。

https://openai.com/research/musenet


2019年 2月 14日

Better language models and their implications

更好的语言模型及其影响

他们训练了一个大规模的无监督语言模型,该模型可以生成连贯的文本段落,在许多语言建模基准上实现最先进的表现,并执行基本的阅读理解、机器翻译、问答和总结——所有这些都不需要特定的任务训练。

GPT-2 是一个大transformer语言模型,具有15亿个参数,在800万个网页的数据集上进行训练。GPT-2的训练目标很简单:根据某些文本中的所有前一个单词预测下一个单词。数据集的多样性使这个简单的目标包含跨不同领域的许多任务。GPT-2是GPT的直接放大,参数是GPT的10倍以上,训练的数据量是10倍以上。GPT-2展示了广泛的功能,包括生成质量前所未有的条件合成文本样本的能力。此外,GPT-2优于在特定领域(如维基百科、新闻或书籍)上训练的其他语言模型,而无需使用这些特定领域的训练数据集。在问答、阅读理解、总结和翻译等语言任务中,GPT-2 开始从原始文本中学习这些任务,不使用特定任务的训练数据。虽然这些下游任务的分数远非最先进的,但它们表明,只要有足够的(未标记的)数据和计算,这些任务可以从无监督技术中受益。

https://openai.com/research/better-language-models

https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf


2018年 12月 14日

How AI training scales

AI 训练如何扩展

在过去的几年里,人工智能研究人员在通过数据并行加速神经网络训练方面取得了越来越大的成功,数据并行将大batch的数据拆分到许多机器上。研究人员已成功将数万个batch用于图像分类和语言建模,甚至数百万强化学习agent玩游戏 Dota 2。这些大的batch允许将越来越多的计算量有效地投入到单个模型的训练中,并且是AI训练算力快速增长的重要推动力。他们发现,梯度噪声大小是一个简单的统计指标,可以预测神经网络训练在各种任务上的并行化水平。由于复杂的任务往往具有更嘈杂的梯度,因此越来越大的batch大小可能会在未来变得有用,从而消除了人工智能系统进一步增长的一个潜在限制。更广泛地说,这些结果表明,神经网络训练不必被视为一门神秘的艺术,而是可以严格化和系统化的。然而,过大的batch大小显示算法回报迅速减少,目前尚不清楚为什么这些限制对于某些任务较大,而对于其他任务则较小。

https://openai.com/research/how-ai-training-scales

https://arxiv.org/pdf/1812.06162.pdf


2018年 7月 30日

Learning dexterity

学习灵巧性

他们的系统称为 Dactyl,完全在模拟环境中训练,并将其知识转移到现实中,使用过去这些年他们一直在研究的技术来适应现实世界的物理特性。Dactyl 使用与OpenAI Five相同的通用强化学习算法和代码,从零开始学习。他们结果表明可以在模拟中训练智能体并让智能体解决现实世界的任务,而无需对世界进行物理精确建模。

https://openai.com/research/learning-dexterity

https://arxiv.org/abs/1808.00177https://arxiv.org/abs/1808.00177


更多的OpenAI的研究,请访问:https://openai.com/research


本文链接:http://xiaogongchang.cn/chatgpt/1069.html

智能机器人chatgpt需要付费多少chatgpt plus 支付chatgpt 翻译 谷歌翻译注册了chatgpt怎么登录chatgpt注册用什么网络如何给chatgpt充值注册chatgpt邮箱chatgpt注册可以用qq邮箱吗chatgpt加入会员多少费用ChatGPT Enterprise

相关文章