YouTube Transcript:
The New Code — Sean Grove, OpenAI
Skip watching entire videos - get the full transcript, search for keywords, and copy with one click.
Share:
Video Transcript
大家好。 非常感谢
你们的邀请。 嗯,这是一个非常令人兴奋的
地方,非常令人兴奋的时刻。 呃,
呃,
其次,呃,我的意思是这
几天过得相当紧张。 我不
知道你是否有同样的感受。 呃,但
也非常有活力。 所以今天我想占用
大家一点时间来
谈谈我所看到的
新代码的到来。 呃,特定的
规范在某种程度上承载着这样的
承诺,呃,这是业界的梦想,
你可以编写
一次代码,实现你的意图,然后在
任何地方运行它们。
呃,简单介绍一下,我的名字是 Sean,我在
OpenAI 工作,具体从事
一致性研究,今天我想
谈谈代码
与沟通的价值,以及为什么
规范通常可能是一种
嗯,我将介绍一下规范的结构
,我们将使用模型
规范作为示例。 嗯,我们将讨论如何
向其他人传达意图,
并将 40 个 syphency
问题作为案例研究。
嗯,我们将讨论如何使
规范可执行,如何
向模型传达意图,嗯,以及
如何将规范视为
代码,即使它们有点
不同。 嗯,我们将以
几个未解决的问题来结束我们的讨论。 那么,让我们来讨论一下
代码与通信。
很快,如果你编写了
代码并认为代码有价值,请举手。
凉爽的。 如果您的工作是
编写代码,请坚持下去。
好的。 现在,对于那些人来说,
如果您认为
自己生产的最有价值的专业产品
是代码,请抬起头来。
好的,有不少人,我
认为这很自然。 我们都
非常努力地解决问题。 我们
与人们交谈。 我们收集
需求。 我们仔细考虑
实施细节。 我们
与许多不同的来源进行整合。
我们最终生产的东西就是代码。
代码是我们可以
指向、可以衡量、可以辩论、
可以讨论的产物。 呃,这感觉很
真实,但它有点低估了
你们每个人所做的工作。 代码大约占
您带来的价值的 10% 到 20%
。 其余 80% 到 90% 是
结构化沟通。
这对
每个人来说都是不同的,但这个过程通常看起来
像你与用户交谈
以了解他们面临的挑战。
您提炼这些故事,然后
构思如何解决这些
问题。 你想达到的目标是什么
? 您计划
实现这些目标的方法。 您
与同事分享这些计划。
呃,你把这些计划翻译成代码。
所以这显然是非常重要的一步
。 然后你测试并验证的
不是代码本身,对吗? 实际上没有人关心
代码本身。 您
关心的是代码运行时,它是否
实现了目标,是否减轻了
用户的挑战? 看看
你的代码对世界的影响
。 因此,交谈、理解、
规划、分享、翻译、测试、
验证。 对我来说,这些听起来都像是
结构化的沟通。 而
结构化沟通是 瓶颈。
瓶颈。
知道要构建什么,与人交谈
并收集需求,知道如何
构建它,知道为什么要构建它,
并且最终知道它是否已
正确构建并且是否
真正实现了
您设定的目的。
人工智能模型越先进,
我们就越能明显地感受到
这种瓶颈。
因为在不久的将来,
最能有效沟通的人就是
最有价值的程序员。 从字面上理解,
如果你能有效沟通,你
就能编程。
因此,让我们以氛围编码作为
说明性示例。 Vibe 编码往往
感觉相当好。 值得
一问的是,这是为什么呢? 嗯,氛围编码从
根本上来说首先是关于沟通。
而代码实际上是
该通信的次要下游产物 。
。
我们描述我们的意图和
我们希望看到的结果,并
让模型实际上
为我们处理繁重的工作。 即便如此, 我们
我们
进行氛围编码的方式还是有些奇怪。 我们通过
提示与模型进行交流,
告诉他们我们的意图和
价值观,最后得到一个代码工件,
然后我们将
提示扔掉,它们是短暂的,
如果你编写了 TypeScript 或 Rust,
一旦你将你的代码放入
编译器或将其分解成二进制文件,
没有人会对这个二进制文件感到满意。 这
不是目的。 它很有用。
事实上,
每次我们编译或
通过 V8 或源规范中的其他任何程序运行代码时,我们总是从头开始重新生成二进制文件 。
。
源规范才是有价值的 文物。
文物。
然而,当我们提示元素时,我们却
做了相反的事情。 我们保留
生成的代码并删除提示。
这感觉有点像
你撕碎了源代码,然后非常
小心地对二进制文件进行版本控制。
这就是为什么在规范中
实际捕捉意图和
价值如此重要。
书面规范可以让
你让人们对共同的
目标达成共识,并且让你知道如果你真的同步了 需要
需要
做的事情,你们是否就达成了共识。 这是
您所讨论、辩论、
参考和同步的工件。
这确实很重要。 因此,我
想强调的是,
书面规范可以有效地协调 人类,
人类,
它是人们用来
交流、讨论、辩论、
参考和同步的依据。 如果你
没有具体说明,你就
只有一个模糊的想法。
现在我们来谈谈为什么规范
通常比代码更强大。
因为代码本身实际上是
规范的有损投影。
同样,如果您要对
已编译的 C 二进制文件进行反编译,
您将不会得到很好的注释和
命名良好的变量。 你必须
倒着做。 你必须推断
这个人想要做什么?
这段代码为什么要这样写呢? 它
实际上并不包含在那里。 这是
有损翻译。 同样,
代码本身,即使是好的代码,通常也
不会体现所有的意图和
价值观。 你必须推断
这个团队想要实现的最终目标是什么
。 呃,当你阅读
代码时,
那么沟通,我们
建立的工作,我们在
书面规范中体现的工作已经
比代码更好。 它实际上对生成代码
所需的所有必要条件进行了编码
。 并且,就像
将源代码
传递给编译器可以让你
针对多个不同的
架构一样,你可以针对 ARM
64、x86 或 Web 汇编进行编译。 源
文档实际上包含足够的
信息来描述如何将
其转换为目标架构。
同样,给予模型足够强大的
规范将
产生良好的 TypeScript、良好的 Rust、
服务器、客户端、文档、教程、
博客文章甚至 播客。
播客。
呃,举手,谁在
以开发人员为 客户的公司工作?
客户的公司工作?
好的。 因此,一个快速的思维
练习是,如果您要拿出您的
整个代码库、所有的
文档,哦,所以所有
运行您业务的代码,并将
其放入播客生成器中,
您能否生成一些
足够有趣和引人注目的内容
来告诉用户如何
成功,如何实现他们的目标,或者
所有这些信息都在
其他地方? 它实际上不在你的代码中。
因此,展望未来,新的稀缺
技能是编写能够
充分体现意图和价值的规范。
谁能再次掌握这一点,谁就会成为
最有价值的程序员。
并且很有可能
这就是当今的程序员。
这已经和我们做的非常相似了
。 但是产品经理也会写
规范。 立法者制定法律 规范。
规范。
这其实是一个普遍的道理。
考虑到这一点,让我们看看
规范实际上是什么样的。
我将在这里使用 OpenAI 模型规范
作为示例。 因此去年,OpenAI
发布了模型规范。 这是一份
活生生的文件,它试图清晰
明确地 表达
表达
OpenAI 希望灌输给
并于二月份更新并
开源。 所以你实际上可以去
GitHub 查看
模型规范的实现,
令人惊讶的是它实际上只是一些
markdown 文件的集合,看起来
就像这样。 现在 markdown 非常引人注目。
它是人类可读的。 已版本化。
它记录了变化,因为它是
自然语言,所以不仅仅是
技术人员,每个人都可以做出贡献,
包括产品法律安全研究
政策,他们都可以阅读、讨论辩论
并为相同的源代码做出贡献。
这是一个通用的神器,它使
公司内部的所有人都与我们的目的和价值观保持一致。
现在,尽管我们尽力使用
明确的语言,但有时仍然
很难表达其中的
细微差别。 因此,模型规范中的每个子句在
这里都有一个 ID。 所以,您可以
在这里看到 sy73。 使用该 ID,您可以
在存储库 sy73.mmarkdown
sy73.mmarkdown
或 md uh 中找到另一个文件,其中包含针对此精确条款的一个或多个具
有挑战性的提示
。 因此,文档
本身实际上编码了成功标准,
即被测模型必须
能够以
符合该条款的方式回答这个问题。
那么让我们来谈谈 syphy。 呃,
最近有更新到 40。我
不知道你是否听说过这个。 呃,
那里呃引起了极端的骚动。 呃,我们
可以问一下,
在这种情况下模型规范的价值是什么,模型规范的作用
是使人类围绕一组
价值观和意图进行调整。
这是一个 sycancy 的例子,其中
用户大声斥责
以牺牲公正的真相为代价的 syphants 或 sophantic 行为,
并且模型非常
善意地赞扬用户的 洞察力。
其他受人尊敬的
研究人员也发现了类似的
情况,
这损害了
航运业的虚伪,从而
侵蚀了信任。
好痛。
所以这也引发了很多问题,
比如这是故意的吗? 您可能会发现
一些可以
这样解释的方法。 这是意外吗?为什么
没有被抓住?
幸运的是,自发布以来,模型规范实际上
包含一个专门针对此问题的部分,其中
指出不要
厌倦幻想,并解释说,
虽然幻想在短期内可能感觉良好
,但从长远来看对每个人来说都是有害的
。 因此,我们实际上表达了我们的
意图和价值观,并能够
人们可以参考它,如果我们
在模型规范中拥有它,
如果模型规范是我们
商定的意图和价值观,而
行为与此不一致,
那么这一定是一个错误。
因此我们回滚了,发布了一些
研究和一些博客文章,并修复了 它。
但在此期间,这些规范起到了
信任锚的作用,一种向
人们传达预期和不 预期内容的方式。
因此,如果模型规范所做的唯一事情
就是使人类
与那些共同的意图
和价值观保持一致,那么它已经
非常有用了。
但理想情况下,我们还可以根据相同的规范调整我们的模型
和模型
产生的工件。
因此,我们
发布了一项技术,即审议性
对齐,该技术讨论了
如何自动对齐模型,
该技术是这样的,您采用
规范和一组非常具
有挑战性的输入提示,然后
从测试或训练的模型中抽样 。
。
然后,你把它的响应、
原始提示和策略
提供给一个更大的模型,并要求
它根据规范对响应进行评分
。 对齐程度如何? 因此,
该文档实际上既是
训练材料,又是评估材料,
并且基于这个分数,我们会强化
这些权重,并且
您可以在上下文中包含您的规范, 然后
然后
在每次采样时可能包含系统消息或开发人员消息, 这
这
实际上非常有用。 提示
模型在某种程度上是一致的,
但它确实会削弱可
用于解决
您尝试用该模型解决的问题的计算能力。
请记住,这些规格
可以是任何东西。 它们可以是代码
风格、测试要求或
安全要求。 所有这些都可以
嵌入到模型中。 因此,通过这种
技术,您实际上是将其从
推理时间计算中移出,并且实际上将其
推入模型的权重中,
以便模型能够真正
感受到您的策略,并能够以
肌肉记忆的方式将其应用于
手头的问题。
尽管我们看到模型
规范只是 markdown,但将其视为代码还是很有用的
。 这非常 类似。
类似。
呃,这些规范是它们组成的,
它们是可执行的,正如我们所见,它们
是可测试的,它们有与
现实世界接触的接口,它们
可以作为模块交付,
每当你在模型规范上工作时,都会有
很多类似的
问题域,所以就像在
编程中你有一个类型
检查器一样,类型检查器旨在
确保一致性,如果接口 A
有一个依赖的模块 B,它们必须
在彼此的理解上保持一致
。 因此,如果部门 A 编写了
规范,部门 B 也编写了规范,并且
两者之间存在冲突,您希望
能够提前发生冲突,甚至可能
阻止规范的发布,
正如我们所见,该政策
实际上可以体现其自己的单元测试,
您可以想象各种各样的 llinters,
如果您使用过于模糊的
语言,您就会混淆人类,混淆
模型,
并且您从中获得的工件
将不那么令人满意。
因此,规范实际上为我们提供了一个非常相似的
工具链,但它针对的是
意图而不是语法。
那么让我们来谈谈作为
程序员的立法者。 嗯,
美国宪法实际上是一个
国家示范规范。 它
所写的文字至少是
我们所有人都可以参考的清晰、明确的政策。 这并不意味着
我们同意它,但我们可以将
其视为现状,即
现实。 嗯,有一个版本化的方法可以对
bump 进行修改并
发布更新。 司法
审查中,评级人员可以对
情况进行有效评级,并查看
其与政策的契合程度。
即使再次因为或即使
源策略旨在
明确无误,有时你也不会这样做,因为
世界很混乱,也许你会错过部分
分布,导致案件失败,
在这种情况下,
司法审查需要花费大量的计算,
你试图了解
法律在这里的实际应用方式,一旦
决定,它就会树立先例,而
该先例实际上是一个输入
输出对,作为单元测试,可以
消除歧义并强化
原始策略规范。 呃,它
里面嵌入了诸如命令链之类的东西,随着时间的推移,它的执行
是一个训练循环,有助于让
我们所有人朝着共同的
意图和价值观迈进。 所以这是一个
传达意图的神器。 它
裁定合规性,并且有一种
安全发展的方式。
因此,未来立法者很有可能
成为程序员,或者反过来,
程序员也很有可能成为立法者 。
。
实际上这是一个非常
普遍的概念。 程序员的
工作是通过
代码规范来对齐硅片。 产品经理
通过产品规格来协调团队。
立法者实际上是通过
法律规范来协调人类的。 无论
何时,这个房间里的每个人,当你做一个
提示时,它都是一种原型
规范。 您的业务是使
AI 模型与一
组共同的意图和价值观保持一致。
无论您是否意识到,您都是
这个世界的规范作者,而规范可以让
您更快、更安全地交付。 每个人都可以
做出贡献,无论是谁编写规范,
无论是项目经理、立法者、工程师还是
营销人员,现在都是程序员,
而软件工程从来都与
代码无关。 回到我们最初的
问题,
当你们想到实际上
我制作的东西不是代码时,很多人就举手了。
工程从来就不是关于这个的。
编码是一项令人难以置信的技能和
宝贵的财富,但它并不是最终
目标。 工程是
人类对解决
人类问题的软件解决方案的精确探索。 一直都是
这样。 我们只是
从分散的机器
编码转向统一的人类编码,以
解决这些
问题。 呃,我想感谢乔希给予
我的这份荣誉。 所以我想请你们
将其付诸行动。 无论何时
开发下一个 AI 功能,都请
从规范开始。
您实际上期望发生什么?
成功的标准是什么样的?
争论它是否实际上
被清楚地写下来并传达。
使规范可执行。 将规格提供
给模型
并针对模型进行测试或
针对规格进行测试。
鉴于编程和规范创作之间存在如此多的相似之处,这个世界上存在一个有趣的问题
。
我想知道
未来的 IDE 会是什么样子。 你知道,一个
集成开发环境。
我认为它就像一个
集成的思维澄清器,
每当你编写
规范时,它都会消除
歧义并要求你澄清它,
它真正澄清你的想法,以便
你和所有人类可以
更有效地相互传达你的意图并与模型沟通。
最后,我有一个求助请求,
呃,这既是可行的,又
迫切需要具体说明。 这是
按比例调整代理。 呃,我喜欢
你这句话,然后你意识到
你从来没有告诉过它你想要什么,
也许你从来没有完全理解它
。 这是对规范的呼唤。
呃,我们已经启动了一个新的代理稳健性团队
。 因此,请加入我们
,帮助我们提供安全的 AGI,
造福全人类。
Click on any text or timestamp to jump to that moment in the video
Share:
Most transcripts ready in under 5 seconds
One-Click Copy125+ LanguagesSearch ContentJump to Timestamps
Paste YouTube URL
Enter any YouTube video link to get the full transcript
Transcript Extraction Form
Most transcripts ready in under 5 seconds
Get Our Chrome Extension
Get transcripts instantly without leaving YouTube. Install our Chrome extension for one-click access to any video's transcript directly on the watch page.
Works with YouTube, Coursera, Udemy and more educational platforms
Get Instant Transcripts: Just Edit the Domain in Your Address Bar!
YouTube
←
→
↻
https://www.youtube.com/watch?v=UF8uR6Z6KLc
YoutubeToText
←
→
↻
https://youtubetotext.net/watch?v=UF8uR6Z6KLc