分别是即时定制语音(Instant Custom Voice)功能和带说话人日志功能的转录(Transcription with Diarization)功能
其中即时定制语音只需要10秒的音频输入
就可生成逼真的定制语音
企业能够借助这个功能来个性化呼叫中心、开发无障碍内容
以及建立独特的品牌声音
而带说话人日志功能的转录功能
它可以精确地分离和识别多人录音中的单个说话人
显著提高转录内容的清晰度和可用性
非常适用于会议纪要、播客分析和多方通话录音等应用场景
第四
Imagen 3作为谷歌最高质量的文本转图像模型
这次也有了显著的改进
它能够生成具有比之前更好细节、更丰富光照和更少干扰性伪影的图像
谷歌还显著改进了Imagen 3的图像修复(inpainting)能力
用于重建图像中缺失或损坏的部分
尤其是在物体移除(object removal)方面
不仅质量更高
而且效果也更加自然
除了模型本身能力的升级以外
如今随着人工智能的发展
Agent在各个领域的应用也越来越广泛
但是Agent如果想要发挥更大的作用
就必须能够跨越孤立的数据系统和应用程序
在一个动态的多Agent生态系统中相互协作
为了实现这一目标
谷歌推出了全新的开放协议
Agent2Agent,简称A2A
并且已经获得了超过50家合作伙伴的支持和贡献
简单来说,A2A是一种开放协议
为Agent提供了一种标准的交互方式
让它们之间能够进行相互协作
而无需考虑底层框架或者供应商
比方说
一家大型电商公司使用了多种企业平台和服务
Atlassian 用于团队项目管理
Box 用于文件存储和共享
Salesforce 用于客户关系管理
Workday 用于人力资源管理
以前这些平台上的Agent是无法自由通信的
而现在通过A2A协议
这些企业平台可以安全、自由地自动化交互数据
在与合作伙伴设计协议时
谷歌遵循了五个关键原则
第一
A2A专注让Agent能够在它们自然的、非结构化的模式下进行协作
即使它们不共享内存、工具和上下文
谷歌想要开启的是一个真正的多Agent场景
而不是限制Agent成为一个工具
第二
协议基于现有的、流行的标准构建
包括HTTP、SSE、JSON-RPC等等
这意味着它可以很容易地与企业现在已经在使用的IT技术栈进行集成
第三
A2A协议可以支持企业级的认证和授权
与OpenAPI的认证方案具有对等性
使用A2A 协议能快速通过身份验证
安全地获取数据
保障数据传输的安全性和合规性
防止数据泄露风险
第四,A2A协议具有很好的灵活性
能够支持从快速任务到可能需要几小时、甚至几天的深入研究等各种场景
在整个过程中
A2A可以向用户提供实时的反馈、通知和状态更新
第五,A2A协议可以支持各种模态
包括音频、图像和视频流等等
我们再来简单介绍一下A2A的工作原理
它是通过促进客户端Agent和远程Agent之间的通信来实现的
客户端Agent负责制定和传达任务
而远程Agent则根据这些任务采取行动
提供正确的信息或执行相应的操作
在这个过程中
A2A协议有以下几个关键能力
首先
Agent可以通过“Agent Card”来宣传它们的能力
这些“Agent Card”是以JSON格式存在的
它们能够让客户端Agent识别出哪个远程Agent最适合执行特定的任务
一旦确定了合适的远程Agent
客户端Agent就可以利用A2A协议与之进行通信
将任务分配给它
然后
任务管理是A2A协议中的一个重要环节
客户端和远程Agent之间的通信都是围绕完成任务展开的
协议定义了一个“任务”对象
这个对象具有自己的生命周期
对于一些简单的任务
可能可以立即完成
而对于一些复杂的、长期的任务
Agent们可以相互沟通
保持对任务完成状态的同步
当任务完成时
输出最终的工件Artifact
此外,A2A还支持Agent之间的协作
Agent们可以相互发送消息
这些消息可以包含上下文信息、回复、工件或者用户指令
通过这种方式
Agent们能够更好地协同工作
共同完成复杂的任务
最后,A2A还具备用户体验协商的功能
每条消息都包含部分parts
这些parts是完整的内容片段
比如生成的图像
每个parts都有指定的内容类型
这使得客户端和远程Agent能够协商所需的正确格式
并且明确包括用户界面能力的协商
比如iframe、视频、网络表单等
这样
A2A就能够根据用户的需求和设备的能力
提供最佳的用户体验
谷歌还在博客中对 MCP 和 A2A 两种协议进行了比较
MCP主要是用于工具和资源管理
通过结构化的输入输出
将Agent连接到工具、API 接口和资源上
而A2A协议主要是用于Agent之间的协作
两个协议可以说是互补的
在这次谷歌云大会上
还有一个值得关注的更新
那就是谷歌的AI编码助手
Gemini Code Assist
它现在也可以部署新的AI Agent
通过执行多个步骤来完成复杂的编程任务
比如
它可以根据Google Docs中的产品Spec来创建应用程序
或者将代码从一种语言转换为另一种语言
大大提高开发效率
而且
Code Assist现在除了在其他编码环境中使用外
还可在Android Studio中使用
进一步扩大了它的应用范围
不过它在实际编程环境中的表现究竟如何
还要等它正式发布之后试用才知道
好了
以上就是这次谷歌云大会发布的主要内容了
从性能超强的Ironwood TPU
到全模态升级的Vertex AI平台
再到全新的A2A协议和Gemini Code Assist
谷歌的这场大会
似乎迫不及待的想要展现自己的实力
另外根据CEO Pichai 介绍
Gemini 2.5 Pro 现在已经在 AI Studio、Vertex AI 和 Gemini 应用程序中
向所有人开放了
根据谷歌在今年 1 月发布的财报显示
其 2024 年第四季度的云业务收入
达到 120 亿美元,同比增长了 30%,
AI Studio 和 Gemini API 的活跃用户
更是在过去一个月就增长了 80%。
随着OpenAI打算开启新一轮的发布周
相信谷歌后续也还会有相关的动作跟进
让我们拭目以待
感谢大家观看本期视频
我们下期再见
Click on any text or timestamp to jump to that moment in the video
Share:
Most transcripts ready in under 5 seconds
One-Click Copy125+ LanguagesSearch ContentJump to Timestamps
Paste YouTube URL
Enter any YouTube video link to get the full transcript
Transcript Extraction Form
Most transcripts ready in under 5 seconds
Get Our Chrome Extension
Get transcripts instantly without leaving YouTube. Install our Chrome extension for one-click access to any video's transcript directly on the watch page.