ChatGPT已经开始入侵物理的世界了

日期: 2023-09-28 | 来源: 极客公园 | 有0人参与评论 | 字体: 小中大
OpenAI 表示，ChatGPT 中的新图像识别功能允许用户上传一张或多张图像，使用 GPT-3.5 或 GPT-4 模型进行对话。

这些模型将其语言推理技能应用于各种图像，如照片、截图和同时包含文本和图像的文档，人们只需点击一张图片，将其添加到聊天中，并提出潜在的问题，ChatGPT 就会根据所附文本分析图片，并给出答案。

它甚至可以围绕该主题进行前后对话。按照 OpenAI 的说法，用户可以上传某物的图片并询问 ChatGPT 相关问题——比如在旅行时拍一张地标的照片，让 ChatGPT 来讲述景点的有趣之处；拍下冰箱和食品储藏室的照片，找出晚餐要吃什么 (还可以问一些后续问题，以获得进一步的食谱)。

在官方提供的示例中，一张自行车的照片上传到 ChatGPT 界面，之后询问后者如何将座位调低。ChatGPT 首先询问了自行车的型号，因为座位的调整方式因车型而异。它详细解释了不同车型可能采用的快拆杆或螺栓的区别，并提供了相应的步骤。

然后，官方制造了一点混淆，拍摄了一张螺栓的照片，并在图中用官方的画图工具突出显示，试图让 ChatGPT 分辨是螺栓还是快拆杆。ChatGPT 很快指出图中所示的是螺栓，并建议用户寻找内六角扳手来解决问题。

接着，官方拍摄了一张工具箱的照片，向 ChatGPT 询问到底是哪一个扳手。ChatGPT 再次表现准确识别出所需的扳手，并清晰地指导用户选择正确的尺寸。这个示例清楚地展示了 ChatGPT 在解决实际问题时的实用性和智能响应。

在去年 3 月 GPT-4 发布时，OpenAI 就已展示了该模型解析文本和图像的初步能力，很快，这些能力将成为 ChatGPT 使用中更常见的存在。

OpenAI 将在未来两周时间里向为 Plus 和企业用户推出上述功能。用户可以在 iOS 和 Android 使用 ChatGPT 的语音合成功能，图像识别功能则在网页和 App 端均可用。

02

能力越大，责任越大

在 ChatGPT 发布近一年来，OpenAI 对其底层模型和界面进行了多次更新。而任何生成式 AI 的进步都需要考虑严肃的伦理和隐私问题。

OpenAI 在公告中声称其目标是开发安全且有益的通用人工智能，“我们相信，逐步提供我们的工具，可以让我们随着时间的推移不断改进和完善风险缓解措施，同时也让大家为未来更强大的系统做好准备。对于涉及语音和视觉的高级模型来说，这一策略越来越更加重要。”

毕竟，新语音技术能够仅从几秒的真实语音中创造逼真的合成语音，这为创造性应用打开大门的同时，也带来了新的风险，比如恶意冒充公众人物或进行诈骗等。

为降低音频深度伪造的风险，OpenAI 表示它已将语音合成功能的使用范围限制在语音聊天，和某些已获批准的合作伙伴关系中。其中包括与流媒体公司 Spotify 的合作——Spotify 正在使用其背后的技术为平台上的播客翻译不同语言的内容。Spotify 个性化副总裁齐亚德-苏丹（Ziad Sultan）在一份新闻稿中说：“通过与创作者本人的声音相匹配，语音翻译让世界各地的听众能够以前所未有的真实方式发现新的播客，并从中获得灵感。”

同样，为了避免图像识别带来的隐私和准确性问题，OpenAI 还限制了机器人对输入图像中出现的人进行分析和直接陈述的能力，其表示已经“采取了技术措施，以限制 ChatGPT 分析和直接陈述个人信息的能力，系统还是应当尊重个人隐私”，但是真正的恶意利用情况还是要在它面向公众推出后才能知道。

这次 ChatGPT 推出的语音交互和图像识别功能，为聊天机器人带来了更强的实用性，让它们从简单的文本处理工具更贴近真实生活。

同时，这似乎也预示着未来 AI 系统的发展方向——不仅要理解抽象的文字世界，还要能感知复杂的语音和图像信息，甚至是物理世界，从而真正进阶达到人机交互的境界。
- 新闻来源于其它媒体，内容不代表本站立场！
原文链接
原文链接:

在此页中阅读全文

我们的赞助商

目前还没有人发表评论, 大家都在期待您的高见

发表评论