当前位置:数码通 > 摄影

ChatGPT迎来重大升级,算力需求可望爆发

来源于 数码通 2023-10-02 01:22

最新的ChatGPT可以讲故事、进行语音对话、看图片。 OpenAI将可以查看图片的模型称为GPT-4V(ision),同时也测试了GPT-4V的验证码破解和地理定位能力。语音和图像数据的大小明显大于文本。券商指出,多模态大型模型的训练和推理算力需求将大幅增长。

当地时间25日,OpenAI宣布ChatGPT获得重大更新:这款聊天机器人bot现在可以“看、说、听”——换句话说,ChatGPT增加了语音和图像功能。未来两周内,Plus用户和企业用户将能够体验到新功能,开发者等其他用户群体也有望在不久的将来体验到。

其中,ChatGPT的图像理解能力最受外界关注。据介绍,用户可以向ChatGPT展示一张或多张图片,排查烧烤炉无法启动的原因,检查冰箱里有哪些美味佳肴,或者分析复杂的图表来获取数据。如果你想让ChatGPT聚焦在图片的特定部分,你也可以使用APP中的绘图工具来突出显示它。

从OpenAI给出的视频的例子中可以看到,当用户将自行车照片发送到ChatGPT并询问如何放下垫子时,ChatGPT不仅会自发地观察自行车模型、识别零件,并提供详细步骤,您还将阅读说明并确定用户现有的工具是否可以完成该工作。

值得注意的是,在当天发布的论文中,OpenAI 将这种可以查看图像的模型称为 GPT-4V(ision)。该模型已于 2022 年完成训练,然后于 2023 年初开始早期测试。

在GPT-4V的帮助下,今年3月OpenAI与Be My Eyes组织合作开发了Be My AI,可以为盲人和视障人士描述外部世界。测试表明,Be My AI 可以为 50 万盲人和视障用户提供工具,满足他们的信息、文化和就业需求。

此外,OpenAI还测试了GPT-4V的验证码破解和地理定位能力。前者表明该模型具有解决难题和执行复杂视觉推理任务的能力,而后者则证明了该模型在搜索物品/位置方面的有用性。但这两个功能都会涉及到网络安全和隐私问题。

至于本次更新中的其他语音识别和生成功能,OpenAI表示,用户可以使用该功能给孩子讲睡前故事,也可以在争吵时充当帮手。

OpenAI 与专业配音演员合作,提供 5 种不同的声音。此外,Company还与Spotify合作,利用该功能将播客翻译成其他语言,同时保留播客主持人的声音。

值得一提的是,数据显示ChatGPT流量近期有所回升。 SimilarWeb数据显示,9月11日当周,ChatGPT流量较前一周增长约12%。另一家分析公司 Sensor Tower 报告称,8 月最后两周,全球 ChatGPT 应用用户周环比增长超过 10%。据悉,客流量增加的主要原因是学生开始返校,印度和巴西市场正在增长。

▌多模态大模型成为兵家必争之地,算力需求大幅提升

如今,多模态功能已经成为各大AI模型的必备。 Meta 最近推出了 AudioCraft,通过 AI 生成音乐; Google Bard和Bing机器人部署了多模式功能;苹果还在试验人工智能生成的语音 Personal Voice。

随着AI感知、交互和生成能力的快速发展,应用场景和生态有望进一步丰富。语音和图像数据的大小明显大于文本。券商指出,多模态大型模型的训练和推理算力需求将大幅增长。

例如,Google 寄予厚望的大型多模态模型 Gemini 已开始在 TPUv5 Pod 上进行训练,根据 SemiAnalysi 分析师 Dylan Patel 和 Daniel 的说法,计算能力约为 1e26 FLOPS尼什鲍尔。训练 GPT-4 所需计算能力的 5 倍。

华为副董事长、轮值董事长、CFO孟晚舟近日也表示,“对于人工智能的发展,算力是核心驱动力。大模型需要大算力,算力的多少决定了AI的迭代。创新的速度也影响着经济发展的速度。算力的稀缺性和成本成为制约AI发展的核心因素。”

国信证券指出,人工智能三要素(大模型、算力、应用)推动呈螺旋关系。 AI的三要素以“模型更新-算力芯片迭代、单位代币成本降低-应用增加”的循环往复。当三要素之一爆发时,是强烈刺激的时期;三者不会同时更新。它将进入停滞期,等待下一次爆发。

多式联运大型车型是未来发展趋势。通过将不同数据类型相互关联,可以大大提高模型的准确性和鲁棒性,并且可以进一步扩展应用场景。

同时,3月份谷歌发布了多模态体现视觉语言模型(VLM)PaLM-E,可用于机器人领域; 7月份Google发布了新一代视觉-语言-动作(VLA)模型Robotics Transformer 2(RT-2),致力于机器人领域,看好大型模型的趋势——赋能机器人,分析师看好大型号赋能机器人的趋势。

-->
登录后参与评论