当前位置：数码通 > 摄影

ChatGPT迎来重大升级，算力需求可望爆发

来源于数码通 2023-10-02 01:22 摄影

最新的ChatGPT可以讲故事、进行语音对话、看图片。 OpenAI将可以查看图片的模型称为GPT-4V（ision），同时也测试了GPT-4V的验证码破解和地理定位能力。语音和图像数据的大小明显大于文本。券商指出，多模态大型模型的训练和推理算力需求将大幅增长。

当地时间25日，OpenAI宣布ChatGPT获得重大更新：这款聊天机器人bot现在可以“看、说、听”——换句话说，ChatGPT增加了语音和图像功能。未来两周内，Plus用户和企业用户将能够体验到新功能，开发者等其他用户群体也有望在不久的将来体验到。

其中，ChatGPT的图像理解能力最受外界关注。据介绍，用户可以向ChatGPT展示一张或多张图片，排查烧烤炉无法启动的原因，检查冰箱里有哪些美味佳肴，或者分析复杂的图表来获取数据。如果你想让ChatGPT聚焦在图片的特定部分，你也可以使用APP中的绘图工具来突出显示它。

从OpenAI给出的视频的例子中可以看到，当用户将自行车照片发送到ChatGPT并询问如何放下垫子时，ChatGPT不仅会自发地观察自行车模型、识别零件，并提供详细步骤，您还将阅读说明并确定用户现有的工具是否可以完成该工作。

值得注意的是，在当天发布的论文中，OpenAI 将这种可以查看图像的模型称为 GPT-4V（ision）。该模型已于 2022 年完成训练，然后于 2023 年初开始早期测试。

在GPT-4V的帮助下，今年3月OpenAI与Be My Eyes组织合作开发了Be My AI，可以为盲人和视障人士描述外部世界。测试表明，Be My AI 可以为 50 万盲人和视障用户提供工具，满足他们的信息、文化和就业需求。

此外，OpenAI还测试了GPT-4V的验证码破解和地理定位能力。前者表明该模型具有解决难题和执行复杂视觉推理任务的能力，而后者则证明了该模型在搜索物品/位置方面的有用性。但这两个功能都会涉及到网络安全和隐私问题。

至于本次更新中的其他语音识别和生成功能，OpenAI表示，用户可以使用该功能给孩子讲睡前故事，也可以在争吵时充当帮手。

OpenAI 与专业配音演员合作，提供 5 种不同的声音。此外，Company还与Spotify合作，利用该功能将播客翻译成其他语言，同时保留播客主持人的声音。

值得一提的是，数据显示ChatGPT流量近期有所回升。 SimilarWeb数据显示，9月11日当周，ChatGPT流量较前一周增长约12%。另一家分析公司 Sensor Tower 报告称，8 月最后两周，全球 ChatGPT 应用用户周环比增长超过 10%。据悉，客流量增加的主要原因是学生开始返校，印度和巴西市场正在增长。

▌多模态大模型成为兵家必争之地，算力需求大幅提升

如今，多模态功能已经成为各大AI模型的必备。 Meta 最近推出了 AudioCraft，通过 AI 生成音乐； Google Bard和Bing机器人部署了多模式功能；苹果还在试验人工智能生成的语音 Personal Voice。

随着AI感知、交互和生成能力的快速发展，应用场景和生态有望进一步丰富。语音和图像数据的大小明显大于文本。券商指出，多模态大型模型的训练和推理算力需求将大幅增长。

例如，Google 寄予厚望的大型多模态模型 Gemini 已开始在 TPUv5 Pod 上进行训练，根据 SemiAnalysi 分析师 Dylan Patel 和 Daniel 的说法，计算能力约为 1e26 FLOPS尼什鲍尔。训练 GPT-4 所需计算能力的 5 倍。

华为副董事长、轮值董事长、CFO孟晚舟近日也表示，“对于人工智能的发展，算力是核心驱动力。大模型需要大算力，算力的多少决定了AI的迭代。创新的速度也影响着经济发展的速度。算力的稀缺性和成本成为制约AI发展的核心因素。”

国信证券指出，人工智能三要素（大模型、算力、应用）推动呈螺旋关系。 AI的三要素以“模型更新-算力芯片迭代、单位代币成本降低-应用增加”的循环往复。当三要素之一爆发时，是强烈刺激的时期；三者不会同时更新。它将进入停滞期，等待下一次爆发。