当前位置:数码通 > 摄影

您对清华团队发布ChatGLM2有何看法

来源于 数码通 2023-10-10 11:25

中英双语大模型ChatGLM2-6B开发团队-智普AI&清华KEG宣布ChatGLM-6B和ChatGLM2-6B权重完全开放给学术研究, 完成商业登记并获得授权后,可免费商业使用

ChatGLM2-6B是开源中英双语对话模型ChatGLM-6B的第二代版本。它保留了第一代机型对话流畅、部署门槛低等诸多优秀特性。 ChatGLM2-6B在此基础上引入了以下新功能:

  • 更强大的性能:基于ChatGLM第一代模型的开发经验,ChatGLM2-6B基础模型进行了全面升级。 ChatGLM2-6B使用GLM的混合目标函数,并经过1.4T中英文标识符的预训练和人类偏好对齐训练。评估结果表明,与第一代模型相比,ChatGLM2-6B在MMLU(+23%)、CEval(+33%)、GSM8K(+571%)、BBH等数据集上的表现(+60%) 有了很大的提升,在同规模的开源机型中具有很强的竞争力。
  • 更长的上下文:基于FlashAttention技术,项目组将基础模型的上下文长度(Context Length)从ChatGLM-6B的2K扩展到32K,并在对话阶段使用8K上下文长度训练,使得更多轮对话。然而,当前版本的ChatGLM2-6B对单轮超长文档的理解能力有限。我们将在后续迭代升级中重点优化。
  • 更高效的推理:基于Multi-Query Attention技术,ChatGLM2-6B具有更高效的推理速度和更低的内存占用:官方模型实现下,推理速度较第一代提升42% ,在INT4量化下,6G显存支持的会话长度从1K增加到8K。

比较示例

与原模型相比,ChatGLM2-6B在多个维度上都有提升。以下是一些比较示例。

数理逻辑

知识推理

长文档理解

登录后参与评论