Gemma 2——谷歌开源的新一代大语言模型(LLM)

AI工具2周前发布 大Joe
25 0

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

Gemma 2是什么?

Gemma 2是谷歌开源的新一代大语言模型(LLM),它专门面向研究和开发人员。Gemma 2提供了90亿(9B)和270亿(27B)两种参数规模的版本,旨在以较小的参数规模提供同类最佳的性能,同时大幅度降低部署要求,使其能够在单个NVIDIA H100 Tensor Core GPU或TPU主机上高效运行。

Gemma 2——谷歌开源的新一代大语言模型(LLM)

Gemma 2的功能特色

  1. 高效性与经济性:与上一代相比,Gemma 2在保持高性能的同时,显著降低了部署成本,能够在普通硬件上高效运行。
  2. 卓越性能:在同类小参数模型中,Gemma 2表现出色,甚至能够与体积超过其两倍的模型进行竞争。
  3. 易用性:Gemma 2支持多种AI框架,如Hugging Face Transformers、PyTorch和TensorFlow,使其能够轻松集成到用户的工作流程中。
  4. 安全性:Gemma 2在训练时注重安全性和道德考虑,通过严格筛选训练数据和安全策略微调,降低生成不适当内容的风险。
  5. 可扩展性:Gemma 2模型家族还包括其他针对不同计算限制优化的模型,如即将发布的20亿参数模型,为开发者提供了更多选择。
Gemma 2——谷歌开源的新一代大语言模型(LLM)

Gemma 2的入口

Gemma 2的主要应用场景

Gemma 2因其高效的性能和较低的部署成本,适用于多种应用场景,包括但不限于:

  1. 研究与开发:为AI研究人员和开发人员提供强大的工具,支持复杂的认知任务处理。
  2. 内容创作:辅助内容创作者生成高质量的文本,提高创作效率。
  3. 教育:在教育领域应用,为学生提供个性化的学习支持和辅导。
  4. 企业应用:在企业内部部署,用于自动化客户服务、文档处理等工作流程。
Gemma 2——谷歌开源的新一代大语言模型(LLM)

Gemma 2的性能基准

Gemma 2在多项基准测试中都表现出色,例如:

  • 在MMLU 5-shot测试中,27B模型的得分达到了75.2%,相较于Gemma-1的42.3%有显著增长。
  • 在其他基准测试如ARC-C 25-shot、GSM8K 5-shot等中,Gemma 2也展现出卓越的性能。

Gemma 2的框架结构

Gemma 2基于仅解码器的Transformer架构,并在上一代的基础上进行了改进,主要包括:

  • 局部滑动窗口和全局注意力:交替使用局部滑动窗口注意力和全局注意力,以提高模型对文本上下文的理解能力。
  • 分组查询注意力(GQA):通过将查询和键分组,减少计算需求,提高处理速度。
  • Logit软上限:提高训练的稳定性,防止模型内部表示中出现极端值。
  • RMSNorm:用于后归一化和前归一化,使训练过程更平滑,模型收敛更好。
Gemma 2——谷歌开源的新一代大语言模型(LLM)

Gemma 2的创新点

  1. 交替使用局部与全局注意力:这种设计使得模型既能捕获文本的局部上下文,又能保持对全局关系的理解。
  2. 分组查询注意力(GQA):通过减少计算需求,显著提高了处理长序列的速度。
  3. 知识蒸馏:使用知识蒸馏的方法,通过从更大的教师模型学习,使Gemma 2能够在较小的规模上复制大模型的卓越性能。
  4. 高效的训练策略:通过预训练、监督式微调、基于奖励模型的强化学习等多阶段训练策略,提高了模型的性能和实用性。
Gemma 2——谷歌开源的新一代大语言模型(LLM)

Gemma 2的训练策略

Gemma 2的训练策略主要包括以下几个阶段:

  1. 预训练:使用大量英文数据进行预训练,包括网页文档、代码、论文和科学文章等。
  2. 监督式微调:在混合的纯文本、纯英文合成和人工生成的prompt-响应对上应用监督微调,以提高模型的生成质量。
  3. 强化学习:应用基于奖励模型的强化学习,训练基于token的纯英文偏好数据,进一步提高模型的性能。
  4. 模型平均:通过平均每个阶段获得的模型,以提高整体性能和稳定性。

 

© 版权声明

相关文章

暂无评论

暂无评论...