Gemma 2——谷歌开源的新一代大语言模型（LLM）

AI工具1年前 (2024)发布 FuturX-Editor

202 0 1

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐，在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

Gemma 2是什么？

Gemma 2是谷歌开源的新一代大语言模型（LLM），它专门面向研究和开发人员。Gemma 2提供了90亿（9B）和270亿（27B）两种参数规模的版本，旨在以较小的参数规模提供同类最佳的性能，同时大幅度降低部署要求，使其能够在单个NVIDIA H100 Tensor Core GPU或TPU主机上高效运行。

Gemma 2——谷歌开源的新一代大语言模型（LLM）

Gemma 2的功能特色

高效性与经济性：与上一代相比，Gemma 2在保持高性能的同时，显著降低了部署成本，能够在普通硬件上高效运行。
卓越性能：在同类小参数模型中，Gemma 2表现出色，甚至能够与体积超过其两倍的模型进行竞争。
易用性：Gemma 2支持多种AI框架，如Hugging Face Transformers、PyTorch和TensorFlow，使其能够轻松集成到用户的工作流程中。
安全性：Gemma 2在训练时注重安全性和道德考虑，通过严格筛选训练数据和安全策略微调，降低生成不适当内容的风险。
可扩展性：Gemma 2模型家族还包括其他针对不同计算限制优化的模型，如即将发布的20亿参数模型，为开发者提供了更多选择。

Gemma 2——谷歌开源的新一代大语言模型（LLM）

Gemma 2的入口

开源地址：https://www.kaggle.com/models/google/gemma-2
在线使用：https://aistudio.google.com/app/prompts/new_chat?model=gemma-2-27b-it
技术报告：https://storage.googleapis.com/deepmind-media/gemma/gemma-2-report.pdf

Gemma 2的主要应用场景

Gemma 2因其高效的性能和较低的部署成本，适用于多种应用场景，包括但不限于：

研究与开发：为AI研究人员和开发人员提供强大的工具，支持复杂的认知任务处理。
内容创作：辅助内容创作者生成高质量的文本，提高创作效率。
教育：在教育领域应用，为学生提供个性化的学习支持和辅导。
企业应用：在企业内部部署，用于自动化客户服务、文档处理等工作流程。

Gemma 2——谷歌开源的新一代大语言模型（LLM）

Gemma 2的性能基准

Gemma 2在多项基准测试中都表现出色，例如：

在MMLU 5-shot测试中，27B模型的得分达到了75.2%，相较于Gemma-1的42.3%有显著增长。
在其他基准测试如ARC-C 25-shot、GSM8K 5-shot等中，Gemma 2也展现出卓越的性能。

Gemma 2的框架结构

Gemma 2基于仅解码器的Transformer架构，并在上一代的基础上进行了改进，主要包括：

局部滑动窗口和全局注意力：交替使用局部滑动窗口注意力和全局注意力，以提高模型对文本上下文的理解能力。
分组查询注意力（GQA）：通过将查询和键分组，减少计算需求，提高处理速度。
Logit软上限：提高训练的稳定性，防止模型内部表示中出现极端值。
RMSNorm：用于后归一化和前归一化，使训练过程更平滑，模型收敛更好。

Gemma 2——谷歌开源的新一代大语言模型（LLM）

Gemma 2的创新点

交替使用局部与全局注意力：这种设计使得模型既能捕获文本的局部上下文，又能保持对全局关系的理解。
分组查询注意力（GQA）：通过减少计算需求，显著提高了处理长序列的速度。
知识蒸馏：使用知识蒸馏的方法，通过从更大的教师模型学习，使Gemma 2能够在较小的规模上复制大模型的卓越性能。
高效的训练策略：通过预训练、监督式微调、基于奖励模型的强化学习等多阶段训练策略，提高了模型的性能和实用性。

Gemma 2——谷歌开源的新一代大语言模型（LLM）

Gemma 2的训练策略

Gemma 2的训练策略主要包括以下几个阶段：

预训练：使用大量英文数据进行预训练，包括网页文档、代码、论文和科学文章等。
监督式微调：在混合的纯文本、纯英文合成和人工生成的prompt-响应对上应用监督微调，以提高模型的生成质量。
强化学习：应用基于奖励模型的强化学习，训练基于token的纯英文偏好数据，进一步提高模型的性能。
模型平均：通过平均每个阶段获得的模型，以提高整体性能和稳定性。

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

SWEET-RL：Meta推出的多轮强化学习框架

FuturX-Editor

264 0

日日新融合大模型—— 商汤科技推出的原生融合模态大模型

FuturX-Editor

216 0

AgentReview —— 基于LLM Agents 模拟同行评审过程的框架

FuturX-Editor

314 0

Gemini——由Google DeepMind开发的多模态AI模型

FuturX-Editor

776 0

LightLab ：谷歌等机构推出的图像光源控制模型

FuturX-Editor

183 0

NotebookMLX —— 将PDF文档转换成音频博客开源版的NotebookLM

FuturX-Editor

317 0

暂无评论

暂无评论...

AI全网资源导航每日收集国内外热点AI/人工智能/工具/模型/框架以及最新的AI学习资料/课程等，在这个全新的AI时代，助力每一个人，赋能每一个具体业务场景，与所有人一起努力向前！

友链申请免责声明广告合作关于我们

Copyright © 2025 AI智库导航-aiguide.cc 沪ICP备2022030655号