gemma模型介绍

关于gemma模型的一些简单介绍

avatar_cover Alex Xiang
2024-09-15 362阅读

Gemma是Google推出的一系列轻量级的LLM,采用与构建Gemini模型相同的技术栈。

在Kaggle上可以很容易的学习和使用Gemma,在Kaggle的模型页面,Gemma排在前列,其增长趋势也是最高的,具体地址是https://www.kaggle.com/models/google/gemma。 当前Gemma在kaggle上有640个code,62个讨论和11个相关竞赛,可以通过这些信息去学习Gemma。

我们也可以在Gemma的页面上找到下载的信息,目前有不同框架的Gemma模型可供下载,比较流行的包括Keras、PyTorch、Transformers、Gemma C++、LiteRT等等,每一种又分了不同版本,例如PyTorch主要包括2b、2b-it、7b、7b-it等等若干的版本,2b和7b分别是20亿参数和70亿参数两种规模,每个规模又分预训练和指令微调(带-it后缀)两个版本。

最基础的2b模型即便是在没有独显的笔记本电脑上都能尝试运行,而规模更大的7b、7b全量版分别需要8GB和16GB显存。相比之下,google后来开源的gemma 2的规模更大,最高能到270亿参数,但是相应的对硬件的要求也更高。

在kaggle上可以直接尝试gemma模型,每周还可以有若干免费时长的GPU和TPU可以使用。如果想在本地训练和使用,可以将需要的版本下载到本地使用,参考本系列的其他文章。

Filter blog posts by tag gemma