B站大神Grok-1源码解读第一期

By 康康 2024-3-25

3月17号，马斯克开源了Gork-1，拥有3140亿参数，是目前世界上最大的开源大语言模型。Gork-1是一个在大量文本数据上进行训练的基础模型，没有经过任何微调。推理时25% 的权重被激活，实际激活的参数量是86B，单看这激活的参数量，就已经超过了Llama 2的70B。这个模型是2023年10月在 JAX 和 Rust 的基础上使用定制训练栈从头训练完成。我们做了源码的分析与解读，供大家参考。

网友评论

开源权重需要微调和激进量化才能在高性能设备上使用。MoE模型如Mixtral 8x7b和Grok可以进行量化，但对硬件要求较高，尤其是显存和内存。MoE模型在推理时只访问部分权重，因此即使在没有高性能显卡的情况下也能运行。

对于个人用户而言，Mac Studio是一个相对性价比高的选择，尽管价格不菲。一些用户对苹果产品在这一领域的性价比表示惊讶。

UP主得到了许多网友的支持和期待，他们对UP主的更新和后续内容表示关注。

有关技术问题的讨论，包括对模型的encoder和混合专家+路由机制的疑问，以及对部署方法的询问。

有评论提到，运行某些模型的硬件成本非常高。同时，一些网友对UP主的视频内容表示赞赏，而另一些则对视频内容或声音质量提出了批评。

一些网友表达了对即将推出的技术和内容的期待，同时也有对声音大小和视频质量的具体反馈。

By 康康

视频栏目

Grok-1主要参数

参数	描述
模型名称	Grok-1
开发公司	xAI (由埃隆·马斯克旗下)
开源协议	Apache 2.0
模型架构	混合专家模型 (Mixed Expert Model, MoE)
总参数量	3140亿 (314B)
激活参数量	86B (当处理Token时，激活两个专家)
专家模型数量	8个专家 (Experts)
编程语言	Rust
深度学习框架	JAX
知识日期	2023年10月
模型大小	296GB
运行要求	628G显存 8卡H100
隐藏层大小	32768
Transformer层数	64，每层包含多头注意力块和密集块
模型训练时间	2个月

B站大神Grok-1源码解读第一期

网友评论

By 康康

Related Post

关于我们

近期热门

埃隆·马斯克支持开源大模型运动

我把Grok-1部署运行起来啦！

B站大神Grok-1源码解读第二期

B站大神Grok-1源码解读第一期