3月17号,马斯克开源了Gork-1,拥有3140亿参数,是目前世界上最大的开源大语言模型。Gork-1是一个在大量文本数据上进行训练的基础模型,没有经过任何微调。推理时25% 的权重被激活,实际激活的参数量是86B,单看这激活的参数量,就已经超过了Llama 2的70B。这个模型是2023年10月在 JAX 和 Rust 的基础上使用定制训练栈从头训练完成。我们做了源码的分析与解读,供大家参考。

网友评论

开源权重需要微调和激进量化才能在高性能设备上使用。MoE模型如Mixtral 8x7b和Grok可以进行量化,但对硬件要求较高,尤其是显存和内存。MoE模型在推理时只访问部分权重,因此即使在没有高性能显卡的情况下也能运行。

对于个人用户而言,Mac Studio是一个相对性价比高的选择,尽管价格不菲。一些用户对苹果产品在这一领域的性价比表示惊讶。

UP主得到了许多网友的支持和期待,他们对UP主的更新和后续内容表示关注。

有关技术问题的讨论,包括对模型的encoder和混合专家+路由机制的疑问,以及对部署方法的询问。

有评论提到,运行某些模型的硬件成本非常高。同时,一些网友对UP主的视频内容表示赞赏,而另一些则对视频内容或声音质量提出了批评。

一些网友表达了对即将推出的技术和内容的期待,同时也有对声音大小和视频质量的具体反馈。

By 康康