LLM界的「真·Open AI」,又来整顿AI圈了!
业内惊呼:首个开源GPT-4级的模型,终于来了!开源模型追上闭源模型的历史性一刻,或许就在眼前了?
一石激起千层浪,Llama3才刚刚发布没几小时,就破纪录地登顶了Hugging Face排行榜。
小扎、LeCun也纷纷在第一时间开启了宣传模式。
Llama3是在由24000块GPU组成的定制集群上,使用15万亿个token训练的。
值得期待的是,在未来几个月,Llama3还将推出更多版本
不过,虽然上下文长度相较之前实现了翻倍,但依然只有8K。
Karpathy精辟地总结道,400B模型将会是「首个开源GPT-4级别的模型」。
Jim Fan感慨道:
Meta在博客中预告了,接下来几个月,将发布多个新功能的模型,包括多语言对话、更长上下文,以及整体能力提升。
在架构上,Meta依然为Llama3选择了Transformer架构。
这个架构是相对标准的纯解码器Transformer,不过相比于Llama2做了几个关键改进。
同时,大型高质量的训练数据集也至关重要。
为了预训练数据,团队投入了大量资源。
为了有效利用预训练数据,团队在扩大预训练规模上,投入了大量精力。
针对下游基准评估,Meta开发了一系列详细的缩放定律。这就保证团队能够选择最佳的数据组合,同时最佳地利用训练计算资源。
同时,团队也对指令微调进行了创新。
Meta采用的后训练方法,是监督微调(SFT)、拒绝采样、近端策略优化(PPO)和直接策略优化(DPO)的组合。
Meta发现,在SFT中使用的提示和在PPO与DPO中使用的偏好排序,对对齐模型的性能的影响完全超出了预期。
而通过PPO和DPO从偏好排序中学习,Llama3在推理和编码任务上的性能也大大提高了。
在部署上,团队采用了一种新的系统级方法。
Meta将Llama模型设想为一个更广泛系统的一部分,让开发者坐在驾驶座上。Llama模型将作为系统的基础部分,开发者在设计时会考虑最终的目标。
正如前面所说,Meta AI也可以在Facebook、Ins、WhatsApp和Messenger的搜索中使用。
这样的优势在于,可以随时访问来自网络的实时信息,无需在不同应用程序之间切换。
不过,作图的话,是个例外。
其实,Meta AI助手在去年的Connect大会上,小扎首次做了预告。
想要组织周末短途旅行,却来不及做出行计划?不用担心!
- 目的地:您要去哪里?
- 持续时间:您将旅行多少天?
- 旅行类型:是海滩度假、城市探险、户外探险还是其他?
又或是你在数学问题上苦苦挣扎?需要让工作邮件显得更专业?Meta AI都可以提供帮助!
让Llama3画一幅自画像。
正如前面所说,Meta AI也可以在Facebook、Ins、WhatsApp和Messenger的搜索中使用。
这样的优势在于,可以随时访问来自网络的实时信息,无需在不同应用程序之间切换。
除了在网页版,Meta AI的图像功能还可以在WhatsApp中体验。
可以清晰看到,Meta AI如何将你的想象变为现实。
https://about.fb.com/news/2024/04/meta-ai-assistant-built-with-llama-3/
https://ai.meta.com/blog/meta-llama-3/
https://llama.meta.com/llama3/
感谢观看,如有问题欢迎留言评论,也欢迎关注、点赞和分享!