七个值得关注的优秀大语言模型（LLM）

2024-01-18 发布 · 浏览2416次 · 点赞0次 · 收藏0次

在LLM领域我们了解最多的很可能是OpenAI的ChatGPT，以及最近在多模态表现非常出色的Google Gemini，这些都是AI大模型的领头羊，代表着AI大模型发展的先进成果。然而，在大模型的实际应用中必须要综合考虑成本、信息安全等内容，因此，开源成为了另一个选项。在开源生态中也涌现了许多优秀的LLM预练模型，这些模型有着各自的亮点，并且随着AI技术的发展，未来将不止于此。

本文主要介绍目前为止（2024年1月）几个值得关注的大开源LLM。

1.Llama 2：最佳开源LLM

资源：https://ai.meta.com/llama/

Llama 2是Meta于2023年推出的最重要的开源LLM。这是一个在2万亿令牌上训练的预训练生成AI模型，支持70亿到700亿个参数。Llama 2比Llama 1多了40%的训练数据，并且支持的上下文长度多了两倍。

目前，Llama 2仍然是市场上性能最高的开源语言模型之一，在推理、编码、熟练度和知识测试等关键基准测试中表现出色。

目前 Hugging Face Open LLM 排行榜将Llama 2-70B列为市场上第二好的LLM，平均得分为67.35，ARC为67.32，HellaSwag为87.33，MMLU为69，83，TruthfulQA为44.92。

Llama 2还表现出了能够媲美GPT 4等专有模型的良好性能。Anyscale的首席科学家兼谷歌前首席工程师Waleed Kadous发表了一篇博客文章，介绍Llama 2在总结方面的准确性与GPT-4大致相同，同时运行成本也低30倍。

值得注意的是，Meta还有一个名为Llama 2 Long的它是Llama 2的修改版本，额外增加了4000亿个令牌，支持32000个上下文长度。

Meta声称Llama 2 Long的70B变体在长上下文任务（如：回答问题、摘要和多文档聚合等）上的性能超过了GPT3.5-16ks。

2.Falcon 180B：最大的开源大语言预训练模型

资源：https://huggingface.co/blog/falcon-180b

Falcon是阿拉伯联合酋长国技术创新研究所2023年发布的最大的LLM——180B。它旨在出色地完成自然语言任务，截至2023年10月，Falcon是预训练语言模型的Hugging Face Open LLM排行榜上排名第一的LLM，平均得分为68.74，ARC为69.8，HellaSwag为88.95，MMLU为70.54，TruthfulQA为45.67。

想要在聊天机器人环境中使用Falcon 180B，可以使用名为Falcon 180B Chat的版本，这是对聊天和指令数据进行微调的主模型的修改版本。

然而，Falcon 180B的一个关键限制是其基础开源许可证非常严格。除了禁止用户使用LLM违反当地或国际法律或伤害其他生物外，打算托管或提供基于LLM的管理服务的组织还需要单独的许可证。

此外，与其他专有LLM或开源LLM（如Llama 2）相比，Falcon180B缺乏护栏，这意味着它可以更容易地用于恶意场景。

训练和推理对硬件的要求如下：

3.Code Llama：最佳代码生成LLM

资源：https://github.com/facebookresearch/codellama

Meta的另一个佳作是Code Llama，这是一个基于Llama2，并在代码数据集上训练的模型，包括5000亿个代码和代码相关数据的Token。

Code Llama支持7B、13B和34B参数，并在Python、C++，Java、PHP、Typescript（JavaScript）、C#、Bash等语言方面进行微调，以支持生成代码并解释代码的作用等。

例如，用户可以要求聊天机器人编写一个输出斐波那契序列的函数，或者请求有关如何列出给定目录中所有文本文件的指令。

这使得它非常适合旨在简化其工作流程的开发人员或希望更好地理解一段代码的功能及其工作方式的新手。

Code Llama有两个主要的变体：Code Llama Python和Code Llama Instruct。Code Llama - Python使用额外的100B Python代码进行训练，为用户提供更好的Python编程语言代码创建功能。

Code Llama Instruct是Code Llama的微调版本，它在50亿个人类指令的令牌上进行了训练，并已开发用于更好地理解人类指令。

4.Mistral：最佳7B预训练模型

资源：https://github.com/mistralai/mistral-src

2023年9月，Mistral AI发布了Mistral 7B，这是一款小型但高性能的开源LLM，拥有70亿个参数，其开发目的是比大型闭源模型能够更有效地运行，使其成为实时应用的理想选择。

Mistral 7B使用诸如分组查询注意力之类的技术来进行更快的推理，并且使用滑动窗口注意力（SWA）来以更低的成本处理更长的序列。这些技术使LLM能够比资源密集型的LLM更快地处理和生成大文本，并且成本更低。

该组织的发布公告显示，Mistral 7B在arc-e上的得分为80.0%，在HellaSwag上的得分为81.3%，在MMLU上的得分为60.1%，在HumanEval基准测试中的得分为30.5%，在每个类别中都明显优于LLama 2-7B。

Mistral AI还表示，Mistral在代码、数学和推理方面优于并超越Llama 1-34B，同时在代码任务上接近Code Llama 7B的性能。

另外，还有一个Mistral 7B的替代版本，称为Mistral 7B Instruct，它已经在公开可用的会话数据集上进行了训练，并且在MT-Bench基准测试中优于所有7B模型。

总之，这些信息表明Mistral AI是自然语言和代码生成任务的可行选择。

但是，一些人对Mistral 7B缺乏内容审核表示担忧，这导致它可能生成有问题的内容，例如：如何制造炸弹的说明等。

5.Vicuna：最佳尺寸输出质量LLM

资源：https://github.com/lm-sys/FastChat

Vicuna 13B 是由加州大学伯克利分校的学生和教职员工于2023年3月发布的一个开源聊天机器人。

LMSYS的研究人员基于Meta的Llama模型，采用ShareGPT.com上分享的7万个ChatGPT对话数据对其进行了微调。在这些数据上训练Llama使Vicuna能够生成详细和清晰的用户响应，其复杂程度可与ChatGPT相媲美。

LMSYS机构的初步测试表明，Vicuna的质量达到了ChatGPT和Bard的90%，同时在90%的场景中优于Llama和斯坦福大学的Alpaca。

LMSYS还报告说，Vicuna 13B在MT-bench上获得6.39分，在ELO评分为1,061分，在MMLU上获得52.1分。另外，在AlpacaEval排行榜上，Vicuna 13B的获胜率为82.11%，而GPT-3.5为81.71%，Llama 2 Chat 70B为92.66%。

令人印象深刻的是Vicuna 13B的训练成本大约为300美元。

Vicuna还有一个更大的版本Vicuna-33B，MT-bench得分7.12，MMLU得分59.2。

6.Giraffe：最佳尺度上下文长度模型

资源：https://abacus.ai/

2023年9月，Abacus.AI发布了 Giraffe的70B版本，Giraffe是基于Llama 2进行微调的模型，将模型的上下文长度从4096扩展到32000。Abacus.AI为Giraffe提供了一个长上下文的窗口，以帮助提高下游任务处理性能。

扩展的上下文长度使LLM能够从下游数据集检索更多信息，同时减少错误，也有助于与用户保持更长的对话。

Abacus.AI 声称Giraffe在提取、编码和数学方面是所有开源模型中最好的性能。在MT-Bench评估基准下，70B版本获得了7.01分。

Abacus AI首席执行官Bindu Reddy表示：“我们根据一组基准对70B模型进行了评估，调查了LLM在长“上下文”下的性能。”。“与13B模型相比，70B模型在文档QA任务的最长上下文窗口（32k）下有显著改进，在我们的AltQA数据集上，准确率为61%，而13B的准确率为18%。我们还发现，它在所有上下文长度上都优于可比的LongChat-32k模型，在最长上下文长度下性能也有所提高（在32k上下文长度下，准确率分别为61%和35%）。”

值得注意的是，Abacus AI还说，Giraffe 16k 在16k上下文长度的现实任务中能够有良好的表现，甚至在20-24k上下文长度下依然可以表现良好。

7.ChatGLM：最佳开源中英双语对话模型

资源：https://github.com/THUDM/ChatGLM3

ChatGLM是智谱AI和清华大学 KEG 实验室联合发布的新一代对话预训练模型。2023年的10月27日发布了ChatGLM3系列，ChatGLM3-6B是ChatGLM3 系列中的开源模型，在保留了前两代模型对话流畅、部署门槛低等众多优秀特性的基础上，增加了一些特性。

新特性如下：

更强大的基础模型：ChatGLM3-6B 的基础模型 ChatGLM3-6B-Base 采用了更多样的训练数据、更充分的训练步数和更合理的训练策略。在语义、数学、推理、代码、知识等不同角度的数据集上测评显示，ChatGLM3-6B-Base 具有在 10B 以下的基础模型中最强的性能。
更完整的功能支持：ChatGLM3-6B 采用了全新设计的 Prompt 格式，除正常的多轮对话外。同时原生支持工具调用（Function Call）、代码执行（Code Interpreter）和 Agent 任务等复杂场景。
更全面的开源序列：除了对话模型 ChatGLM3-6B 外，还开源了基础模型 ChatGLM3-6B-Base、长文本对话模型 ChatGLM3-6B-32K。以上所有权重对学术研究完全开放，在填写问卷进行登记后允许免费商业使用。

模型列表如下：

ChatGLM3-6B-Base 具有在 10B 以下的基础模型中的性能最强。其得分如下：

模型版本	评测任务	评测方向	得分	相比第二代提升
ChatGLM2-6B-Base	MMLU	自然语言理解等	47.9	-
ChatGLM2-6B-Base	GSM8K	数学能力	32.4	-
ChatGLM2-6B-Base	C-Eval	中文能力	51.7	-
ChatGLM3-6B-Base	MMLU	自然语言理解等	61.4	36%
ChatGLM3-6B-Base	GSM8K	数学能力	72.3	179%
ChatGLM3-6B-Base	C-Eval	中文能力	69	33.5%