LLaMA 在线聊天免费 - 无需登录

Llama 是什么？

Llama 是 Meta AI（Facebook）推出的先进大型语言模型系列。拥有数十亿参数，Llama 专为增强推理、编程及多语言、多任务应用而设计。

我们正生活在一个非凡的时代，开源项目在充满热情的社区推动下，能够与科技巨头昂贵的专有解决方案一较高下。一个典型例子是紧凑而高效的语言模型，如 Vicuna、Koala、Alpaca 和 StableLM。这些模型在计算资源需求极低的情况下，仍能达到与 ChatGPT 相媲美的性能。它们的共同基础是 Meta AI 的 LLaMA 模型。

如需深入了解其他开源语言技术的重大进展，请查看我们关于 12 种 GPT-4 开源替代方案的文章。

本文将探讨 Meta AI 的 LLaMA 模型、其能力，以及如何通过 transformers 库访问它们。我们还将比较性能、突出关键挑战，并探讨其局限性。自本文首次撰写以来，Meta AI 已推出 LLaMA 2 和 LLaMA 3，每个版本我们都有专门的文章提供进一步的见解。

理解 LLaMA：Meta AI 的大型语言模型

LLaMA（Large Language Model Meta AI）是一系列最前沿的基础语言模型，参数规模从 70 亿到 650 亿不等。尽管体积紧凑，这些模型仍提供卓越性能，降低了研究人员和开发者在实验、验证现有工作及探索创新应用中的计算需求。

这些基础模型已在大规模无标签数据集上训练，使其能够在多种任务中进行高效微调。训练数据来源包括：

67.0% CommonCrawl
15.0% C4
4.5% GitHub
4.5% Wikipedia
4.5% 图书
2.5% ArXiv
2.0% StackExchange

得益于这一多样化的数据集，LLaMA 模型的性能已与顶级模型如 Chinchilla-70B 和 PaLM-540B 相当，巩固了其在当前最佳 AI 语言模型中的地位。

理解 Meta 的 LLaMA 模型

LLaMA 是基于 Transformer 架构的自回归语言模型。与其他先进模型类似，它处理一系列单词作为输入并预测下一个单词，从而实现递归文本生成。

LLaMA 的独特之处在于它广泛训练于多语言的公开文本数据，包括保加利亚语、加泰罗尼亚语、捷克语、丹麦语、德语、英语、西班牙语、法语、克罗地亚语、匈牙利语、意大利语、荷兰语、波兰语、葡萄牙语、罗马尼亚语、俄语、斯洛文尼亚语、塞尔维亚语、瑞典语和乌克兰语。随着 2024 年 LLaMA 2 的推出，其架构和训练技术的增强进一步提升了效率和多语言能力。

LLaMA 模型提供不同参数规模——7B、13B、33B 和 65B，可通过 Hugging Face（与 Transformers 兼容）或官方仓库 facebookresearch/llama 获取。

开始使用 LLaMA 模型

官方推理代码可在 facebookresearch/llama 仓库中获取，但为了简化操作，我们将使用 Hugging Face transformers 库加载模型并生成文本。

1. 安装必要的库

我们将在 Google Colab 上运行 LLaMA 推理。


%%capture
%pip install transformers SentencePiece accelerate

2. 加载 LLaMA Token 和模型权重

注意：“decapoda-research/llama-7b-hf”并非官方模型权重。Decapoda Research 已对原模型进行适配以兼容 Transformers 库。


import transformers, torch
from transformers import LlamaTokenizer, LlamaForCausalLM, GenerationConfig

tokenizer = LlamaTokenizer.from_pretrained("decapoda-research/llama-7b-hf")
model = LlamaForCausalLM.from_pretrained(
        "decapoda-research/llama-7b-hf",
        load_in_8bit=False,
        torch_dtype=torch.float16,
        device_map="auto",
    )

3. 定义问题

4. 将文本转换为 Token

5. 设置模型生成配置

6. 生成文本输出

7. 解码并打印响应


instruction = "What is the speed of light?"
inputs = tokenizer(
    f"""Below is an instruction that describes a task. Write a response that appropriately completes the request.
### Instruction: {instruction}
### Response:""",
    return_tensors="pt",
)
input_ids = inputs["input_ids"].to("cuda")

generation_config = transformers.GenerationConfig(
    do_sample=True,
    temperature=0.1,
    top_p=0.75,
    top_k=80,
    repetition_penalty=1.5,
    max_new_tokens=128,
)

with torch.no_grad():
    generation_output = model.generate(
        input_ids=input_ids,
        attention_mask=torch.ones_like(input_ids),
        generation_config=generation_config,
    )
output_text = tokenizer.decode(
    generation_output[0].cuda(), skip_special_tokens=True
).strip()
print(output_text)

输出：

模型准确判断真空中的光速约为 299,792,458 米每秒。


Below is an instruction that describes a task. Write a response that appropriately completes the request.
### Instruction: What is the speed of light?
### Response: The speed of light in a vacuum is exactly 299,792,458 meters per second (approximately 186,282 miles per second). This value is a fundamental constant in physics and plays a crucial role in theories like relativity. Scientists have verified this speed through numerous experiments over the years.

LLaMA 模型及 Transformers 库还可以针对各种任务和数据集进行微调，从而显著提升准确性和性能。

LLaMA 与其他 AI 模型的区别

研究论文对 LLaMA 模型与顶级语言模型（如 GPT-3、GPT-NeoX、Gopher、Chinchilla 和 PaLM）进行了深入比较。通过多项基准测试评估其在常识推理、问答、阅读理解、数学问题解决、代码生成和领域知识等方面的性能。

常识推理

在 PIQA、SIQA 和 OpenBookQA 等基准测试中，LLaMA-65B 模型超过了其他最先进架构。此外，即使是较小的 LLaMA-33B 在 ARC（简单和困难）测试中也表现优异。

闭卷问答与知识问答

评估模型解释和回答现实问题的能力，LLaMA 在 Natural Questions 和 TriviaQA 测试中持续超越 GPT-3、Gopher、Chinchilla 和 PaLM。

阅读理解

在 RACE-middle 和 RACE-high 基准测试中，LLaMA 表现优于 GPT-3，并取得与 PaLM 540B 相当的结果。

数学推理

由于 LLaMA 没有针对数学数据进行微调，其在此领域的表现低于预期，落后于 Minerva。

代码生成

通过 HumanEval 和 MBPP 基准评估，LLaMA 在 HumanEval@100、MBP@1 和 MBP@80 中得分高于 LAMDA 和 PaLM。

领域知识

在广泛领域知识方面，LLaMA 模型不如参数更多的 PaLM 540B 模型。

LLaMA 的挑战与局限性

与其他大型语言模型一样，LLaMA 易出现幻觉，有时生成不准确或误导性信息。

此外，还存在其他挑战：

语言限制：由于训练数据大部分为英语，LLaMA 在其他语言中的表现可能不如英语。
研究用途：LLaMA 主要面向研究用途，采用非商业许可证发布。其目的是帮助研究人员解决偏见、风险以及与有害内容、幻觉和模型安全相关的问题。
不适合生产环境：作为基础模型，LLaMA 不应在未进行充分风险评估和缓解策略的情况下用于应用。
数学与特定领域推理能力不足：模型在复杂数学问题和特定领域深度知识方面表现较弱。

有关 AI 发展的见解，包括 OpenAI、Google AI 及其对数据科学的影响，请参阅《OpenAI、Google AI 最新动态及其对数据科学的意义》。该博客探讨了语言、视觉和多模态技术的前沿进展，提高生产力和效率。

随着 LLaMA 2 和 LLaMA 3 的发布，已发现新的局限性，但在上下文长度和微调适应性方面已有改进。随着研究的推进，AI 社区正积极努力提升这些模型的稳健性和实际可用性。

结论

LLaMA 模型的出现开启了开源 AI 研究的变革时代。值得注意的是，紧凑的 LLaMA-3 和 LLaMA-4 模型超越了 GPT-3 和 GPT-4，而大型 LLaMA-65B 展现出与 Chinchilla-70B 和 PaLM-540B 等先进模型相当的能力。这些突破证明了使用公开数据集和最小计算能力也能实现顶级性能的可行性。

此外，研究强调了基于指令的微调对提升 LLaMA 性能的重要性。通过指令数据集微调的模型，如 Vicuna 和 Stanford Alpaca，已展现出与 ChatGPT 和 Bard 相当的效果，显示了这一方法的巨大潜力。

常见问题 (FAQ)

什么是 LLaMA Chat？

LLaMA Chat 是一个免费的在线 AI 聊天机器人，使用 LLaMA 系列的先进语言模型，包括 LLaMA 3 和 LLaMA 4。无需设置即可直接在浏览器中使用。

LLaMA Chat 免费使用吗？

是的，LLaMA Chat 完全免费，无隐藏费用或订阅。

使用 LLaMA Chat 需要注册或登录吗？

不需要注册或登录。您可以立即开始聊天，无需创建账户。

LLaMA Chat 有使用限制吗？

没有，LLaMA Chat 提供无限制使用，无每日或会话限制。

LLaMA Chat 使用哪些 LLaMA 模型？

LLaMA Chat 目前支持 LLaMA 3 和 LLaMA 4 模型，提供快速且高质量的 AI 响应。

标签: 在线聊天 LLaMA 免费, 免费 LLaMA 3, LLaMA 3.3, LLaMA 4 在线, 70B