Llama3とは？使い方から性能、商用利用まで分かりやすく解説！

2024年7月5日2024年9月11日

Llama3は、Metaが開発した無料で使える高性能LLMです。

Llama3 70Bの性能は「Gemini1.5Pro」や「Claude3 Sonnet」を上回ると言われています。

この記事では、Llama3の性能から使い方まで紹介します。

無料ウェビナー！

参加者募集中

マルチモーダルRAGとは？画像文書に強いRAGをデモで解説【8/27開催】

Llama3とは

Llama3は、Metaが開発したオープンソースの高性能LLMです。

実際のユースケースを想定した人間による評価においては、GPT-3.5を上回る結果を出しています。

Llama3とLlama2の主な違いは以下のとおりです。

Llama2の7倍となる15兆以上のトークンを学習している
基本的な言語理解に加え、翻訳や会話のような複雑なタスクが得意
問題のないプロンプトに対して回答を拒否する率が下がり、応答の精度が改善

最新のLlama3.1については別記事で解説しています。

あわせて読みたい

4050億の最強LLM「Llama 3.1」とは？使い方・性能・商用利用を解説！ Llama 3.1は、Meta社が開発した最新のLLMで、4050億のパラメータを持つ非常に大規模なモデルです。 Llama 3.1は、GPT-4oやClaude 3.5 Sonnetに匹敵する性能を持つと言わ…

Llama3のモデル（8B、70B）

Llama3のモデルには、80億パラメータの「Llama3 8B」と700億パラメータの「Llama3 70B」があります。

それぞれに「事前学習モデル」と人間の指示に基づいた回答をするための「指示学習モデル」が用意されています。

パラメータが大きくなると性能が向上しますが、GPUメモリの使用量が増えますので、ご留意ください。

モデルID	パラメータ	タイプ
meta-llama/Meta-Llama-3-8B	80億	事前学習モデル
meta-llama/Meta-Llama-3-8B-Instruct	80億	指示学習モデル
meta-llama/Meta-Llama-3-70B	700億	事前学習モデル
meta-llama/Meta-Llama-3-70B-Instruct	700億	指示学習モデル

Llama3の性能

Llama３の性能について、「主要ベンチマーク」と「人間による有用性評価」の指標を見ていきます。

主要ベンチマーク

Llama 3 8Bモデルは、主要のベンチマークで、Mistral 7BやGemma 7Bなどの他のオープンモデルを上回っています。

Llama3 70Bモデルは、Gemini 1.5 ProとClaude 3よりも一部のベンチマークでハイスコアでした。

ベンチマークの種目は、質疑応答、プログラミング、推論、算数数学になります。

llama3ベンチマーク — (出典：https://ai.meta.com/blog/meta-llama-3/)

有用性の評価

Llama3は標準的なベンチマークのほか、実際のユースケースを想定した人間による有用性の評価を行っています。

この評価では、主要なユースケースに対応する1800個のプロンプトが含まれており、それぞれのプロンプトに対する応答結果を人間が評価しました。

ユースケースの例

アドバイスを求める
ブレーンストーミング
文章分類
クローズドな質問回答
コード生成
あるキャラクターとしての振る舞い
文章の書き換え
文章要約

他のモデルの応答と比較して「どちらの答えの方が優れていたか」を人間が評価した結果は下図のとおりです。

Claude SonnetやMistral Medium、GPT-3.5よりも高い評価を得たほか、前のモデルであるLlama 2に比べても高いスコアを出しています。

人間による有用性の評価 — (出典：https://ai.meta.com/blog/meta-llama-3/)

Llama3の日本語能力は？

Llama3の学習データの95%が英語になり、日本語の学習率は高くありません。

現状は英語での利用が推奨されていますが、今後のバージョンアップにて、英語以外の言語も対応していくと言われています。

Llama3に日本語を追加学習したLLMについては別記事にて詳しく解説しています。

あわせて読みたい

GPT-4超えの日本語LLM「Llama-3-ELYZA-JP」の性能・使い方！ Llama-3-ELYZA-JPは、東大・松尾研発のスタートアップELYZAが公開した日本語LLMです。 Llama-3-ELYZA-JP-70Bは、「GPT-4」や「Claude 3 Sonnet」を上回る性能があります…

あわせて読みたい

東工大の日本語LLM「Llama-3-Swallow」の使い方！ Llama-3-Swallowは、MetaのLlama3をもとに、東工大・産総研が継続事前学習をした日本語に強いLLMです。オープンなLLMの中で、日本語の言語理解・生成タスクにおいてト…

Llama3.1に日本語を追加学習したLLMについては別記事にて詳しく解説しています。

あわせて読みたい

サイバーエージェントの日本語LLM「cyberagent/Llama-3.1-70B」 cyberagent/Llama-3.1-70Bは、サイバーエージェントが公開した日本語に強いLLMです。このモデルはMetaが開発した「Llama 3.1 70B」をベースに、日本語データを追加学習…

Llama3の商用利用・ライセンス

Llama3は「META LLAMA 3 COMMUNITY LICENSE」のもとで提供されています。

META LLAMA 3 COMMUNITY LICENSEの要点

商用利用：ソフトウェアやコードを商用利用することが許可されています。

改変：ソフトウェアやコードを自由に修正したり改変したりすることができます。

配布：修正したり変更したりしたソフトウェアを自由に配布することができます。

著作権表示：再配布時に、著作権の表示や契約書コピーの提供などが必要になります。

特許利用：特許利用に関する明示的な規定はありません。

商用利用は、「月間アクティブユーザーが7億人以下であれば無償で利用できる」条件つきです。

詳細は「META LLAMA 3 COMMUNITY LICENSE」のページをご確認ください。

Llama3のモデル申請

Llama3のモデルの利用申請をします。

HuggingFaceにログインして、Llama3のモデルページにアクセスします。

Llama3のモデルページで、「Expand to review and access」ボタンを押して展開します。

ページの下のほうに進むと入力フォームがありますので、

「ユーザー情報」を入力し、「ライセンス条項の同意文」にチェックを入れて、「Submit」ボタンをクリックします。

「Your request to access this repo has been successfully submitted…」の表示がされている間は、モデル利用申請の承認待ちのステータスになります。

「Access granted」というタイトルで承認通知メールが届いたら、モデルの利用申請が完了です。

モデル利用申請の承認メール — (出典：https://huggingface.co)

Llama3の使い方

ここからLlama3を使ったテキスト生成（推論）について解説していきます。

Ollamaを使ってChatGPTのような画面でテキスト生成（推論）をする方法は、別の記事で解説しています。

あわせて読みたい

【Ollama-OpenWebUI】ローカルLLMをChatGPT風に使う! Ollama-OpenWebUIは、ChatGPTのようなインターフェイスでローカルLLMが使える無料のツールです。 Ollamaを使えば、DeepSeek-R1やLlamaなどの人気LLMをローカル環境で動…

Llama3のファインチューニングの使い方については、別の記事で解説しています。

あわせて読みたい

【Llama3】Unslothで爆速ファインチューニング(QLoRA) この記事では、Unslothを使ったLlama3のファインチューニング(QLoRA)を紹介します。 UnslothによりGPUメモリの使用量を大幅に削減して、高速にファインチューニングがで…

あわせて読みたい

【Llama3】SFTTrainerで簡単ファインチューニング(QLoRA) この記事では、Hugging FaceのSFTTrainerを使ったLlama3のファインチューニング(QLoRA)を紹介します。 SFTTrainerを使うことで、少ないコードでファインチューニングの…

あわせて読みたい

【Llama3】Torchtuneで簡単ファインチューニング(QLoRA) この記事では、PyTorchのTorchtuneを使ったLlama3のファインチューニング(QLoRA)を紹介します。 Torchtuneを使って簡単にファインチューニングの実装ができるようになり…

実行環境

この記事で用意した実行環境は以下のとおりです。

GPU：NVIDIA A100 80GB
GPUメモリ（VRAM）：80GB
OS ：Ubuntu 22.04
Docker

Dockerで環境構築

Dockerを使用してLlama3の環境構築をします

Dockerの使い方は以下の記事をご覧ください。

あわせて読みたい

UbuntuにDockerをインストール！GPUをコンテナから使う方法 GPUの環境構築では、ソフトウェアのバージョン不一致によるエラーが頻発します。 Dockerを使うことで、このような依存関係のエラーを回避しやすくなります。この記事で…

STEP

Dockerfileの作成

コンテナにインストールするパッケージは以下のとおりです。

CUDA、PyTorch、Transformersはバージョン依存関係によるエラーが起きやすいので、動作検証済のバージョン指定してインストールしています。

パッケージ一覧

CUDA：12.1
Python：3.10
PyTorch：2.2.2
transformers：4.41.2
bitsandbytes

Ubuntuのコマンドラインで、Dockerfileを作成します。

mkdir llama3_inference
cd llama3_inference
nano Dockerfile

Dockerfileに以下の記述を貼り付けます。

# ベースイメージ(CUDA)の指定
FROM nvidia/cuda:12.1.0-cudnn8-devel-ubuntu22.04

# 必要なパッケージをインストール
RUN apt-get update && apt-get install -y python3-pip python3-venv git nano

# 作業ディレクトリを設定
WORKDIR /app

# アプリケーションコードをコピー
COPY . /app

# Python仮想環境の作成
RUN python3 -m venv /app/.venv

# 仮想環境をアクティベートするコマンドを.bashrcに追加
RUN echo "source /app/.venv/bin/activate" >> /root/.bashrc

# JupyterLabのインストール
RUN /app/.venv/bin/pip install Jupyter jupyterlab

# PyTorchのインストール
RUN /app/.venv/bin/pip install torch==2.2.2 torchvision==0.17.2 torchaudio==2.2.2 --index-url https://download.pytorch.org/whl/cu121

# Transformer関連のインストール
RUN /app/.venv/bin/pip install transformers==4.41.2 bitsandbytes

# コンテナの起動時にbashを実行
CMD ["/bin/bash"]

[Ctrl + S]キーで変更内容を保存し、[Ctrl + X]キーで編集モードから抜けます。

STEP

docker-compose.ymlファイルの作成

docker-compose.ymlでDockerコンテナの設定をします。

docker-compose.ymlのYAMLファイルを作成して開きます。

nano docker-compose.yml

以下のコードをコピーして、YAMLファイルに貼り付けます。

services:
  llama3_inference:
    build:
      context: .
      dockerfile: Dockerfile
    image: llama3_inference
    runtime: nvidia
    container_name: llama3_inference
    ports:
      - "8888:8888"
    volumes:
      - .:/app/llama3_inference
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: 1
              capabilities: [gpu]
    command: >
      bash -c '/app/.venv/bin/jupyter lab --ip="*" --port=8888 --NotebookApp.token="" --NotebookApp.password="" --no-browser --allow-root'

[Ctrl + S]キーで変更内容を保存し、[Ctrl + X]キーで編集モードから抜けます。

STEP

Dockerコンテナを起動

Dockerfileからビルドしてコンテナを起動します。

docker compose up

Dockerの起動後にブラウザの検索窓に”localhost:8888″を入力すると、Jupyter Labをブラウザで表示できます。

localhost:8888

Llama3の実装

Dockerコンテナで起動したJupyter Lab上でLlama3の実装をします。

STEP

ライブラリのインポート

Jupyter Labのコードセルに次のコマンドを実行して、ライブラリをインポートします。

import transformers
import torch
from torch import cuda,bfloat16

STEP

モデルの設定

Llama3のモデルをダウンロードして読み込みます。

token = "******************************"

model_id = "meta-llama/Meta-Llama-3-70B-Instruct"

pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    token=token,
    model_kwargs={"torch_dtype": torch.bfloat16,
                  "quantization_config": {"load_in_4bit": True},
                  "low_cpu_mem_usage": True,
                 },
    device_map="auto",
)

コードの説明

token = “******************************”

Hugging Faceのアクセストークンを定義。******に実際のトークン値が入ります。

model_id = “meta-llama/Meta-Llama-3-70B-Instruct”

Llama3のモデルタイプを指定します。

transformers.pipeline

テキスト生成タスクのためのTransformerのパイプラインを設定しています。

“quantization_config”: {“load_in_4bit”: True}

量子化の有効化。量子化しない場合は、コメントアウトしてください。

low_cpu_mem_usage

Trueは、モデル読み込み時のCPUメモリの使用量を削減します。

Hugging Faceのアクセストークンの発行方法は、別の記事で解説しています。

あわせて読みたい

Hugging Faceの使い方！アクセストークン作成からログインまでこの記事では、Hugging Faceアカウントの作り方やコマンドラインからのログイン方法を紹介しています。 Hugging Faceを使うことで、生成AIに必要なモデルやデータセット…

モデルを読み込む際にGPUメモリを消費しますので、余裕を持ったGPUメモリをご用意ください。

モデルID	パラメータ	タイプ	GPUメモリの使用量	量子化の有無
meta-llama/Meta-Llama-3-8B	80億	事前学習モデル	16.4GB	なし
meta-llama/Meta-Llama-3-8B-Instruct	80億	指示学習モデル	16.4GB	なし
meta-llama/Meta-Llama-3-70B	700億	事前学習モデル	43.5GB	あり
meta-llama/Meta-Llama-3-70B-Instruct	700億	指示学習モデル	43.5GB	あり

Llama3でテキスト生成

Llama3を使って、英語での質問応答、日本語での質問応答、コード生成を試してみます。

英語での質問応答

What role does CUDA play（CUDAのの役割は何？）というプロンプトを実行してみます。

messages = [
    {"role": "system", "content": "You are an excellent chatbot"},
    {"role": "user", "content":"What role does CUDA play?"},
]

prompt = pipeline.tokenizer.apply_chat_template(
        messages, 
        tokenize=False, 
        add_generation_prompt=True
)

terminators = [
    pipeline.tokenizer.eos_token_id,
    pipeline.tokenizer.convert_tokens_to_ids("<|eot_id|>")
]

outputs = pipeline(
    prompt,
    max_new_tokens=256,
    eos_token_id=terminators,
    do_sample=True,
    temperature=0.6,
    top_p=0.9,
)
print(outputs[0]["generated_text"][len(prompt):])

コードの説明

messages

モデルへのプロンプトを定義しています。「What role does CUDA play？」がプロンプトです。

pipeline.tokenizer.apply_chat_template

Llama3のチャットテンプレートを適用してプロンプトを作成しています。モデルによって異なります。

terminators

生成されたテキストの終了を示すトークンを定義しています。これがないと延々とテキストが生成されます。

pipeline

Transformerのパイプラインを実行してテキストを生成します。出力するトークン数や生成確率などを指定できます。

What role does CUDA play?

CUDA is a parallel computing platform and programming model developed by NVIDIA that allows developers to use the power of graphics processing units (GPUs) to perform general-purpose computing. In other words, CUDA enables developers to harness the processing power of NVIDIA GPUs to accelerate a wide range of applications, from scientific simulations to machine learning and deep learning.
Here are some key roles that CUDA plays:
1.Parallel Computing: CUDA enables developers to write programs that can execute on the GPU, which has thousands of cores. This allows for massive parallelism, making it possible to perform complex computations much faster than on a CPU.
以下省略
————————————————————————–
（翻訳）
CUDAは、NVIDIAによって開発された並列コンピューティングプラットフォームおよびプログラミングモデルであり、開発者がグラフィックス処理ユニット（GPU）の力を利用して汎用計算を実行できるようにします。言い換えれば、CUDAは開発者がNVIDIA GPUの処理能力を活用して、科学シミュレーションから機械学習や深層学習に至るまで、幅広いアプリケーションを高速化できるようにします。
以下にCUDAの主な役割を示します：
並列コンピューティング: CUDAは、数千個のコアを持つGPU上で実行できるプログラムを開発者が書くことを可能にします。これにより、大規模な並列処理が可能になり、複雑な計算をCPUよりもはるかに速く実行できます。
以下省略

専門的な内容でも適切な回答ができています。

日本語での質問応答

「食前酒とは何ですか」というプロンプトを実行してみます。

messages = [
    {"role": "system", "content": "あなたは日本語で回答するアシスタントです"},
    {"role": "user", "content":"食前酒とは何ですか"},
]

prompt = pipeline.tokenizer.apply_chat_template(
        messages, 
        tokenize=False, 
        add_generation_prompt=True
)

terminators = [
    pipeline.tokenizer.eos_token_id,
    pipeline.tokenizer.convert_tokens_to_ids("<|eot_id|>")
]

outputs = pipeline(
    prompt,
    max_new_tokens=256,
    eos_token_id=terminators,
    do_sample=True,
    temperature=0.6,
    top_p=0.9,
)
print(outputs[0]["generated_text"][len(prompt):])

食前酒とは何ですか

食前酒（しょくぜんじゅう）は、食事の前に飲む酒を指します。日本の食文化では、食前酒を飲むことが一般的で、食事の始まりを祝うために飲むことが多いです。
食前酒は、主に日本酒やワイン、ビールなどを使用し、食事の準備や、味や匂いを覚醒させるために飲まれることが多いです。また、食前酒は、食事の流れを整える役割も果たすと考えられます。
日本では、食前酒を飲む習慣は古くからあり、特に日本酒の場合、食前酒を飲むことが日本の食文化の一部となっています。

日本語の学習率が低いところを心配していましたが、自然な日本語で生成ができてます。

コード生成

「torch.nn.Moduleの使い方を教えて下さい」というプロンプトで質問を投げてみます。

messages = [
    {"role": "system", "content": "あなたは日本語で回答するアシスタントです"},
    {"role": "user", "content":"torch.nn.Moduleの使い方を教えて下さい。"},
]

prompt = pipeline.tokenizer.apply_chat_template(
        messages, 
        tokenize=False, 
        add_generation_prompt=True
)

terminators = [
    pipeline.tokenizer.eos_token_id,
    pipeline.tokenizer.convert_tokens_to_ids("<|eot_id|>")
]

outputs = pipeline(
    prompt,
    max_new_tokens=256,
    eos_token_id=terminators,
    do_sample=True,
    temperature=0.6,
    top_p=0.9,
)
print(outputs[0]["generated_text"][len(prompt):])

torch.nn.Moduleの使い方を教えて下さい。

モデルの応答

Torch.nn.Moduleは、PyTorchのニューラルネットワークモデルの基本的なクラスです。以下は、Moduleの基本的な使い方を説明します。

1. Moduleの定義
----------------

Moduleは、`torch.nn.Module`クラスを継承して定義します。例えば、以下は、簡単なニューラルネットワークを定義するためのModuleの例です。
```python
import torch
import torch.nn as nn

class MyModel(nn.Module):
    def __init__(self):
        super(MyModel, self).__init__()
        self.fc1 = nn.Linear(784, 128)  # input layer (28x28 images) -> hidden layer (128 units)
        self.fc2 = nn.Linear(128, 10)  # hidden layer (128 units) -> output layer (10 units)

    def forward(self, x):
        x = torch.relu(self.fc1(x))  # activation function for hidden layer
        x = self.fc2(x)
        return x
```
この例では、`MyModel`クラスは、`nn.Module`クラスを継承しています。`__init__`メソッドでは、ニュ

コードも基本的に正しい内容で生成されました。

Ollamaを使ってChatGPTのような画面でテキスト生成（推論）をする方法は、別の記事で解説しています。

あわせて読みたい