Googleの最新LLM「Gemma2」の使い方・性能・商用利用について解説！

2024年9月13日

Gemma 2は、Googleが開発した軽量かつ高性能なオープンソースLLMです。

20億、90億、270億パラメータのモデルが公開され、Gemma2 27Bはパラメータが2倍以上の他モデルに匹敵する性能があります。

この記事では、Gemma2 の性能から商用利用、使い方までを紹介します。

Gemma2とは

Gemma 2は、Googleが開発した軽量かつ高性能なオープンソースLLMです。

20億、90億、270億パラメータのモデルが公開され、Gemma2 27Bはパラメータが2倍以上の他モデルに匹敵する性能があります。

Gemma2はApache License 2.0のもと無料で利用でき商用利用が可能です。

ざっくり言うと

Gemma 2は、Googleが開発した軽量かつ高性能なLLM
Gemma2 27Bはパラメータサイズが2倍以上の他モデルに匹敵
商用利用が可能でApache License 2.0で提供

Gemma2のモデル

Gemma2は、20億・90億・270億パラメータのモデルをHuggingFaceで公開しています。

既に指示チューニングが施されているモデルになるため、人間による指示に対してChatGPTのような応答が可能です。

モデルID	パラメータサイズ	事前学習/指示学習
google/gemma-2-2b	20億パラメータ	事前学習モデル
google/gemma-2-2b-it	20億パラメータ	指示学習モデル
google/gemma-2-9b	90億パラメータ	事前学習モデル
google/gemma-2-9b-it	90億パラメータ	指示学習モデル
google/gemma-2-27b	270億パラメータ	事前学習モデル
google/gemma-2-27b-it	270億パラメータ	指示学習モデル

Gemma 2 Release – a google Collection

事前学習モデルと指示学習モデルの違い

事前学習モデル

基礎的なデータが学習されたモデルです。基礎的な知識はありますが、人間の指示に応じた回答ができません。

指示学習モデル

事前学習モデルを特定のタスクや指示にもとづいて調整したモデルです。ChatGPTのように人間の指示に応じた回答が可能です。

Gemma2の性能

Gemma 2は主要なベンチマークで高い性能を発揮しています。

Gemma2 27Bはパラメータが2倍以上のモデルに匹敵する結果を出しています。
Gemma2 9BはLlama3 8Bを上回る結果を示しています。

Gemma2はパラメータサイズが小さいのに、高い性能を発揮していることが分かります！

モデルの評価について

一般タスク (MMLU): 多岐にわたる学問的なタスクに対する理解力を測定

推論タスク (BBH, HellaSwag): 複雑な推論や文脈予測能力を評価

数学タスク (GSM8K, MATH): 数学的推論や問題解決能力をテスト

コード生成タスク (HumanEval): プログラムコードの生成能力を評価

Gemma2の商用利用・ライセンス

Gemma2は商用利用が可能で、Gemmaライセンス（Apache License 2.0）で提供されています。

Hugging Face上でモデルが公開されており、誰でもアクセスして利用することができます。

Apache License 2.0

商用利用：ソフトウェアやコードを商用利用することが許可されています。

改変：ソフトウェアやコードを自由に修正したり改変したりすることができます。

配布：修正したり変更したりしたソフトウェアを自由に配布することができます。

著作権表示：元の著作権表示とライセンス条項を含める必要があります。

特許利用：利用者に特許使用権が付与されています。

詳細はGemmaライセンスのページをご確認ください。

Gemma2の使い方

ここからGemma2の使い方について解説していきます。

実行環境

この記事で用意した実行環境は以下のとおりです。

GPU：NVIDIA A100 80GB
GPUメモリ（VRAM）：80GB
OS ：Ubuntu 22.04
Docker

Dockerで環境構築

Dockerを使用してGemma2の環境構築をします

Dockerの使い方は以下の記事をご覧ください。

Gemma2の実装

Dockerコンテナで起動したJupyter Lab上でGemma2の実装をします。

STEP

ライブラリのインポート

Jupyter Labのコードセルに次のコマンドを実行して、ライブラリをインポートします。

import torch
import transformers
from transformers import AutoModelForCausalLM, AutoTokenizer,BitsAndBytesConfig

STEP

モデルとトークナイザーの設定

Gemma2のモデルとトークナイザーを読み込みます。

Gemma2モデルの使用には、利用申請が必要になります。

【LLM】Google Gemmaのモデル利用申請

model_id = "google/gemma-2-27b-it"
token = "******************************"

model = AutoModelForCausalLM.from_pretrained(
    model_id,
    token=token,
    device_map="auto",
    torch_dtype=torch.bfloat16,
)

tokenizer = AutoTokenizer.from_pretrained(
    model_id,
    token=token
)

コードの説明

“google/gemma-2-27b-it”

モデルのタイプを指定しています。

token = “****************************”

HuggingFaceのトークンIDが入ります。

AutoModelForCausalLM.from_pretrained()

モデルを読み込みます。

torch_dtype=torch.bfloat16,：BF16の数値表現を指定しています。

量子化をする場合はquantization_config=BitsAndBytesConfig(load_in_4bit=True),を引数に追加してください。

AutoTokenizer.from_pretrained()

トークナイザーを読み込みます。

モデルID	パラメータサイズ	GPUメモリ使用量
google/gemma-2-2b-it	20億パラメータ	5GB（BF16,量子化なし）
google/gemma-2-9b-it	90億パラメータ	19GB（BF16,量子化なし）
google/gemma-2-27b-it	270億パラメータ	53GB（BF16,量子化なし）

Gemma2でテキスト生成

Gemma2を使って、日本語での質問応答を試してみます。

日本語での質問応答（1）

「20代女性向けの新しいスキンケア商品のマーケティングキャンペーンを企画してください。」というプロンプトを日本語で実行してみます。

text = "20代女性向けの新しいスキンケア商品のマーケティングキャンペーンを企画してください。"

messages = [
    {"role": "user", "content": text},
]

prompt = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)

token_ids = tokenizer.encode(
    prompt, add_special_tokens=False,
    return_tensors="pt"
)

with torch.no_grad():
    output_ids = model.generate(
        token_ids.to(model.device),
        max_new_tokens=256,
        do_sample=True,
        temperature=0.6,
        top_p=0.9,
    )

output = tokenizer.decode(
    output_ids.tolist()[0][token_ids.size(1):], 
    skip_special_tokens=True
)
print(output)

20代女性向けの新しいスキンケア商品のマーケティングキャンペーンを企画してください。

20代女性向け新スキンケア商品マーケティングキャンペーン企画
商品名: (商品名を入れてください)
ターゲット: 20代女性 (学生・社会人)
キャンペーン目標:
商品認知度向上
ターゲット層への購買意欲喚起
ブランドイメージ向上
キャンペーン期間: 3ヶ月
キャンペーンテーマ: 「(商品名)で、輝く自分に出会う。」
キャンペーン戦略:
1. オンラインマーケティング:
SNSマーケティング: Instagram, TikTok, YouTubeなどでインフルエンサーマーケティングを実施。
20代女性に人気の美容系インフルエンサーとタイアップし、商品レビューや使用感動画を公開。
キャンペーンハッシュタグを作成し、ユーザー投稿を促進。
ライブ配信やQ&Aセッションで、商品について詳しく紹介。
Web広告: Google広告、Facebook広告などでターゲット層にピンポイント配信。
美容系Webサイトやアプリへのバナー広告掲載。
興味関心に合わせたリターゲティング広告で、購買意欲を高める。
…

Llama3よりも日本語に対応できている印象です！

日本語での質問応答（2）

「プレゼンテーションの準備で必要なことを教えて下さい。」というプロンプトを日本語で実行してみます。

text = "プレゼンテーションの準備で必要なことを教えて下さい。"

messages = [
    {"role": "user", "content": text},
]

prompt = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)

token_ids = tokenizer.encode(
    prompt, add_special_tokens=False,
    return_tensors="pt"
)

with torch.no_grad():
    output_ids = model.generate(
        token_ids.to(model.device),
        max_new_tokens=256,
        do_sample=True,
        temperature=0.6,
        top_p=0.9,
    )

output = tokenizer.decode(
    output_ids.tolist()[0][token_ids.size(1):], 
    skip_special_tokens=True
)
print(output)

プレゼンテーションの準備で必要なことを教えて下さい。

プレゼンテーションの準備は、成功の鍵です！
効果的なプレゼンテーションの準備には、以下のステップが重要です。
1. 目的と対象を明確にする
なぜプレゼンテーションをするのか？
(情報を共有、説得、提案など、目的を具体的に)
誰にプレゼンテーションをするのか？
(年齢、知識レベル、関心事などを考慮)
どのような反応を期待するか？
(理解、同意、行動など)
2. 内容を構成する
導入: 聴衆の関心を引き、プレゼンテーションのテーマを明確に
興味深いストーリー、質問、統計データなどを活用
本論: 論理的な流れで情報を整理
データ、事例、図表などを効果的に活用
複雑な情報は分かりやすく簡潔に
結論: まとめと今後の展望
聴衆への呼びかけ
3. ビジュアル資料を作成する
簡潔で分かりやすいデザイン
…

分かりやすく整理されています！

コードの質問応答

「PyTorchで勾配を計算せずに推論を実行する場合のコードを生成してください。」というプロンプトを日本語で実行してみます。

text = "PyTorchで勾配を計算せずに推論を実行する場合のコードを生成してください。"

messages = [
    {"role": "user", "content": text},
]

prompt = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)

token_ids = tokenizer.encode(
    prompt, add_special_tokens=False,
    return_tensors="pt"
)

with torch.no_grad():
    output_ids = model.generate(
        token_ids.to(model.device),
        max_new_tokens=256,
        do_sample=True,
        temperature=0.6,
        top_p=0.9,
    )

output = tokenizer.decode(
    output_ids.tolist()[0][token_ids.size(1):], 
    skip_special_tokens=True
)
print(output)

PyTorchで勾配を計算せずに推論を実行する場合のコードを生成してください。

```python
import torch

# モデルの定義 (例)
class MyModel(torch.nn.Module):
  def __init__(self):
    super(MyModel, self).__init__()
    self.linear = torch.nn.Linear(10, 1)

  def forward(self, x):
    return self.linear(x)

# モデルのインスタンス化
model = MyModel()

# モデルの重みをロード (必要に応じて)
# model.load_state_dict(torch.load('model_weights.pth'))

# 推論モードに設定
model.eval()

# 入力データ (例)
input_data = torch.randn(1, 10)

# 勾配計算を無効化
with torch.no_grad():
  # 推論実行
  output = model(input_data)

# 結果の出力
print(output)
```

**解説:**

1. **`model.eval()`**: モデルを推論モードに設定します。これにより、DropoutやBatch Normalizationなどのレイヤーが推論時の挙動に変更されます。
2. **`with torch.no_

正しいコードで生成できています！