【Llama 3.2】Meta初のビジョンモデルの使い方を解説!

【Llama 3.2】Meta初のビジョンモデルの使い方を解説!

Llama 3.2は、Metaが提供するオープンソースのLLMで、画像認識やテキスト生成を行うことができます。

Llama 3.2には、軽量テキストモデルと画像を処理するビジョンモデルが用意されています。

この記事では、Llama 3.2の性能から商用利用、使い方まで紹介します。

1/29開催の無料ウェビナー!

目次

Llama 3.2とは

見出し画像

Llama 3.2は、Metaが提供するオープンソースのLLMで、画像認識やテキスト生成を行えるマルチモーダル機能を備えています。

Llama 3.2の1Bと3Bは軽量テキストモデルで、11Bと90Bは画像処理をサポートするビジョンモデルです。

このモデルは、Metaのライセンスに基づいて無料で利用でき、商用利用も許可されています。

  • Llama 3.2は、Metaが提供するオープンソースのLLMです。
  • 軽量テキストモデルと画像を処理するビジョンモデルがあります。
  • Metaのライセンスに基づき、無料で利用できます。

Llama 3.2のモデル

見出し画像

Llama 3.2の性能は、主に軽量テキストモデルとビジョンモデルに分かれています。

軽量テキストモデル(1B・3B): エッジデバイスやモバイルデバイスでの動作を想定した軽量モデルです。128Kトークンのコンテキスト長をサポートし、多言語テキスト生成、ツール呼び出し、高速な処理が可能です。

ビジョンモデル(11B・90B): 画像認識機能を持つ大規模なモデルで、チャートやグラフを含む文書の理解、画像のキャプション生成、画像内のオブジェクトの指示など、視覚的なタスクをサポートします。

モデルIDパラメータモデルの種類タイプ
meta-llama/Llama-3.2-1B10億軽量テキストモデル事前学習モデル
meta-llama/Llama-3.2-1B-Instruct10億軽量テキストモデル指示学習モデル
meta-llama/Llama-3.2-3B30億軽量テキストモデル事前学習モデル
meta-llama/Llama-3.2-3B-Instruct30億軽量テキストモデル指示学習モデル
meta-llama/Llama-3.2-11B-Vision110億ビジョンモデル事前学習モデル
meta-llama/Llama-3.2-11B-Vision-Instruct110億ビジョンモデル指示学習モデル
meta-llama/Llama-3.2-90B-Vision900億ビジョンモデル事前学習モデル
meta-llama/Llama-3.2-90B-Vision-Instruct900億ビジョンモデル指示学習モデル

Llama 3.2に必要なGPUメモリ(VRAM)

見出し画像

Llama 3.2の推論におけるGPUメモリ(VRAM)要件は、モデルのサイズや使用する数値表現、量子化によって異なります。

推論の場合

モデルの種類モデルサイズBF16
軽量テキストモデル1B2.5GB
軽量テキストモデル3B6.5GB
ビジョンモデル11B13GB(4bit量子化)
ビジョンモデル90B57GB(4bit量子化)

Llama 3.2の性能

Llama3.2の性能について、「主要ベンチマーク」と「人間による評価」の指標を見ていきます。

見出し画像

軽量テキストモデルのベンチマーク

Llama 3.2の3Bモデルは、指示のフォロー、要約、プロンプトの書き換え、ツールの使用などのタスクで、Gemma 2 2.6BモデルやPhi 3.5-miniモデルを上回る性能を示しています。

Llama 3.2の1BモデルもGemmaと同等の性能を持ち、軽量ながら高いパフォーマンスを発揮します。

ベンチマーク
https://ai.meta.com/blog/llama-3-2-connect-2024-vision-edge-mobile-devices/
ベンチマークの解説

General(一般的なタスク):

  • MMLU(5-shot): 多言語理解に関するタスク。Llama 3.2の3Bモデルは、63.4でGemma(57.8)を上回っていますが、Phi-3.5-mini IT(69.0)が最も高いスコアを記録しています。
  • Open-rewrite eval(0-shot, rogueL): 自然言語の書き換えタスク。Llama 3.2の1Bと3Bが他モデルを上回るスコアを記録しています。
  • TLDR9(task1, task4, rogueL): 要約タスク。Llama 3.2のモデルが他モデルを上回るパフォーマンスを示しています。
  • IFEval: 文法チェックや構文評価。Llama 3.2 3Bモデルが最も高い77.4のスコアを記録しています。

Tool Use(ツール使用):

  • BFCL V2: ツール呼び出し機能に関連するタスク。Llama 3.2の3Bモデルが67.0のスコアを記録し、他のモデルを大幅に上回っています。
  • Nexus: データの検索や統合タスク。Llama 3.2の3Bモデルが34.3で最も高いスコアを記録しています。

Math(数学タスク):

  • GSM8K(8-shot, CoT): 算数タスク。Phi-3.5-mini ITが86.2で最高のスコアを記録しており、Llama 3.2 3Bモデルは77.7です。
  • MATH(0-shot, CoT): より複雑な数学タスクで、Llama 3.2 3Bモデルが48.0のスコアを記録し、他モデルを上回っています。

Reasoning(推論タスク):

  • ARC Challenge(0-shot): 複雑な推論タスク。Phi-3.5-mini ITが87.4で最高のスコアを記録し、Llama 3.2の3Bは78.6です。
  • GPQA(0-shot): 質問応答タスクで、Llama 3.2 3Bモデルが32.8と他のモデルよりも優れています。
  • Hellaswag(0-shot): 推論の一貫性を問うタスクで、Phi-3.5-mini ITが81.4で最高スコアですが、Llama 3.2 3Bモデルも69.8と高いスコアを示しています。

Long Context(長文脈処理):

  • InfiniteBench/En.MC(128K): 長い文脈を持つタスクで、Llama 3.2 3Bモデルが63.3と非常に高いスコアを示しています。
  • InfiniteBench/En.QA(128K): 質問応答タスクで、Llama 3.2のモデルが優れた性能を示しています。

Multilingual(多言語タスク):

  • MGSM(0-shot, CoT): 多言語の算数タスク。Llama 3.2の3Bモデルが58.2で他モデルより優れています。

ビジョンモデルのベンチマーク

Llama 3.2の90Bモデルは、視覚関連のタスクで非常に優れた性能を示しています。AI2 DiagramやChartQAといったベンチマークで、ClaudeやGPT-4o-miniを上回る高いスコアを記録しています。

ベンチマーク
https://ai.meta.com/blog/llama-3-2-connect-2024-vision-edge-mobile-devices/
ベンチマークの解説

1. College-level Problems and Mathematical Reasoning(大学レベルの問題と数学的推論の画像タスク)

  • MMMU (Val, 0-shot CoT): Llama 3.2 90Bは60.3、GPT-4o-miniは59.4で、Llama 3.2 90Bが最も高いスコアを示しています。
  • MMMU-Pro, Standard: Llama 3.2 90Bは45.2で、GPT-4o-miniが42.3。Llama 3.2 90Bが優れています。
  • MMMU-Pro, Vision: Llama 3.2 90Bは33.8で、GPT-4o-miniは36.5でやや上回っています。
  • MathVista: Llama 3.2 90Bが57.3で最も高いスコアを記録しています。

2. Charts and Diagram Understandings(チャートや図表の理解)

  • ChartQA: チャートやグラフを含む質問応答タスクで、Llama 3.2 90Bが85.5、Llama 3.2 11Bが83.4、Claude 3 – Haikuは81.7です。Llama 3.2 90Bが最も高いスコアです。
  • AI2 Diagram: 図の理解に関するタスクで、Llama 3.2 90Bが92.3、Claude 3 – Haikuは86.7。Llama 3.2 90Bが最も高いスコアを示しています。
  • DocVQA: 文書内のビジュアルに関する質問応答タスクで、Llama 3.2 90Bが90.1と最高スコアです。

3. General Visual Question Answering(一般的な視覚質問応答)

  • VQAv2: Llama 3.2 90Bは78.1で、他モデルと比較しても優れたスコアを示しています。

4. Text(テキスト関連タスク)

  • MMLU (0-shot CoT): 一般的な多言語理解タスクで、Llama 3.2 90Bが86.0、GPT-4o-miniは82.0です。Llama 3.2 90Bが高いスコアを記録しています。
  • MATH (0-shot CoT): 数学タスクで、Llama 3.2 90Bは68.0で、GPT-4o-miniの70.2に近いスコアです。
  • GPQA (0-shot CoT): 質問応答タスクで、Llama 3.2 90Bが46.7、GPT-4o-miniは40.2。Llama 3.2がリードしています。
  • MGSM (0-shot CoT): 多言語の数学タスクで、GPT-4o-miniが87.0で最も高く、Llama 3.2 90Bは86.9と僅差です。

Llama 3.2の日本語能力は?

見出し画像

Llama 3.2は、英語、ドイツ語、フランス語、イタリア語、ポルトガル語、ヒンディー語、スペイン語、タイ語をサポートしていますが、日本語をサポートしていません。

この記事では、Llama3.2を使って日本語生成のテストも行っています。

Llama 3.2の商用利用・ライセンス

見出し画像

Llama 3.2は「META LLAMA 3.2 COMMUNITY LICENSE」にもとづいて、無料で利用でき、商用利用も可能です。

META LLAMA 3.2 COMMUNITY LICENSEの要点

商用利用:ソフトウェアやコードを商用利用することが許可されています。

改変:ソフトウェアやコードを自由に修正したり改変したりすることができます。

配布:修正したり変更したりしたソフトウェアを自由に配布することができます。

著作権表示:再配布時に、著作権の表示や契約書コピーの提供などが必要になります。

特許利用:特許利用に関する明示的な規定はありません。

商用利用は、「月間アクティブユーザーが7億人以下であれば無償で利用できる」条件つきです。

詳細はMETA LLAMA 3.2 COMMUNITY LICENSEのページをご確認ください。

Llama 3.2のモデル申請

見出し画像

Llama 3.2のモデルの利用申請をします。

HuggingFaceにログインして、Llama 3.2のモデルページにアクセスします。

あわせて読みたい
meta-llama/Llama-3.2-11B-Vision-Instruct · Hugging Face We’re on a journey to advance and democratize artificial intelligence through open source and open science.

Llama 3.2のモデルページで、「Expand to review and access」ボタンを押して展開します。

(出典:https://huggingface.co/meta-llama/Llama-3.2-11B-Vision-Instruct)

ページの下のほうに進むと入力フォームがありますので、

「ユーザー情報」を入力し、「ライセンス条項の同意文」にチェックを入れて、「Submit」ボタンをクリックします。

(出典:https://huggingface.co/meta-llama/Meta-Llama-3.1-8B-Instruct)

「Access granted」というタイトルで承認通知メールが届いたら、モデルの利用承認が完了です。

(出典:https://huggingface.co/meta-llama/Llama-3.2-11B-Vision-Instruct)

利用承認が得られたら、HuggingFaceのLlama 3.2のモデルページに「Granted model」と表示がされます。

(出典:https://huggingface.co/meta-llama/Llama-3.2-11B-Vision-Instruct)

Llama 3.2の環境構築

見出し画像

Llama 3.2の環境構築について解説していきます。

実行環境

この記事で用意した実行環境は以下のとおりです。

  • GPU:NVIDIA A100 80GB
  • GPUメモリ(VRAM):80GB
  • OS :Ubuntu 22.04
  • Docker

Dockerで環境構築

Dockerを使用してLlama 3.2の環境構築をします

Dockerの使い方は以下の記事をご覧ください。

STEP
Dockerfileの作成

コンテナにインストールするパッケージは以下のとおりです。

CUDA、PyTorch、Transformersはバージョン依存関係によるエラーが起きやすいので、動作検証済のバージョン指定してインストールしています。

パッケージ一覧
  • CUDA:12.1
  • Python:3.10
  • PyTorch:2.2.2
  • transformers:4.45.0
  • accelerate
  • bitsandbytes

Ubuntuのコマンドラインで、Dockerfileを作成します。

mkdir llama32
cd llama32
nano Dockerfile

Dockerfileに以下の記述を貼り付けます。

# ベースイメージ(CUDA)の指定
FROM nvidia/cuda:12.1.0-cudnn8-devel-ubuntu22.04

# 必要なパッケージをインストール
RUN apt-get update && apt-get install -y python3-pip python3-venv git nano

# 作業ディレクトリを設定
WORKDIR /app

# アプリケーションコードをコピー
COPY . /app

# Python仮想環境の作成
RUN python3 -m venv /app/.venv

# 仮想環境をアクティベートするコマンドを.bashrcに追加
RUN echo "source /app/.venv/bin/activate" >> /root/.bashrc

# JupyterLabのインストール
RUN /app/.venv/bin/pip install Jupyter jupyterlab

# PyTorchのインストール
RUN /app/.venv/bin/pip install torch==2.2.2 torchvision==0.17.2 torchaudio==2.2.2 --index-url https://download.pytorch.org/whl/cu121

# Transformer関連のインストール
RUN /app/.venv/bin/pip install transformers==4.45.0 accelerate bitsandbytes

# コンテナの起動時にbashを実行
CMD ["/bin/bash"]

[Ctrl + S]キーで変更内容を保存し、[Ctrl + X]キーで編集モードから抜けます。

STEP
docker-compose.ymlファイルの作成

docker-compose.ymlでDockerコンテナの設定をします。

docker-compose.ymlのYAMLファイルを作成して開きます。

nano docker-compose.yml

以下のコードをコピーして、YAMLファイルに貼り付けます。

services:
  llama32:
    build:
      context: .
      dockerfile: Dockerfile
    image: llama32
    runtime: nvidia
    container_name: llama32
    ports:
      - "8888:8888"
    volumes:
      - .:/app/llama32
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: 1
              capabilities: [gpu]
    command: >
      bash -c '/app/.venv/bin/jupyter lab --ip="*" --port=8888 --NotebookApp.token="" --NotebookApp.password="" --no-browser --allow-root'

[Ctrl + S]キーで変更内容を保存し、[Ctrl + X]キーで編集モードから抜けます。

STEP
Dockerコンテナを起動

Dockerfileからビルドしてコンテナを起動します。   

docker compose up

 

Dockerの起動後にブラウザの検索窓に”localhost:8888″を入力すると、Jupyter Labをブラウザで表示できます。

localhost:8888

Llama 3.2のビジョンモデルを実装

見出し画像

Dockerコンテナで起動したJupyter Lab上でLlama 3.2の実装をします。

STEP
HuggingFaceにログイン

HuggingFaceからモデルをダウンロードするために、HuggingFaceにログインします。

from huggingface_hub import login
token = "**************************"
login(token)
コードの説明

token = “******************************”

Hugging Faceのアクセストークンを指定します。**********に実際のトークン値が入ります。

Hugging Faceのアクセストークンの発行方法は、別の記事で解説しています。

STEP
モデルの設定

Llama 3.2のモデルをダウンロードして読み込みます。

import requests
import torch
from PIL import Image
from transformers import MllamaForConditionalGeneration, AutoProcessor

model_id = "meta-llama/Llama-3.2-11B-Vision-Instruct"

model = MllamaForConditionalGeneration.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
    device_map="auto",
)
processor = AutoProcessor.from_pretrained(model_id)
コードの説明

model_id = “meta-llama/Llama-3.2-11B-Vision-Instruct”

Llama3.2のモデルタイプを指定します。

model = MllamaForConditionalGeneration.from_pretrained(…

  • from_pretrained: 指定したモデルをロードします。
  • torch_dtype=torch.bfloat16: モデルのパラメータのデータ型をbfloat16に設定します。
  • device_map="auto": 利用可能なデバイス(CPUやGPU)に自動的にモデルを割り当てます。

processor = AutoProcessor.from_pretrained(model_id)

モデルに入力するデータ(テキストや画像)を適切な形式に変換するプロセッサを定義します。

モデルを読み込む際にGPUメモリを消費しますので、余裕を持ったGPUメモリをご用意ください。

STEP
モデルを量子化をする場合

モデルを量子化して読み込みます。

量子化によりモデルの精度が低下しますが、GPUメモリを節約することができます。

モデルを量子化しない場合は、このステップは省略可能です。

import torch
from PIL import Image
from transformers import MllamaForConditionalGeneration, AutoProcessor
from transformers import BitsAndBytesConfig

model_id = "meta-llama/Llama-3.2-11B-Vision-Instruct"

bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.bfloat16
)

model = MllamaForConditionalGeneration.from_pretrained(
    model_id,
    quantization_config=bnb_config
)

processor = AutoProcessor.from_pretrained(model_id)
コードの説明

bnb_config = BitsAndBytesConfig(…

load_in_4bit=True:モデルのパラメータを4ビット量子化してロードすることを指定します。

bnb_4bit_quant_type="nf4":4ビット量子化の手法としてnf4を使用することを指定します。

bnb_4bit_compute_dtype=torch.bfloat16:計算時のデータ型をbfloat16に指定します。

STEP
画像とテキストを処理する関数

画像とプロンプトを入力として、モデルからテキストを生成する関数を定義します。

def textvision(path_image, prompt):
    image = Image.open(path_image)
    messages = [
        {"role": "user", "content": [
            {"type": "image"},
            {"type": "text", "text": prompt}
        ]}
    ]

    input_text = processor.apply_chat_template(messages, add_generation_prompt=True)

    inputs = processor(
        image,
        input_text,
        add_special_tokens=False,
        return_tensors="pt"
    ).to(model.device)

    output = model.generate(**inputs, max_new_tokens=128)

    resized_image = image.resize((int(image.width * 0.5), int(image.height * 0.5)))
    resized_image.show()
    print(processor.decode(output[0]))
コードの説明

image = Image.open(path_image)

指定したパスから画像を読み込みます。

messages = [ {“role”: “user”, “content”: [ {“type”: “image”}, {“type”: “text”, “text”: prompt} ]} ]

  • {"role": "user"}:このメッセージがユーザーからのものであることを示します。
  • {"type": "image"}:メッセージに画像が含まれていることを示します。
  • {"type": "text", "text": prompt}:テキストのプロンプトを含みます。

input_text = processor.apply_chat_template(messages, add_generation_prompt=True)

  • apply_chat_template:メッセージをチャット形式のテンプレートに当てはめます。
  • add_generation_prompt=True: モデルにテキスト生成の開始位置を示しています。

inputs = processor( image, input_text, add_special_tokens=False, return_tensors=”pt” ).to(model.device)

  • processor:トークナイザーや画像のエンコーダーが含まれます。
  • add_special_tokens=False:文の開始や終了を示す特殊なトークンを追加しない設定。
  • return_tensors="pt":PyTorchのテンソル形式でデータを返します。
  • to(model.device):テンソルを、モデルが動作しているCPUまたはGPUに移動します。

output = model.generate(**inputs, max_new_tokens=128)

  • model.generate:モデルが入力に基づいてテキストを生成します。
  • max_new_tokens=128:生成される最大トークン数を128に設定します。

print(processor.decode(output[0]))

モデルが生成した出力を人間が読めるテキストに変換し、表示します。

Llama 3.2ビジョンモデルで画像からテキストを生成する

見出し画像

Llama 3.2のビジョンモデルを使って、英語・日本語での質問応答を試してみます。

英語での質問応答

ラマとアルパカの違いについて教えて下さい。」というプロンプトを実行してみます。

path_image = "cat25.jpg"
prompt = "Describe this image"
textvision(path_image, prompt)
画像認識

Describe this image

<|begin_of_text|><|start_header_id|>user<|end_header_id|>
<|image|>Describe this image<|eot_id|><|start_header_id|>assistant<|end_header_id|>
The image depicts a cat wearing a hard hat and safety vest, holding a clipboard in a factory setting. The cat is dressed in a black suit jacket, white shirt, and gray tie, with a yellow and orange safety vest over it. It wears a yellow hard hat on its head and holds a blue clipboard in its paws.
In the background, several people are working in the factory, some of whom are also wearing hard hats and safety vests. The factory is filled with various machinery and equipment, including conveyor belts, pipes, and large metal objects. The atmosphere suggests that the cat is inspecting or overseeing the factory operations.
Overall

<翻訳>
その画像は、工場内でクリップボードを持ち、ヘルメットと安全ベストを着た猫を描いています。猫は黒いスーツジャケット、白いシャツ、グレーのネクタイを着用しており、その上に黄色とオレンジの安全ベストを着ています。また、頭には黄色のヘルメットをかぶり、前足で青いクリップボードを持っています。
背景には数人の人々が工場で作業しており、その中には同じくヘルメットと安全ベストを着用している者もいます。工場内にはコンベアベルトやパイプ、大きな金属製の機械などがあり、猫が工場の業務を点検または監督している様子がうかがえます。

日本語での質問応答

ラマとアルパカの違いについて教えて下さい。」というプロンプトを実行してみます。

path_image = "cat36.jpg"
prompt = "この画像について教えて下さい。"
textvision(path_image, prompt)

この画像について教えて下さい。

<|begin_of_text|><|start_header_id|>user<|end_header_id|>
<|image|>この画像について教えて下さい。<|eot_id|><|start_header_id|>assistant<|end_header_id|>
この画像は、猫の頭部と人間の体を合わせたようなキャラクターが、ワインを楽しむ場面を描いたイラストです。
キャラクターは、黒いスーツと白いシャツ、黒のネクタイ、白いハンカチを着用し、ワイングラスを手にしています。キャラクターの背後には、木製の壁に並べられたワイン樽とボトルが見えます。
この画像は、ワインを楽しむ猫のイメージを表現したものと考えられます。

Llama 3.2の軽量テキストモデルを実装

見出し画像

Dockerコンテナで起動したJupyter Lab上でLlama 3.2の軽量テキストモデルを実装します。

STEP
HuggingFaceにログイン

HuggingFaceからモデルをダウンロードするために、HuggingFaceにログインします。

from huggingface_hub import login
token = "**************************"
login(token)
コードの説明

token = “******************************”

Hugging Faceのアクセストークンを指定します。**********に実際のトークン値が入ります。

Hugging Faceのアクセストークンの発行方法は、別の記事で解説しています。

STEP
モデルの設定

Llama 3.2のモデルをダウンロードして読み込みます。

import torch
from transformers import pipeline

model_id = "meta-llama/Llama-3.2-1B-Instruct"
pipe = pipeline(
    "text-generation",
    model=model_id,
    torch_dtype=torch.bfloat16,
    device_map="auto",
)
コードの説明

token = “******************************”

Hugging Faceのアクセストークンを定義。******に実際のトークン値が入ります。

model_id = “meta-llama/Llama-3.2-1B-Instruct”

Llama 3.2のモデルタイプを指定します。

transformers.pipeline()

テキスト生成タスクのためのTransformerのパイプラインを設定しています。

model_kwargs={"torch_dtype": torch.bfloat16}データ型をBF16に指定しています。

量子化を行う場合は引数に"quantization_config": {"load_in_4bit": True}を加えてください。

モデルを読み込む際にGPUメモリを消費しますので、余裕を持ったGPUメモリをご用意ください。

Llama 3.2の軽量テキストモデルで生成を試す

見出し画像

Llama 3.2の軽量テキストモデルを使って、英語と日本語で質問応答を試してみます。

英語での質問応答

休暇についてアドバイスをください。」というプロンプトを実行してみます。

messages = [
    {"role": "system", "content": "You are an assistant answering in English."},
    {"role": "user", "content": "Please give me some advice about vacation."},
]
outputs = pipe(
    messages,
    max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])

Please give me some advice about vacation.
<翻訳>
休暇についてアドバイスをください。

{‘role’: ‘assistant’, ‘content’: “I’d be happy to help you with some vacation advice.\n\nTo get started, can you tell me a bit more about the type of vacation you’re looking for? For example:\n\n- What destination are you thinking of?\n- How long do you have for the trip?\n- What activities or experiences are you interested in (e.g. beach relaxation, city exploration, outdoor adventures, cultural events)?\n- Are there any specific budget constraints or preferences you have?\n\nThe more information you can provide, the better I can tailor my advice to suit your needs.”}
<翻訳>
休暇についてのアドバイスを喜んでお手伝いします。
まず始めに、どのような休暇をお考えか教えていただけますか?例えば:
・どの目的地を考えていますか?
・旅行期間はどのくらいですか?
・どんなアクティビティや体験に興味がありますか(例:ビーチでのリラクゼーション、都市の探索、アウトドアアドベンチャー、文化的イベント)?
・予算に関する制約や特別な希望はありますか?
より多くの情報を提供いただければ、ニーズに合ったアドバイスができると思います。

日本語での質問応答

観葉植物の選び方を教えて下さい。」というプロンプトを実行してみます。

messages = [
    {"role": "system", "content": "あなたは日本語で回答するアシスタントです。"},
    {"role": "user", "content": "観葉植物の選び方を教えて下さい。"},
]
outputs = pipe(
    messages,
    max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])

観葉植物の選び方を教えて下さい。

{‘role’: ‘assistant’, ‘content’: ‘観葉植物は、自然に生える植物の種類や形状を選ぶ際に大切な選択肢です。以下は、観葉植物の種類と特性をご紹介します。\n\n特性\n\n* 低水分性: 観葉植物は、水分を少なくすることができるため、低水分性の植物が多くいます。\n* 低光度: 観葉植物は、光を過剰に受けることができないため、低光度の植物が多くいます。\n* 低温: 観葉植物は、低温の植物が多くいます。\n* 低酸素: 観葉植物は、酸素を多く取ることができないため、低酸素の植物が多くいます。\n\n観葉植物の種類\n\n* アスパラガス (Asparagus): 低水分性と低光度の植物で、夏に熟した植物を食べる。\n* シリエント (Succulent): 低水分性と低光度の植物で、水分を少なくすることができる。\n* ‘}

生成AI・LLMのコストでお困りなら

GPUのスペック不足で生成AIの開発が思うように進まないことはありませんか?

そんなときには、高性能なGPUをリーズナブルな価格で使えるGPUクラウドサービスがおすすめです!

GPUSOROBAN
GPUSOROBAN

GPUSOROBANは、高性能GPU「NVIDIA H200」を業界最安級の料金で使用することができます。

NVIDIA H200は、生成AI・LLMの計算にかかる時間を大幅に短縮することが可能です。

クラウドで使えるため、大規模な設備投資の必要がなく、煩雑なサーバー管理からも解放されます。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!
EdgeHUBロゴ

メールマガジン登録

Stable Diffusion・LLM・RAGに関する最新情報をいち早くお届けします。

無料メルマガの配信をご希望の方は、下記フォームよりご登録ください。

    EdgeHUB編集部からのお知らせ

    無料ウェビナーのお知らせ

    話題のGraphRAGの使い方 ウェビナー【1/29無料開催】

    RAG進化のさらに先へ! 大好評につきRAGシリーズ第4弾が開催決定!

    開催日時:
    2025年1月29日(水) 14:00~15:00

    内容:

    • RAGの進化系!「GraphRAG」のデモ
    • 生成AI開発の強い味方「GPUSOROBAN」の活用方法

    このウェビナーでは、従来のRAGよりも大幅に精度が向上した「GraphRAG」のデモを交えてご紹介します。

    生成AIに関心のある方、AI技術をビジネスに活かしたい方は、ぜひこの貴重な機会にご参加ください!

    こんな方におすすめ!

    • GraphRAGに興味がある方
    • RAGの高度化を検討しているエンジニアや開発者
    • ローカル環境のLLM、グラフデータベースの利用を検討している方
    • GPUリソースに課題を感じている方

    \簡単1分で申し込み!/

    この記事を書いた人

    EdgeHUBは、NVIDIAクラウドパートナーである株式会社ハイレゾが運営しています。「AIと共にある未来へ繋ぐ」をテーマに、画像生成AI、文章生成AI、動画生成AI、機械学習・LLM、Stable Diffusionなど、最先端の生成AI技術の使い方をわかりやすく紹介します。

    目次