AIエージェント「Browser Use」の使い方や料金を初心者向けに解説!【画像で解説】

AIエージェント「Browser Use」の使い方や料金を初心者向けに解説!【画像で解説】

AIエージェントが増加する中、情報収集分野で注目を集めているのが「Browser Use(ブラウザーユーズ)」です。

Browser Useは、ウェブ操作を自動化する画期的なツールとして話題です。Browser Useを利用すれば、通販サイトから評価の高い製品の情報を自動的に収集することも簡単に行えます。

この記事では、「Browser Use」の使い方を初心者向けに詳しく解説します。

1/29開催の無料ウェビナー!

目次

Browser Use(ブラウザーユーズ)とは?

(出典:browser-use.com)

Browser Useとは、Gregor Zunic氏が開発したブラウザ自動化のためのAIツールです。

このAIエージェントは、ブラウザ上で動作しWeb操作を自動化をします。

また、マルチタブ管理やカスタムアクションの活用により、作業効率を大幅に向上させることが可能です。

さらに、複雑なワークフローを効率化し、LLMのサポートにより、柔軟な操作が可能になります。

以下にBrowser Useの主な特徴をまとめました。

Browser Useの特徴
  • 視覚情報とHTML解析を組み合わせた操作
  • サポートする複数のAIモデルを選択可能
  • オープンソースで自由にカスタマイズ可能

視覚情報とHTML解析を組み合わせた操作

見出し画像

Browser Useは、ウェブページを「人間の目線」と「プログラム的な視点」の両方から解析し、操作やデータ収集を効率化します。

従来のHTMLスクレイピングでは、ウェブページのコードを解析するだけで、ページの見た目やユーザーの操作感覚までは理解できませんでした。

しかし、Browser Useは視覚情報を活用し、要素の配置やデザインも認識することでより直感的で精密な操作が可能です。

複数のAIモデルを選択可能

見出し画像

Browser Useは、さまざまなAPIプロバイダーと簡単に連携できます。

GPT-4、Claude 3、Llama 2 を含むすべての LangChain LLM と互換性があります。

さらに、Ollamaをローカルモデルとして設定し、リクエストをローカルで処理することも可能です。

柔軟性に優れ、最新のAIモデルにも迅速に対応できる強力なツールです。

オープンソースで自由にカスタマイズ可能

見出し画像

Browser Useはオープンソースなので、自由にカスタマイズしたり、自分のプロジェクトに合わせて改良することができます。

たとえば、ファイルへの保存、データベース操作、通知、人による入力処理などの独自のアクションを追加することが可能です。

ライセンスはMITライセンスのため、商用利用や改変なども可能です。ただし、配布する際には著作権表示とライセンスの全文の記載が必要になります。

Stable Diffusionの使い方は、機能別に下記の記事にまとめているのでぜひご覧ください

Browser Useの使い方

見出し画像

ここでは、「Browser Use」をローカルPCで利用する使い方を紹介します。

下記のステップで、Browser Useの基本的な使い方をマスターしましょう。

STEP
プロジェクトデータをインストール

Browser Useは、GitHubで公開されているオープンソースのプロジェクトです。

GitHubからPCにデータをインストールします。

展開したい場所のフォルダを開いて、下記のコマンドをエクスプローラーに直接入力します。

git clone https://github.com/browser-use/web-ui.git

STEP
PCの環境を設定

Browser Useは、Pythonで動作するので未インストールの場合は、最初にインストールする必要があります。

後にBrowser Use専用の環境を作りますので、今回はPython3.10.6をインストールします。

サイトにアクセスし、「Downloads」ボタンからWindowsを選択します。

Python
(出典:python.org)

Pythonバージョン「3.10.6」を選択してダウンロードします。

Python
(出典:python.org)

インストーラーを開き「Add Python 3.10 to PATH」にチェックを入れて進めます。

Python
(出典:python.org)
STEP
「Browser Use」の動作環境を設定

Pythonで動作するいくつかのプログラムはバージョンを指定するものが多いのでBrowser Use専用の環境を作成します。

コマンドプロンプトを開いて、ステップ①でインストールしたBrowser Useのフォルダ(web-ui)を開きます。

開いた先でpython 3.11の環境を作成します。

uv venv --python 3.11または、python -m venv venvを入力します。

次に作った仮想環境をアクティブ化します。

.venv\Scripts\activateまたは、.\venv\Scripts\Activate.ps1を入力します。

次に、ブラウザソフトのplaywrightをインストールします。

インストールには時間がかかりますので気長に待ちましょう。

playwright install

インストールが終わったら、下記コマンドを入力して依存関係を取り除くファイルデータをダウンロードします。

pip install -r requirements.txt

これで環境の設定は完了です。

STEP
Browser Useを起動!

起動のコマンドを入力してBrowser Useを立ち上げます。

python webui.py --ip 127.0.0.1 --port 7788

この画面が表示されたら起動は完了です。

http://127.0.0.1:7788

をブラウザーに入力してBrowser Useの画面を表示します。

STEP
API Keyをセット

Browser Useを開いたら、LLMを選択してAPI Keyをセットします。

🔧 LLM Configurationのタブに移動して、所持しているプロバイダーのAPI Keyを入力します。

  • anthropic
  • openai
  • deepseek
  • Google Gemine
  • ollama
  • azure_openai
STEP
Browser Useの使い方

日本語のサービスではないのですが、ブラウザの翻訳機能を使って日本語表示させることができます。

Browser Useは細かい設定が可能ですが、主に利用するタブは「🔧 LLM Configuration(LLM構成)」と「🤖 Run Agent(エージェントの実行)」です。

【ブラウザの翻訳機能】
ChromeやEdgeの場合:
日本語翻訳したいサイトの上で「右クリック」→「日本語に翻訳」を選択

早速、Browser Useを使ってアニメ作品「リゼロ」のスマホカバーを探してもらいます。

Run Agentタブをクリックして情報の入力画面を表示します。

Task Description欄に日本語でプロンプトを入力します。

入力し終わったら「Run Agent」ボタンをクリックしてサーチを開始します。

Additional Informationには、LLMに対するヒント(細かい条件等)を入力します。今回は空欄で進めます。

使用したプロンプト

Amazonで一番評価が高いリゼロのスマホカバーを見つけて表示して

下部の画面で、どのようにBrowser Useが進んでいるのか確認することができます。

まずはAmazonのサイトに移動してページをチェックしています。

(出典:amazon.co.jp)

文字を入力しています。(全自動で眺めているだけ)

(出典:amazon.co.jp)

最後は商品の評価が高い順番にソートしてプログラムは完了しました。

更にスマホの型番や価格などの細かい条件を追加すれば理想の商品が表示されるようになります。

(出典:amazon.co.jp)

スポンサーリンク

Browser Useの料金と商用利用は?

料金イメージの見出し画像

ここでは、AIエージェント「Browser Use」の料金プランと商用利用の条件について詳しく解説します。

Browser Useの料金プラン

Browser Useはオープンソースとして公開されており、ソフト自体の利用は無料です。

ただし、API登録が必要で(ローカルのLLMを利用する場合を除く)、APIリクエストごとに料金が発生します。

Browser Useの利用においては、LLM(大規模言語モデル)の性能(パラメータ数)とコストのバランスが重要です。

主なLLMの比較表から、Deepseek V3が最もコストパフォーマンスに優れています。

開発元モデル価格(入力)/1M tokens価格(出力)/1M tokens
OpenAIgpt-4o-mini$0.15$0.60
gpt-4o$2.50$10.00
o1-mini$3.00$12.00
o1$15.00$60.00
Anthropicclaude-3.5-haiku$0.80$4.00
claude-3.5-sonnet$3.00$15.00
claude-3-opus$15.00$75.00
Googlegemini-1.5-flash-8b(~128K トークン) $0.0375
(128K~ トークン) $0.0750
(~128K トークン) $0.15
(128K~ トークン) $0.30
gemini-1.5-flash(~128K トークン) $0.075
(128K~ トークン) $0.150
(~128K トークン) $0.30
(128K~ トークン) $0.60
gemini-1.5-pro(~128K トークン) $1.25
(128K~ トークン) $2.50
(~128K トークン) $5.00
(128K~ トークン) $10.00
Deepseek V3deepseek-chat$0.014/1M tokens$0.14/1M tokens

Browser Useの商用利用は?

Browser Useは、MIT Licenseのもと提供されており、商用利用を含む幅広い用途での利用が可能です。

ただし、再配布やコードの改変時に配布する際には、著作権表示とライセンスの全文の記載が必要になります。

Browser Use MIT License
https://github.com/browser-use/browser-use/blob/main/LICENSE

AIエージェント「Browser Use」を使うならクラウドGPUがおすすめ

快適のイメージ見出し画像

Browser Useは、APIリクエストが大量に発生するため、クラウド上でLLMを運用してリクエストを実行すれば、安価で安定した環境で情報の収集が行えます。

コストを抑えたい方へ:クラウドGPUの利用がおすすめ

クラウドGPUとは、インターネット上で高性能なパソコンを借りることができるサービスです。これにより、最新の高性能GPUを手軽に利用することができます。

クラウドGPUのメリット

  • コスト削減:高額なGPUを購入する必要がなく、使った分だけ支払い
  • 高性能:最新の高性能GPUを利用できるため、高品質な画像生成が可能
  • 柔軟性:必要なときに必要なだけ使えるので便利

Browser Useを使いこなしてAIエージェントをマスターしよう!

今回の記事では、ブラウザに関する作業を効率化ツール「Browser Use」について紹介しました。

Browser Useは、次世代のエージェントAIのサービスとして大きな可能性を持っています。

今回紹介した機能以外にも、様々な情報収集の方法やブラウザを利用したタスクをこなせます。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!
EdgeHUBロゴ

メールマガジン登録

Stable Diffusion・LLM・RAGに関する最新情報をいち早くお届けします。

無料メルマガの配信をご希望の方は、下記フォームよりご登録ください。

    EdgeHUB編集部からのお知らせ

    無料ウェビナーのお知らせ

    話題のGraphRAGの使い方 ウェビナー【1/29無料開催】

    RAG進化のさらに先へ! 大好評につきRAGシリーズ第4弾が開催決定!

    開催日時:
    2025年1月29日(水) 14:00~15:00

    内容:

    • RAGの進化系!「GraphRAG」のデモ
    • 生成AI開発の強い味方「GPUSOROBAN」の活用方法

    このウェビナーでは、従来のRAGよりも大幅に精度が向上した「GraphRAG」のデモを交えてご紹介します。

    生成AIに関心のある方、AI技術をビジネスに活かしたい方は、ぜひこの貴重な機会にご参加ください!

    こんな方におすすめ!

    • GraphRAGに興味がある方
    • RAGの高度化を検討しているエンジニアや開発者
    • ローカル環境のLLM、グラフデータベースの利用を検討している方
    • GPUリソースに課題を感じている方

    \簡単1分で申し込み!/

    この記事を書いた人

    EdgeHUBは、NVIDIAクラウドパートナーである株式会社ハイレゾが運営しています。「AIと共にある未来へ繋ぐ」をテーマに、画像生成AI、文章生成AI、動画生成AI、機械学習・LLM、Stable Diffusionなど、最先端の生成AI技術の使い方をわかりやすく紹介します。

    目次