エージェントは会話だけに留まりません。AnySoul の browser runtime を使えば、エージェントは タブを開き、ページを読み、Web フローをクリックで進め、フォームを埋め、ファイルをアップロードし、多段のブラウザ作業を続ける ことができます。

ただし現在は 2 つの異なる経路 があります。

  • Web + ブラウザ拡張 — あなたが普段使っているブラウザと現在のログイン状態をそのまま使う
  • デスクトップアプリ — AnySoul デスクトップ browser runtime を使い、現時点で最も広いブラウザ能力面を利用する

大切なのは、やりたいブラウザ作業に合った runtime を選ぶことです。

このユースケースが意味するもの

たとえば、エージェントにこんな実作業を頼むとします。

  • サイトを開く
  • 欲しい情報を検索する
  • 結果を開く
  • フォームを埋める
  • ファイルをアップロードする
  • 次のページ状態を待つ
  • 最終結果を抽出する

これはもう概念ではなく、AnySoul が現在サポートしているブラウザ作業ファミリーです。基盤になっているのは、明示的な構造化ブラウザアクションです。

2 つの runtime パス

Runtime向いている用途実際に使うもの
Web + ブラウザ拡張いつものブラウザの中でそのまま操作したい現在のブラウザタブと現在のブラウザ identity
デスクトップアプリより豊かなブラウザワークフローと、現時点で最も広い能力面が欲しいAnySoul デスクトップ browser runtime

両方で現在できること

両方の経路で、次の明示的ブラウザワークフローをサポートしています。

  • タブを開く / アクティブ化する
  • 遷移、戻る、進む、再読み込み
  • ページを読み、構造化データを抽出する
  • スクロール、フォーカス、ホバー、クリック、ダブルクリック、右クリック
  • テキストを入力、貼り付け、消去、コピーする
  • チェック状態を設定する
  • ドロップダウンを選択する
  • フォームを送信する
  • ファイルをアップロードする
  • selector、テキスト、URL の変化を待つ

決定的な Web 作業の多くは、これだけで十分に回せます。

本当に重要な違い

最大の違いは semantic browser actions です。

ブラウザ拡張パス

拡張パスが向いているのは:

  • エージェントを実ブラウザの中で動かしたい
  • 現在のログイン済み browser identity をそのまま使いたい
  • 明示的な構造化ステップで作業フローを表現できる

ただし拡張パスは現在、次を サポートしていません

  • semantic_act
  • semantic_extract

つまり、拡張パスは explicit-action-first のブラウザエージェント として理解するべきです。

デスクトップアプリパス

デスクトップパスが向いているのは:

  • 現時点で最も広い browser capability surface が欲しい
  • デスクトップ管理の browser runtime を使いたい
  • semantic browser actions があると助かる作業をしたい

デスクトップパスはより強い semantic browser actions を提供できますが、代償もあります。

  • 明示的アクションより遅いことが多い
  • token 消費が多いことが多い
  • browser runtime の上にモデルによる意味解釈レイヤーが追加される

だからこそ、デスクトップでも基本方針は同じです。

  • まず明示的アクションを使う
  • selector だけでは表現しづらいときに semantic actions を使う

実際の例

例: 実フォームを埋める

エージェントに申請フォームや資料アップロードを手伝ってもらうとします。

現在の browser runtime では、エージェントは次のように進められます。

  1. 対象ページを開く
  2. 可視コントロールを読む
  3. 正しい入力欄にフォーカスする
  4. 値を入力または貼り付ける
  5. ドロップダウンを選択する
  6. ファイルをアップロードする
  7. フォームを送信する
  8. 確認状態を待つ
  9. 最終結果を抽出する

これこそが、AnySoul が現在すでに得意としているブラウザ作業です。

どちらを選ぶべきか

次に当てはまるなら ブラウザ拡張

  • エージェントを今のブラウザの中で動かしたい
  • 明示的な構造化ブラウザフローで十分
  • semantic browser actions は不要

次に当てはまるなら デスクトップアプリ

  • 現時点で最も豊かな browser runtime が欲しい
  • ローカルのデスクトップ browser runtime を使いたい
  • 使えるときには semantic browser actions も活用したい

はじめ方

関連