AnySoul は今、エージェントに タブを開く、ページを読む、操作をクリックで進める、フォームを埋める、ファイルをアップロードする、ページ変化を待つ、結果を抽出する といった実際のブラウザー作業を任せられるようになっています。
ただし大事なのは、これはひとつのブラウザー機能群に対して、ふたつの実行パスがあるということです。
- Web + ブラウザー拡張: ふだん使っている実ブラウザーと、そのままのログイン状態を使う
- デスクトップアプリ: 現在もっとも豊かなローカルブラウザー実行環境を使い、利用可能な場合はセマンティック操作も行える
この違いは、期待できるブラウザーワークフローを大きく変えます。
今すでにできること
AnySoul はすでに、実用的な明示的ブラウザー操作をひと通りサポートしています。
- タブを開く / 切り替える
- 移動、戻る、進む、再読み込み
- ページ状態を読む
- スクロール、フォーカス、ホバー、クリック、ダブルクリック、右クリック
- テキスト入力、貼り付け、クリア、コピー
- チェック状態の設定
- ドロップダウン選択
- フォーム送信
- ファイルアップロード
- selector / テキスト / URL 変化の待機
- 構造化データ抽出
これは、かなり多くの決定的なWebタスクにそのまま使えます。
- 複数タブでの情報収集
- 実フォームの入力と送信
- ブラウザーフローの中でのファイルアップロード
- 検索結果や一覧やダッシュボードからの構造化抽出
ひとつの製品、ふたつの実行パス
| 実行パス | 向いている用途 | 何を使うか | セマンティック操作 |
|---|---|---|---|
| Web + ブラウザー拡張 | いつものブラウザーの中でそのまま作業したい | 現在のブラウザータブと現在のログイン状態 | なし |
| デスクトップアプリ | もっとも豊かなブラウザーワークフローを使いたい | AnySoul のローカルブラウザー実行環境とアプリ内の管理タブ | あり。現在のデスクトップターゲットが対応している場合 |
両方とも、同じ明示的な構造化ブラウザー操作はサポートしています。
差が出るのは、ページが selector ベースでは扱いにくくなったときです。
なぜ拡張パスは「明示操作優先」なのか
ブラウザー拡張パスは次のような用途に向いています。
- 毎日使っている実ブラウザーの中でそのままエージェントを動かしたい
- すでにサインインしているブラウザー状態をそのまま使いたい
- 今いるブラウザー環境を離れずに作業を続けたい
たとえば、こんな流れです。
- サイトを開く
- 結果をクリックする
- フィールドに入力する
- ファイルをアップロードする
- 次のページを待つ
- 結果を抽出する
ただし、拡張パスは現在 以下をサポートしません。
semantic_actsemantic_extract
なので、正しい理解はこうです。
拡張パスは「セマンティックブラウザーエージェント」ではなく、「明示操作型ブラウザーエージェント」です。
なぜデスクトップアプリがより豊かな層なのか
デスクトップアプリパスは同じ明示操作に加えて、Stagehand を通じた、より豊かなセマンティックブラウザー操作も扱えます。
そのため、次のようなときに向いています。
- 安定した selector では狙いにくいページ
- 次の操作を自然言語で表した方が簡単なケース
- 現時点で最も広いブラウザー能力面がほしい場合
たとえば:
- 「通知タブを開いて」
- 「このダッシュボードから重要な要約を抽出して」
- 「レイアウトが複雑でもページフローを続けて」
セマンティック操作は強いが、重い
セマンティック操作は便利ですが、すべてのタスクの既定値ではありません。
明示操作と比べると、一般に:
- 遅い
- token 消費が大きい
- モデルによる推論レイヤーにより強く依存する
そのため、デスクトップでも基本方針は変わりません。
- まずは明示操作を使う
- selector ベースでは扱いにくいときだけセマンティック操作を使う
だからこそ、デスクトップパスは「標準」ではなく、より豊かな上位層として位置づけています。
実際に向いているワークフロー
たとえば、エージェントにこんなWeb作業を任せたいとします。
- 対象ページを開く
- 見えているコントロールを読む
- いくつかの入力欄を埋める
- ドロップダウンを選ぶ
- ファイルをアップロードする
- フォームを送信する
- 確認状態を待つ
- 結果を抽出する
こうしたフローは、今の AnySoul でも十分に現実的です。
ページが素直なら、どちらのパスでも明示操作で処理できます。
ページがかなり複雑で、自然言語でブラウザー操作を記述したいなら、デスクトップパスの方が向いています。
どちらを選ぶべきか
Web + ブラウザー拡張 を選ぶとよいのは:
- エージェントを今のブラウザーの中でそのまま動かしたい
- 今のブラウザーのログイン状態を再利用したい
- タスクを明示的な構造化ブラウザーステップで表現できる
デスクトップアプリ を選ぶとよいのは:
- 現在もっとも豊かなブラウザー実行環境がほしい
- アプリ内の管理タブを使いたい
- 利用可能なときにセマンティックブラウザー操作も使いたい
はじめる
- Browser Runtime マニュアル を読む
- もっとも豊かなブラウザー実行環境がほしいなら デスクトップアプリをインストール
- エージェントを今のブラウザーの中に留めたいならブラウザー拡張パスを使う
重要なのは、抽象的に「最強の実行環境」を選ぶことではなく、自分の実際のWebタスクに合う実行パスを選ぶことです。