AnySoul は今、エージェントに タブを開く、ページを読む、操作をクリックで進める、フォームを埋める、ファイルをアップロードする、ページ変化を待つ、結果を抽出する といった実際のブラウザー作業を任せられるようになっています。

ただし大事なのは、これはひとつのブラウザー機能群に対して、ふたつの実行パスがあるということです。

  • Web + ブラウザー拡張: ふだん使っている実ブラウザーと、そのままのログイン状態を使う
  • デスクトップアプリ: 現在もっとも豊かなローカルブラウザー実行環境を使い、利用可能な場合はセマンティック操作も行える

この違いは、期待できるブラウザーワークフローを大きく変えます。

今すでにできること

AnySoul はすでに、実用的な明示的ブラウザー操作をひと通りサポートしています。

  • タブを開く / 切り替える
  • 移動、戻る、進む、再読み込み
  • ページ状態を読む
  • スクロール、フォーカス、ホバー、クリック、ダブルクリック、右クリック
  • テキスト入力、貼り付け、クリア、コピー
  • チェック状態の設定
  • ドロップダウン選択
  • フォーム送信
  • ファイルアップロード
  • selector / テキスト / URL 変化の待機
  • 構造化データ抽出

これは、かなり多くの決定的なWebタスクにそのまま使えます。

  • 複数タブでの情報収集
  • 実フォームの入力と送信
  • ブラウザーフローの中でのファイルアップロード
  • 検索結果や一覧やダッシュボードからの構造化抽出

ひとつの製品、ふたつの実行パス

実行パス向いている用途何を使うかセマンティック操作
Web + ブラウザー拡張いつものブラウザーの中でそのまま作業したい現在のブラウザータブと現在のログイン状態なし
デスクトップアプリもっとも豊かなブラウザーワークフローを使いたいAnySoul のローカルブラウザー実行環境とアプリ内の管理タブあり。現在のデスクトップターゲットが対応している場合

両方とも、同じ明示的な構造化ブラウザー操作はサポートしています。

差が出るのは、ページが selector ベースでは扱いにくくなったときです。

なぜ拡張パスは「明示操作優先」なのか

ブラウザー拡張パスは次のような用途に向いています。

  • 毎日使っている実ブラウザーの中でそのままエージェントを動かしたい
  • すでにサインインしているブラウザー状態をそのまま使いたい
  • 今いるブラウザー環境を離れずに作業を続けたい

たとえば、こんな流れです。

  1. サイトを開く
  2. 結果をクリックする
  3. フィールドに入力する
  4. ファイルをアップロードする
  5. 次のページを待つ
  6. 結果を抽出する

ただし、拡張パスは現在 以下をサポートしません

  • semantic_act
  • semantic_extract

なので、正しい理解はこうです。

拡張パスは「セマンティックブラウザーエージェント」ではなく、「明示操作型ブラウザーエージェント」です。

なぜデスクトップアプリがより豊かな層なのか

デスクトップアプリパスは同じ明示操作に加えて、Stagehand を通じた、より豊かなセマンティックブラウザー操作も扱えます。

そのため、次のようなときに向いています。

  • 安定した selector では狙いにくいページ
  • 次の操作を自然言語で表した方が簡単なケース
  • 現時点で最も広いブラウザー能力面がほしい場合

たとえば:

  • 「通知タブを開いて」
  • 「このダッシュボードから重要な要約を抽出して」
  • 「レイアウトが複雑でもページフローを続けて」

セマンティック操作は強いが、重い

セマンティック操作は便利ですが、すべてのタスクの既定値ではありません。

明示操作と比べると、一般に:

  • 遅い
  • token 消費が大きい
  • モデルによる推論レイヤーにより強く依存する

そのため、デスクトップでも基本方針は変わりません。

  1. まずは明示操作を使う
  2. selector ベースでは扱いにくいときだけセマンティック操作を使う

だからこそ、デスクトップパスは「標準」ではなく、より豊かな上位層として位置づけています。

実際に向いているワークフロー

たとえば、エージェントにこんなWeb作業を任せたいとします。

  1. 対象ページを開く
  2. 見えているコントロールを読む
  3. いくつかの入力欄を埋める
  4. ドロップダウンを選ぶ
  5. ファイルをアップロードする
  6. フォームを送信する
  7. 確認状態を待つ
  8. 結果を抽出する

こうしたフローは、今の AnySoul でも十分に現実的です。

ページが素直なら、どちらのパスでも明示操作で処理できます。

ページがかなり複雑で、自然言語でブラウザー操作を記述したいなら、デスクトップパスの方が向いています。

どちらを選ぶべきか

Web + ブラウザー拡張 を選ぶとよいのは:

  • エージェントを今のブラウザーの中でそのまま動かしたい
  • 今のブラウザーのログイン状態を再利用したい
  • タスクを明示的な構造化ブラウザーステップで表現できる

デスクトップアプリ を選ぶとよいのは:

  • 現在もっとも豊かなブラウザー実行環境がほしい
  • アプリ内の管理タブを使いたい
  • 利用可能なときにセマンティックブラウザー操作も使いたい

はじめる

重要なのは、抽象的に「最強の実行環境」を選ぶことではなく、自分の実際のWebタスクに合う実行パスを選ぶことです。