メインコンテンツへスキップ
メインコンテンツへスキップ

ビジョン

Beta feature. Learn more.

ビジョン では、ユーザーが画像をアップロードすると、エージェントがその画像を解析できます。エージェントは画像を視覚対応のモデルに渡し、モデルは画像の内容を説明したり、要約したり、画像に関する質問に回答したりします。

ビジョン機能を有効にする

ビジョン は画像入力をサポートするモデルでのみ動作し、選択したモデルが対応していない場合はアップロード コントロールが無効になります。再度有効にするには、ビジョン 対応モデルに切り替えてください。

ビジョン機能を使う

メッセージのコンポーザー左下にあるクリップアイコンをクリックし、Upload to Provider を選択して、スクリーンショット、写真、グラフ、図表などの画像を添付します。次に、画像の内容を読み取る必要がある質問をします。たとえば、"このクエリプランの何が問題ですか?""このスクリーンショット内のテキストを書き起こしてください""このダッシュボードを先週のものと比較してください" などです。

Upload to Provider、Upload as Text、Upload to Code Environment の各オプションを示すクリップメニューが開いた状態のメッセージコンポーザー

エージェント は画像をメッセージのコンテキストの一部として扱うため、同じターン内の後続の質問では、再アップロードしなくても見た内容を参照できます。

ビジョンを他のツールと組み合わせる

ビジョンは、画像ベースの分析ではコードインタープリターと相性がよく、たとえばエージェントがスクリーンショットから数値を読み取り、その後Pythonを実行して合計を計算できます。また、画像にモデルが調べる必要のある対象への言及が含まれている場合は、ウェブ検索も有効です。