2026-06-07 (日) — Web ニュース 20件
モデル・サービス領域では、創薬AIへの経営集中、人事業務を実行するエージェント、AI搭載アプリの成長、AI意識の評価方法が焦点になった。性能競争だけでなく、専門領域への定着と評価の慎重さが重要になっている。
MicrosoftはReid Hoffman氏が取締役を退任すると開示した。Hoffman氏は創薬AI企業Manas AIの経営に注力すると説明しており、TechCrunch見出しの「Manus」ではなく「Manas」が正しい。大手AI企業への投資と、特定産業向けAIの事業運営を両立してきた人物の役割変更として注目される。
Zohoは人事製品Zoho PeopleのAIアシスタントZiaを刷新し、従業員情報の検索、休暇や勤怠に関する操作、分析を会話から実行できるようにした。回答生成だけでなく、人事システム上の処理へ接続する更新である。具体的な精度や導入効果は公表されていないため、機能範囲を中心に評価する必要がある。
Appleによると、2025年はApp Store上位100アプリのうち40超が消費者向けAI機能を備え、請求額の成長率は他の上位アプリの4倍だった。経済圏全体は1.4兆ドル超と推計されたが、物販や旅行などアプリ経由の取引も含む。Apple委託のAnalysis Group調査であり、AI導入と成長の因果関係までは示していない。
研究者は、流暢な会話だけではAIの意識を判断できず、情報統合やフィードバックなど内部の情報処理構造を見る必要があると論じた。新しい実験結果ではなく既存研究を整理した解説で、現行AIを意識ありとは評価していない。将来の異なるアーキテクチャの可能性まで否定する内容でもない。
開発ツールでは、実利用型ベンチマーク、エージェントSDK比較、Codexの企業管理、APIモデレーション、Copilotのモデル移行が進んだ。導入時には生成性能と同時に、評価、管理、互換性、安全運用を継続的に扱う必要がある。
Arenaは、Web閲覧、画像生成、ファイル処理、コーディング、bash操作を行うAIエージェントを匿名・ランダム化された対戦形式で比較するAgent Modeを公開した。実利用に近い複合タスクを利用者が評価し、モデル単体の会話性能とは異なるランキングを作る。公開方法論では投票の収集と集計方針も説明している。
研究チームは51種類のPython向けエージェント開発キットを、コード生成と課題解決で比較するADK Arenaを公開した。プレプリントでは生成成功率57%、課題解決率の中央値32%、最高80%と報告しており、フレームワーク選択が結果へ大きく影響することを示す。査読前研究であり、課題構成や実行条件の確認が必要だ。
OpenAIはCodex App 26.602とCLI 0.137を公開し、利用状況の可視化、プロフィールカード、クラウド管理設定、Remote Controlのコントローラー機能を追加した。CLIではプラグイン一覧をJSONで取得できる。個別の生成能力より、組織導入時の管理、監査、自動化を強化する更新として重要だ。
OpenAIはResponses APIとChat Completions APIで、生成リクエストと同じ応答内に入力・出力のモデレーション結果を含める機能を追加した。別の判定リクエストを組み合わせる実装を簡素化し、アプリ側で拒否、保留、監査を行いやすくする。利用者は判定結果だけに依存せず、用途別のポリシーと人間確認を設計する必要がある。
GitHubはCopilot Chat、コード補完、Ask、Agent Modeなど大半のCopilot体験でGPT-5.2とGPT-5.2-Codexを非推奨化した。移行先としてGPT-5.5とGPT-5.3-Codexを案内している。GPT-5.2はCopilot Code Reviewでは継続され、企業管理者は代替モデルの利用ポリシーを確認する必要がある。
生成コンテンツとデザイン領域では、Kreaの高速画像生成とFramerのフォーム運用AIが更新された。制作そのものに加え、反復速度や公開後の保守へAIを組み込む動きが強まっている。
Kreaは約2秒で画像を生成する高速モデルKrea 2 Turboを公開した。スタイル参照、Moodboard、LoRAとの互換性を維持し、試行回数の多いデザイン工程で待ち時間を短縮する。画質、料金、速度の測定条件について第三者比較はまだ示されていない。
FramerはFormsのAdvanced spam protectionを更新し、固定ルールだけでなくAIがフォーム内容を解析してスパムを判定する機能を追加した。Pro、Scale、Enterpriseプランが対象で、問い合わせフォームの運用負荷軽減を狙う。誤検知率や判定根拠などの精度指標は公表されていない。
政策・企業活用では、米政府の人事と国家安全保障方針、軍事AI法案、国際雇用、財務、製薬、小売、高リスク評価まで用途が広がった。エージェントの本番導入には、人間承認、監査、根拠追跡、誇張を避けた効果検証が欠かせない。
米ホワイトハウスのAI政策顧問Sriram Krishnan氏が6月末に退任すると表明した。本人の投稿と主要報道で確認され、政府のAI政策チームにおける人事変更となる。後任や政策方針の変更は発表されておらず、退任だけから規制姿勢の転換を推測すべきではない。
米ホワイトハウスは国家安全保障機関によるAI導入を加速するNSPM-11を公表した。複数ベンダーの活用、安全な計算基盤、人材確保、能力評価を求め、機密環境を含む導入体制を整える。個別モデルの採用決定ではなく、政府機関向けの政策と運用原則を示す文書である。
米議員は軍事AIの利用について、核兵器、致死的標的選定、国内監視などで人間の承認、監査、議会通知を求めるSecure and Accountable Military AI Actを提案した。現時点では法案であり成立した規制ではない。軍事用途での自動化範囲を具体的な高リスク領域ごとに制限する議論として重要だ。
G-Pは180カ国以上の雇用・コンプライアンス情報を利用し、契約書作成、誤分類リスク検出、国別採用計画を支援するエージェント機能を発表した。国際人事でのAI活用が回答生成から業務実行へ移る例である。「世界初」や効果に関する表現は同社説明に基づき、独立した検証は示されていない。
企業支出管理のRampは7.5億ドルを調達し、評価額は440億ドルになったと発表した。資金はAIトークン支出の管理、調達・会計エージェント、自律的な決済機能の拡大に充てる。企業の支出管理対象が従業員や取引先から、AIサービス利用料とエージェントによる取引へ広がっている。
HighLevelはCRMと業務自動化に組み込まれた5種類のAIツールを、既存顧客や無料トライアル利用者向けに期間限定で提供するキャンペーンを発表した。中小企業の導入障壁を下げる施策だが、新しい基盤技術の公開ではなく販促施策として評価すべきである。対象条件と終了後の料金確認が必要だ。
Veevaは製薬業界向けエージェントFalconを予告し、治験文書の受け付けと品質管理、規制当局との通信、安全性症例の仕分けを対象業務に挙げた。規制産業でAIを実務投入する動きとして重要だが、2026年後半の早期提供予定で、成果や導入実績はまだ示されていない。
Golfzon Commerceは50万件超のフィッティングデータを使い、スイング分析と商品選定を10以上のエージェントに分担させる購買支援を導入した。基盤にはAmazon Bedrock AgentCoreとClaudeを使う。企業固有データを推薦へ接続した具体例だが、推薦精度や売上向上の数値は公表されていない。
研究者らは毒性評価など高リスク領域のAIを、回答の流暢さではなく、出典、データのバージョン、再現性、不確実性、監査可能性で評価するEvidence-based AIの枠組みを提案した。確立済みの標準ではなく提案段階だが、規制・医療分野でエージェントを利用する際の説明責任を具体化している。