
発表によると、Aardvarkは「ソフトウェアが変化する速度」に合わせて常時走り続ける防御エージェントです。まず接続したリポジトリ全体から脅威モデルを作り、以後は新旧のコミットを文脈込みで見張ります。怪しい変更を見つけると、影響範囲や悪用経路を文章とコード注釈で説明し、隔離サンドボックスで実際に再現して“本当に攻撃できるのか”まで検証。修正段ではCodexでパッチ案を添え、人のレビューを経てワンクリックでPRにできる——開発者の手を止めずに、発見から修正提案までを一本の流れに束ねた設計です。
Aardvarkは従来のファジングやSCA(依存関係解析)の置き換えではなく、人のセキュリティ研究者がやる“読む・考える・試す”をLLMの推論とツール実行でスケールさせるのが肝心。OpenAI社内や外部アルファでの連続運用では、複雑条件下でのみ露見する問題まで掘り当てたといい、ベンチマーク用の“ゴールデン”リポジトリ群では既知+合成脆弱性の92%を検出したと報告されています。
オープンソースへの適用でも成果が出ています。多数の脆弱性を発見して責任ある形で開示し、そのうち10件がCVE付与に至ったといいます。OpenAIは非商用OSSの選定リポジトリに対し、プロボノでのスキャン提供も計画。開示の運用は、9月に更新した“アウトバウンド協調開示ポリシー”に基づき、原則は非公開で協調的に、ただし悪用の兆候など一定条件では公的機関への共有や公表も行う姿勢です。
背景には“ソフトウェアが社会の背骨になった”という危機感があります。2024年だけで4万件超のCVEが報告され、社内テストではコミットの約1.2%が何らかの欠陥を持ち込むというデータも示されました。Aardvarkの狙いは、この“日々生まれる小さな不具合”を早期に拾い、再現で確性を高め、明快な修正案で開発の歩みを止めずに潰していくこと。まずはプライベートベータで多様な現場に出し、検出精度や検証ワークフロー、レポート体験を磨き込んでいく段取りです。
企業にとっては、セキュリティ人材の希少性を“エージェントで補完する”具体策が見えてきました。日常のレビュー線上にAardvarkを差し込み、高リスク変更や主要コンポーネントから順に面で守る。発見からパッチ提案までが一本化されることで、監査対応や説明責任も取りやすくなります。セキュリティチームと開発チームが“同じ画面・同じリズム”で走れるか——その使い勝手が、採用の決め手になりそうです。