
OpenAIが10月29日、安全分類に特化したオープンウェイトモデル「gpt-oss-safeguard」を研究プレビューとして公開しました。120Bと20Bの2種類で、いずれもgpt-oss系の微調整版。特徴は“推論時に安全ポリシーを持ち込む”設計で、開発者が書いた規約文をそのまま解釈し、ユーザーの発言や出力、チャット全体を分類します。ポリシーを学習に焼き込む従来型と違い、規約の改訂をその場で反映でき、モデルの推論過程(Chain-of-Thought)も開発者が点検可能。重みはHugging Faceで配布され、ライセンスはApache 2.0です。
この“ポリシー基盤推論”は、ゲーム掲示板のチート談義検知や、レビューサイトの偽レビュー抽出など、各社ごとに線引きが違う領域で威力を発揮します。OpenAIは社内でもSafety Reasonerとして同様の枠組みを運用しており、新モデルはこの手法のオープン実装という位置づけです。モデルはポリシーと入力の2系統を同時に受け取り、結論と推論理由を返すため、出力をそのまま自動遮断に使うもよし、人間の審査支援に回すもよし──という柔軟な組み込みが可能です。
社内運用の具体像も明かされました。OpenAIは新モデルの本番導入初期に安全推論へ多めの計算を割き、運用で得た知見に応じてポリシーを機動的に調整。直近のローンチでは総計算の最大16%を安全推論に投じた例もあると述べます。Sora 2や画像生成では逐次評価で不適切生成をリアルタイムに遮断、バイオや自傷などの高リスク領域では小型の高速分類器で“領域に該当するか”を粗く振り分け、詳細判断をSafety Reasonerに渡す“多層防御”を敷いています。
性能評価では、社内の複数ポリシー同時適用テストで、gpt-oss-safeguard(120B/20B)や社内Safety Reasonerが、より大きな汎用モデルgpt-5-thinkingやベースのgpt-ossを上回る精度を示しました。公開ベンチマークでは、OpenAIの2022年ModerationセットやToxicChatでも競合水準。ただし“数万件規模で作り込んだ専用分類器”のほうが勝るケースがあり、また推論負荷・レイテンシが増えるため、全量監視には小型分類器との組み合わせが前提になる──という限界も正直に記されています。
今回の公開はコミュニティ連携も軸に置きます。ROOSTと協働で開発者向けドキュメントやモデルコミュニティを立ち上げ、実運用の評価事例やポリシー設計の知見を共有するとのこと。用途は安全に限らず、プラットフォーム固有のラベル付け一般にも広がり得るとされ、たとえば“広告の誤解を招く表現”“年齢制限に関わる要素”など、企業独自の規定にも応用できます。
総じて、gpt-oss-safeguardは“安全の線をモデルが自分で学ぶ”から“人間が引いた線をモデルが正しく当てはめる”へ、発想を切り替えた一手です。生成AIの能力が増すほど、安全側も“説明でき、すぐ直せる”ことが価値になります。オープンウェイトで配布された今回のモデル群は、各社の現場ポリシーに合わせて守りの精度を上げる、実務寄りの土台になりそうです。