
この研究論文は、タンパク質言語モデル(PLM)の内部メカニズムを理解するための体系的なアプローチとして、スパースオートエンコーダー(SAE)の使用を紹介しています。著者らは、SAEをPLMであるESM-2の埋め込みに適用することで、個々のニューロンでは解釈が難しかった数千の人間が解釈可能な潜在特徴を抽出できることを示しています。これらの特徴は、結合部位や構造モチーフなど、既知の生物学的概念と強く相関しており、PLMが情報を重ね合わせて表現しているという証拠を提供します。さらに、このフレームワーク(InterPLMとして視覚化プラットフォームも提供)は、欠落したアノテーションの特定や、標的を絞ったタンパク質配列生成の誘導といった実用的な応用も可能にすることを実証しています。
Nat Methods. 2025 Oct;22(10):2107-2117. doi: 10.1038/s41592-025-02836-7. Epub 2025 Sep 29.
InterPLM: discovering interpretable features in protein language models via sparse autoencoders
E Simon, J Zou
https://pubmed.ncbi.nlm.nih.gov/41023434/