[第104回 TrustML Young Scientist Seminar] John Robertson氏(テキサス大学オースティン校)による講演「言語モデルの制御と信頼性: ステアリングベクトルとエージェントの経年変化を理解する」
テキサス大学オースティン校のJohn Robertson氏が、アクティベーションステアリングと概念粒度、LLMエージェントの長期信頼性を語る理研AIPセミナー。
- 日時
- 6月23日(火) · 14:00〜15:00 JST
- 場所
- Online + Meeting RoomB at Nihonbashi (AIP researchers only) · ハイブリッド
- 地域
- その他
- 主催者
- 理化学研究所 革新知能統合研究センター
- 言語
- EN
- 出典
- Doorkeeper
概要
理化学研究所AIPのTrustML Young Scientist Seminarシリーズが、テキサス大学オースティン校の博士課程学生John Robertson氏を招き、大規模言語モデルの制御と信頼性に関する講演を行います。Robertson氏はまず、再学習なしにモデルの振る舞いを調整できる軽量な手法であるアクティベーションステアリングを取り上げ、その有効性のばらつきは本質的な限界ではなく探索の難しさを反映していると論じます。プロンプト境界における対照的アクティベーションの方向的整合性が、有効な介入が現れる箇所を予測し、幾何学に基づく最適化により3つのモデルファミリーでおよそ40%少ない評価回数でそれを見つけられることを示します。
続いて、入力文脈に応じてステアリング方向がどれだけ回転するかを測る「概念粒度(concept granularity)」を紹介します。これはステアリングを実行する前にキャッシュされたアクティベーションから計算でき、概念の最適化の難しさと最終的に達成可能な品質の両方を予測します。最後にRobertson氏は制御から時間的信頼性へと話題を移し、重みを固定したエージェントが履歴を圧縮し、増大するメモリから検索し、事実を改訂する過程でどのように劣化するかを追跡する縦断的ベンチマークAgingBenchを紹介します。
セミナーはオンラインと日本橋オフィスの会議室Bで開催され、物理会場はAIP研究者のみ参加可能です。講演は英語で行われます。
コミュニティについて
TrustML Young Scientist Seminarは、機械学習システムの信頼性・信頼度・制御可能性に焦点を当てた定例の研究セミナーシリーズです。若手研究者が最新の研究成果を発表し、オンラインと日本橋オフィスで開催され、機械学習分野の研究者や大学院生を対象としています。
#machine-learning#llm#interpretability#activation-steering#ai-agents#research-seminar