JapanTech

[AIセキュリティ・プライバシーチームセミナー] Eric Wong 氏による講演

University of Pennsylvania の Eric Wong 准教授が LLM の安全性とアラインメントを機構論的理論から論じる講演(対面・Zoom)。

日時
6月30日(火) · 16:00〜17:00 JST
場所
東京科学大 大岡山キャンパス 西8号館E 10F 系会議室 (1004) およびオンライン(Zoom) · ハイブリッド
地域
関東(東京)
主催者
理化学研究所 革新知能統合研究センター
言語
EN
出典
Doorkeeper
概要
University of Pennsylvania の Eric Wong 准教授による AI セキュリティ分野の講演です。講演タイトルは「Understanding Safety & Alignment with Mechanistic Theory」で、東京科学大学 大岡山キャンパスでの対面聴講とオンライン(Zoom)参加が可能です。 講演では、LLM のガードレールがなぜ容易に破られるのか、そしてどう強制できるのかを機構論的な理論から論じます。1層トランスフォーマーから出発し、ルール破りをアテンション機構に内在する構造的脆弱性として特定する LogicBreaks フレームワークを紹介します。さらに、アテンションへの介入を分析することで、わずか5行のコードで大規模 LLM を制御する InstaBoost 手法へと展開します。 Eric Wong 氏は機械学習のデバッグと信頼できる AI システムの研究に取り組む Brachio Lab を率い、安全で説明可能な AI を扱う ASSET Center にも所属しています。
コミュニティについて

理化学研究所の AI 研究拠点が主催する研究セミナーで、AI セキュリティやプライバシーをテーマに国内外の研究者を招いた講演を行っています。研究者や大学院生を主な対象としています。

#ai-security#llm#alignment#machine-learning#research-seminar#privacy