対面

vLLM徹底解説:分散推論、KVキャッシュの進化、モデル圧縮

Name: vLLM徹底解説:分散推論、KVキャッシュの進化、モデル圧縮
Start: 2026-04-24T18:00:00+09:00
End: 2026-04-24T21:00:00+09:00
Location: Minato City, Tokyo

東京vLLMコミュニティナイト:分散推論・KVキャッシュ・モデル圧縮・本番運用を深掘りする5本のトーク。

日時: 4月24日(金) · 18:00〜21:00 JST
場所: Minato City, Tokyo
地域: 関東(東京)
主催者: Tokyo AI
言語: EN
出典: Luma

Lumaで開くカレンダーに追加

概要

vLLM Community Night — Tokyoは、vLLMのコアコントリビューターと本番運用エンジニアが集まり、高スループット・低レイテンシのLLM推論について深く議論する技術夜会です。会場は六本木一丁目。vLLMの最新アップデート、分散コンポーネントへと進化するKVキャッシュ、富士通のOneCompによる実践的なモデル圧縮、AWS上での分散推論(SageMaker HyperPod、ParallelCluster、EFA/SRDネットワーキング、Prefill-Decode Disaggregation)、そしてShisa.AIによる本番運用のポストモーテムなど、5本のトークを予定しています。登壇者はTun Jian Tan氏(vLLMコミッター、Embedded LLM)、市川勇馬氏(富士通)、赤澤俊信氏(AWS)、Tony Valderrama氏(Momento)、Leonard Lin氏(Shisa.AI)。低レベルな最適化からシステムレベルのスケーリング、ベンチマーク・評価・ハードウェア別チューニングといった現場の知見までを幅広くカバーします。軽食とネットワーキング付き。AI/MLエンジニア、LLM研究者、インフラ・プラットフォーム構築者、AIプロダクト関係者、OSSコントリビューターなど、LLMサービングの未来に関心を持つ方にお勧めです。

コミュニティについて

主催はIlya Kulyatin氏(Tokyo AI / Foundry Labs株式会社)とJiaqi Lim氏(Embedded LLM)。4,000名以上を擁する日本最大のAIコミュニティ Tokyo AI (TAI) と、vLLMの主要コントリビューターであり企業・政府向けGPU管理プラットフォームTokenVisorを提供するAIインフラ企業 Embedded LLM が共同で開催します。

#vllm#llm-inference#kv-cache#model-compression#distributed-inference#ai-infrastructure#tokyo-ai#open-source#aws#mlops