チュートリアル企画

テーマ: 深層学習技術の最先端とCG応用の新展開

本チュートリアル企画では，『深層学習技術の最先端とCG応用の新展開』と題し，一昨年に実施したチュートリアルから新たに生じた深層学習の最新技術やCGに根ざした深層学習技術の応用について，各分野の最先端の技術開発に携わる専門家を招いて講演会を実施します．

今回は，メディアでも大きな注目を集めている生成型AIの分野から，言語に関する様々なタスクで人間に迫る性能を示しているChatGPTの大規模言語モデル，様々な画像生成・編集技術を生み出したGANの応用事例，さらに異種メディアを横断する技術を普及させたCLIPや近年注目されている拡散モデルについて解説します．加えて，少数枚の画像からシーンの三次元構造を復元できるNeRFやCGにおける深層学習技術を支えるVulkanと微分可能レンダリングの現状，および幾何形状を扱うメッシュ上での深層学習法といった幅広い分野に関して，初学者にも分かりやすく紹介します．

本企画の最後には，前回と同様に講演者によるパネルディスカッションを設け，広義での生成型AIやCG分野における深層学習技術の今後について，今後の技術開発やビジネス応用の可能性について討議します．

プログラム　9月17日(日)

各講演およびパネルディスカッションについて，Zoom によるリアルタイム配信 (+ 後日アーカイブ配信) を行います (一部配信なしの可能性あり)．

9:55 - 10:00	チュートリアル開催挨拶	金井崇 (東京大)
10:00 - 11:00	画像生成AIの最前線	遠藤結城 (筑波大)
11:00 - 11:10	Coffee Break
11:10 - 12:10	大規模言語モデルとVision-and-Languageの最新動向	西田京介，田中涼太 (NTT 人間情報研究所)
12:10 - 13:20	昼休み
13:20 - 14:20	NeRFの基礎技術と進化	瀧川永遠希 (NVIDIA / University of Toronto)
14:20 - 14:30	Coffee Break
14:30 - 15:30	微分可能レンダラのつくりかた～理論からVulkan実装まで～	佐藤浩之，滝本佑介 (Huawei)
15:30 - 16:40	Coffee Break
15:40 - 16:40	三次元メッシュと深層学習	谷田川達也 (一橋大学)
16:40 - 16:50	Coffee Break
16:50 - 17:50	パネルディスカッション	司会: 栗山繁 (豊橋技術科学大 / CyberAgent)
17:50 - 17:55	チュートリアル閉会挨拶

18:00 - 19:00 に本会場 1F にあるセガフレード SIT Global Caffe にてレセプション (無料のドリンク・軽食あり)

画像生成AIの最前線

本チュートリアルでは，デノイジング拡散確率モデル（DDPM）を中心に拡散モデルの技術についてその概要を説明します．またその応用事例として，SIGGRAPHやCVPRで発表された画像生成・編集に関する最新研究を紹介します．

遠藤結城
筑波大学システム情報系
助教
http://www.cgg.cs.tsukuba.ac.jp/~endo/

略歴

2017年筑波大学システム情報工学研究科博士後期課程修了．博士（工学）． 2012年より日本電信電話株式会社に勤務し，データマイニングの研究開発に従事． 2016年より筑波大学助教，豊橋技術科学大学助教を経て，2019年より再び筑波大学助教．現在は主に画像生成の研究に従事．

大規模言語モデルとVision-and-Languageの最新動向

ChatGPT（GPT-3.5）やLLaMA-2に代表される巨大なニューラルネットワークを大量のテキストで自己教師あり学習した「大規模言語モデル」は，人の自然言語による指示に基づいた応答の学習や，人のフィードバックに基づく強化学習の導入により，汎用人工知能の初期段階と言える水準に達した．さらに近年では大規模言語モデルの成果がVision-and-Languageと呼ばれる視覚情報と言語情報を組み合わせた課題解決を行う研究分野にも導入され， GPT-4を始め大きな成果を挙げている．本チュートリアルでは，大規模言語モデルおよびVision-and-Langaugeモデルについて最新の動向を紹介する．

西田京介
NTT 人間情報研究所
上席特別研究員
http://www.knishida.info/

略歴

2008年北海道大学大学院情報科学研究科複合情報学専攻博士後期課程修了，博士（情報科学）． 2009年日本電信電話株式会社入社．2023年よりNTT人間情報研究所上席特別研究員（現職）．自然言語処理，Vision-and-Language，データマイニングなどの研究開発に従事．言語処理学会年次大会最優秀賞（2018, 2021）・優秀賞（2019, 2020, 2022, 2023），日本データベース学会上林奨励賞（2017），情報処理学会山下記念研究賞（2015）など受賞．

田中涼太
NTT 人間情報研究所
研究員
https://rtanaka-lab.github.io/

略歴

2020年名古屋工業大学大学院工学研究科修士課程修了，2020年日本電信電話株式会社入社．現在．NTT人間情報研究所研究員．東北大学博士後期課程在学中．自然言語処理，Vision-and-Language，対話システムなどの研究開発に従事．言語処理学会年次大会最優秀賞（2021）・優秀賞（2023）・言語資源賞（2023）， DocVQA Challenge2021 Task3 (InfographicVQA) Runner-up（2021），DSTC7 sentence generation task Runner-up（2019）など受賞．

NeRFの基礎技術と進化

このチュートリアルではコンピュータグラフィックスの歴史を軽く振り返りながら，どのようにしてNeRFが発見され，なぜNeRFが研究トピックとして人気になったのかを解説します．NeRFの最新研究や将来へ向けての課題などについても解説を行います．

瀧川永遠希
NVIDIA / University of Toronto （トロント大学）
https://tovacinni.github.io/

略歴

NVIDIAリサーチサイエンティスト兼トロント大学PhD学生．2016年ウォータールー大学コンピュータサイエンス学科卒業． Neural FieldsやGenerative AI for 3Dなどの研究に加えライブラリ開発（KaolinやWispなど）にも従事．

微分可能レンダラのつくりかた～理論からVulkan実装まで～

微分可能レンダリングは二次元画像を損失関数に使用し三次元シーンの最適化を行うための技術であり，グラフィックスのみならずビジョンや機械学習の分野でも注目を集めています．本チュートリアルでは微分可能レンダリングの基礎知識と実装についてリアルタイムグラフィックスの観点から解説します．まずレンダリングパイプラインを微分可能に拡張する際の課題と，それらを克服するためのテクニックを解説します．さらにOpenGLやニューラルネットワーク用の自動微分ライブラリを用いた実装には改善の余地があることを示し，現代的なグラフィックスAPIであるVulkanを用いた効率的な実装を紹介します．関連する最新の研究についても紹介します．

佐藤浩之
Digital Human Lab
Tokyo Research Center
Huawei
https://sato-hiroyuki.jp/

略歴

華為技術日本株式会社 (Huawei) 東京研究所にて三次元コンピュータビジョンとグラフィックスの研究開発に従事．近年はデジタルヒューマンへの応用に注力．2011年東北大学工学部情報知能システム総合学科コンピュータサイエンスコース卒業． 2013年東京大学大学院工学系研究科電気系工学専攻修士課程修了．2013年キヤノン株式会社入社．デジタルシステム開発本部にてAR/MR用の三次元手指ジェスチャ認識技術の研究開発に従事．2017年より現職．

滝本佑介
Digital Human Lab
Tokyo Research Center
Huawei
https://www.linkedin.com/in/yusuke-takimoto-b54542b1/

略歴

華為技術日本株式会社 (Huawei) 東京研究所にて三次元コンピュータグラフィックスの研究開発に従事．近年は微分可能レンダラを用いたデジタルヒューマンの形状及び材質推定に注力．2017年慶應義塾大学理工学部情報工学科卒業． 2019年慶應義塾大学大学院理工学研究科開放環境科学専攻修士課程修了．在学中にLight Transport Entertainment社にてコンピュータグラフィックスの開発業務に携わる．現在は同大学院博士課程在学．2019年より現職．

三次元メッシュと深層学習

メッシュは，多角形の集まりによって，2-多様体として表現される物体表面を離散的に表現するデータ形式です．メッシュには物体表面上の頂点位置の他に，頂点同士の接続関係が保持されており，この接続関係を動的に変更する難しさから，ボクセルや点群，陰関数といった他の三次元形状表現に比べて，深層学習の応用が進んでいないという現状があります．本講演では，そのようなメッシュ特有の課題に対してのメッシュ処理の歴史を振り返りつつ，近年の研究動向について紹介します．特に，三角形メッシュに特有の性質を利用した畳み込み層の他，メッシュをグラフと見なすことで定義されるグラフ畳み込み層について，その研究の進展を振り返ります．

谷田川達也
一橋大学大学院ソーシャル・データサイエンス研究科
准教授
http://tatsy.github.io/

略歴

一橋大学大学院ソーシャル・データサイエンス研究科准教授．2010年に京都大学理学部理学科を卒業， 2015年に東京大学大学院総合文化研究科広域科学専攻修了 (博士 (学術))．2016年より，早稲田大学大学院先進理工学研究科にて，日本学術振興会特別研究員(PD)，2019年より，東京大学大学院工学系研究科助教を経て，2022年10月より現職．現在は，主に三次元形状の計測・生成・編集に関わる深層学習技術を中心に研究に取り組む．

ニュース

2023年11月16日各賞の受賞者の写真を掲載いたしました．(詳細)
2023年9月20日 Visual Computing 2023は盛況のうちに終了しました．各賞の受賞者についてはこちらをご覧ください．
2023年8月26日プログラムを公開いたしました
2023年8月21日参加申し込みを開始いたしました
2023年8月7日チュートリアルの詳細を公開しました
2023年4月21日発表募集の詳細を公開しました
2023年3月19日 Visual Computing 2023のWebページを公開しました

チュートリアル企画

プログラム　9月17日(日)

画像生成AIの最前線

略歴

大規模言語モデルとVision-and-Languageの最新動向

略歴

略歴

NeRFの基礎技術と進化

略歴

微分可能レンダラのつくりかた～理論からVulkan実装まで～

略歴

略歴

三次元メッシュと深層学習

略歴

ニュース

X (Twitter)

Facebook

過去の開催

スポンサー企業

チュートリアル企画

プログラム 9月17日(日)

画像生成AIの最前線

略歴

大規模言語モデルとVision-and-Languageの最新動向

略歴

略歴

NeRFの基礎技術と進化

略歴

微分可能レンダラのつくりかた～理論からVulkan実装まで～

略歴

略歴

三次元メッシュと深層学習

略歴

ニュース

X (Twitter)

Facebook

過去の開催

スポンサー企業

プログラム　9月17日(日)