画像生成AIの最前線
本チュートリアルでは,デノイジング拡散確率モデル(DDPM)を中心に拡散モデルの技術についてその概要を説明します.
またその応用事例として,SIGGRAPHやCVPRで発表された画像生成・編集に関する最新研究を紹介します.
略歴
2017年筑波大学システム情報工学研究科博士後期課程修了.博士(工学).
2012年より日本電信電話株式会社に勤務し,データマイニングの研究開発に従事.
2016年より筑波大学助教,豊橋技術科学大学助教を経て,2019年より再び筑波大学助教.現在は主に画像生成の研究に従事.
大規模言語モデルとVision-and-Languageの最新動向
ChatGPT(GPT-3.5)やLLaMA-2に代表される巨大なニューラルネットワークを大量のテキストで自己教師あり学習した「大規模言語モデル」は,
人の自然言語による指示に基づいた応答の学習や,人のフィードバックに基づく強化学習の導入により,汎用人工知能の初期段階と言える水準に達した.
さらに近年では大規模言語モデルの成果がVision-and-Languageと呼ばれる視覚情報と言語情報を組み合わせた課題解決を行う研究分野にも導入され,
GPT-4を始め大きな成果を挙げている.本チュートリアルでは,大規模言語モデルおよびVision-and-Langaugeモデルについて最新の動向を紹介する.
略歴
2008年 北海道大学大学院情報科学研究科 複合情報学専攻 博士後期課程 修了,博士(情報科学).
2009年 日本電信電話株式会社入社.2023年よりNTT人間情報研究所 上席特別研究員(現職).
自然言語処理,Vision-and-Language,データマイニングなどの研究開発に従事.
言語処理学会年次大会最優秀賞(2018, 2021)・優秀賞(2019, 2020, 2022, 2023),
日本データベース学会上林奨励賞(2017),情報処理学会山下記念研究賞(2015)など受賞.
略歴
2020年 名古屋工業大学大学院工学研究科 修士課程 修了,2020年 日本電信電話株式会社入社.現在.NTT人間情報研究所 研究員.
東北大学博士後期課程在学中.自然言語処理,Vision-and-Language,対話システムなどの研究開発に従事.
言語処理学会年次大会最優秀賞(2021)・優秀賞(2023)・言語資源賞(2023),
DocVQA Challenge2021 Task3 (InfographicVQA) Runner-up(2021),DSTC7 sentence generation task Runner-up(2019)など受賞.
NeRFの基礎技術と進化
このチュートリアルではコンピュータグラフィックスの歴史を軽く振り返りながら,どのようにしてNeRFが発見され,
なぜNeRFが研究トピックとして人気になったのかを解説します.NeRFの最新研究や将来へ向けての課題などについても解説を行います.
略歴
NVIDIAリサーチサイエンティスト兼トロント大学PhD学生.2016年ウォータールー大学コンピュータサイエンス学科卒業.
Neural FieldsやGenerative AI for 3Dなどの研究に加えライブラリ開発(KaolinやWispなど)にも従事.
微分可能レンダラのつくりかた~理論からVulkan実装まで~
微分可能レンダリングは二次元画像を損失関数に使用し三次元シーンの最適化を行うための技術であり,
グラフィックスのみならずビジョンや機械学習の分野でも注目を集めています.
本チュートリアルでは微分可能レンダリングの基礎知識と実装についてリアルタイムグラフィックスの観点から解説します.
まずレンダリングパイプラインを微分可能に拡張する際の課題と,それらを克服するためのテクニックを解説します.
さらにOpenGLやニューラルネットワーク用の自動微分ライブラリを用いた実装には改善の余地があることを示し,
現代的なグラフィックスAPIであるVulkanを用いた効率的な実装を紹介します.関連する最新の研究についても紹介します.
略歴
華為技術日本株式会社 (Huawei) 東京研究所にて三次元コンピュータビジョンとグラフィックスの研究開発に従事.
近年はデジタルヒューマンへの応用に注力.2011年 東北大学工学部情報知能システム総合学科コンピュータサイエンスコース 卒業.
2013年 東京大学大学院工学系研究科電気系工学専攻 修士課程修了.2013年 キヤノン株式会社 入社.
デジタルシステム開発本部にてAR/MR用の三次元手指ジェスチャ認識技術の研究開発に従事.2017年より現職.
略歴
華為技術日本株式会社 (Huawei) 東京研究所にて三次元コンピュータグラフィックスの研究開発に従事.
近年は微分可能レンダラを用いたデジタルヒューマンの形状及び材質推定に注力.2017年 慶應義塾大学理工学部情報工学科 卒業.
2019年 慶應義塾大学大学院理工学研究科開放環境科学専攻 修士課程修了.
在学中にLight Transport Entertainment社にてコンピュータグラフィックスの開発業務に携わる.
現在は同大学院博士課程在学.2019年より現職.
三次元メッシュと深層学習
メッシュは,多角形の集まりによって,2-多様体として表現される物体表面を離散的に表現するデータ形式です.
メッシュには物体表面上の頂点位置の他に,頂点同士の接続関係が保持されており,この接続関係を動的に変更する難しさから,
ボクセルや点群,陰関数といった他の三次元形状表現に比べて,深層学習の応用が進んでいないという現状があります.
本講演では,そのようなメッシュ特有の課題に対してのメッシュ処理の歴史を振り返りつつ,近年の研究動向について紹介します.
特に,三角形メッシュに特有の性質を利用した畳み込み層の他,メッシュをグラフと見なすことで定義されるグラフ畳み込み層について,
その研究の進展を振り返ります.
略歴
一橋大学大学院ソーシャル・データサイエンス研究科准教授.2010年に京都大学理学部理学科を卒業,
2015年に東京大学大学院総合文化研究科広域科学専攻修了 (博士 (学術)).2016年より,早稲田大学大学院先進理工学研究科にて,
日本学術振興会特別研究員(PD),2019年より,東京大学大学院工学系研究科助教を経て,2022年10月より現職.
現在は,主に三次元形状の計測・生成・編集に関わる深層学習技術を中心に研究に取り組む.