Bookサーチ [片岡裕雄/山本晋太郎/徳永匡臣/箕浦大晃/キュウゲツ（QIU YUE）/品川政太朗/Vision Transformer入門]

自然言語処理分野におけるブレイクスルーとなったTransformerをコンピュータビジョンに応用したモデルがVision Transformer（ViT）です。さまざまなコンピュータビジョンのタスクにおいて、ディープラーニングではスタンダードとなっているRNN、CNN、および既存手法を用いた処理精度を上回ることが確認されています。本書は注目のViTの入門書です。Transformerの成り立ちからはじめ、その理論と実装を解説していきます。今後のViTの活用が期待される応用タスク、ViTから派生したモデルを紹介したあと、TransoformerとViTを分析し、その謎を解明していきます。今後も普及が期待されるViTを盛りだくさんでお届けします。目次 1章 TransformerからVision Transformerへの進化 2章 Vision Transformerの基礎と実装 3章実験と可視化によるVision Transformerの探求 4章コンピュータビジョンへの応用 5章 Vision and Languageへの応用 6章 Vision Transformerの派生手法 7章 Transformerの謎を読み解く 8章 Vision Transformerの謎を読み解く第1章 TransformerからVision Transformerへの進化 ■1-1 自然言語処理におけるTransformerの登場 ■1-2 Vision and languageへの拡張 ■1-3 コンピュータビジョンにおけるTransformer 第2章 Vision Transformerの基礎と実装 ■2-1 準備 ■2-2 ViTの全体像 ■2-3 Input Layer ■2-4 Self-Attention ■2-5 Encoder ■2-6 ViTの実装第3章実験と可視化によるVision Transformerの探求 ■3-1 実験の概要 ■3-2 使用するデータセット ■3-3 実験条件 ■3-4 既存手法との比較 ■3-5 データ拡張における比較 ■3-6 位置埋め込みの可視化 ■3-7 ViTにおける判断根拠の可視化 ■3-8 ViTが捉えているモノ第4章コンピュータビジョンタスクへの応用 ■4-1 コンピュータビジョンのサブタスク ■4-2 画像認識への応用 ■4-3 物体検出、セマンティックセグメンテーションへの応用 ■4-4 ビデオ認識への応用 ■4-5 オブジェクトトラッキングへの応用 ■4-6 3Dビジョンへの応用 ■4-7 その他のコンピュータビジョンサブタスクへの応用 ■4-8 Transformer応用のまとめと展望第5章 Vision and Languageタスクへの応用 ■5-1 Vision and Languageのサブタスク ■5-2 VQAへの応用 ■5-3 Image Captioningへの応用 ■5-4 Embodied AIへの応用 ■5-5 その他のVision and Languageサブタスクへの応用 ■5-6 Vision and Languageのまとめと展望第6章 Vision Transformerの派生手法 ■6-1 ViT派生手法の分類 ■6-2 Swin Transformer ■6-3 DeiT ■6-4 CvT ■6-5 SegFormer ■6-6 TimeSformer ■6-7 MAE 第7章 Transformerの謎を読み解く ■7-1 Transformerの謎に人々は驚き困惑した ■7-2 Positional embeddingの謎 ■7-3 Multi-head Attentionの謎 ■7-4 Layer Normalizationの謎第8章 Vision Transformerの謎を読み解く ■8-1 ViT vs CNN vs MLPの三国時代の到来 ■8-2 ViTはCNNと同じく局所特徴を学習する ■8-3 ViTはより形状に反応する? ■8-4 ViTは早期から大域的な領域も見ている ■8-5 ViTはCNNやMLPよりもノイズや敵対的攻撃に頑健？ ■8-6 3つのモデルの特性と使い分けの勘どころ ■8-7 ViTの新常識