みんなの評価

Computer Vision Library

※こちらの書籍、電子書籍版はフルカラーです
（概要）

自然言語処理分野におけるブレイクスルーとなったTransformerをコンピュータビジョンに応用したモデルがVision Transformer（ViT）です。さまざまなコンピュータビジョンのタスクにおいて、ディープラーニングではスタンダードとなっているRNN、CNN、および既存手法を用いた処理精度を上回ることが確認されています。

本書は注目のViTの入門書です。Transformerの成り立ちからはじめ、その理論と実装を解説していきます。今後のViTの活用が期待される応用タスク、ViTから派生したモデルを紹介したあと、TransoformerとViTを分析し、その謎を解明していきます。今後も普及が期待されるViTを盛りだくさんでお届けします。

（こんな方におすすめ）

・ViTに興味のある方

・実務で画像処理に取り組んでいる方

（目次）

第1章 TransformerからVision Transformerへの進化

　　1-1 自然言語処理におけるTransformerの登場

　　1-2 Vision and Languageへの拡張

　　1-3 コンピュータビジョンにおけるTransformer

第2章 Vision Transformerの基礎と実装

　　2-1 準備

　　2-2 ViTの全体像

　　2-3 Input Layer

　　2-4 Self-Attention

　　2-5 Encoder

　　2-6 ViTの実装

第3章実験と可視化によるVision Transformerの探求

　　3-1 実験の概要

　　3-2 使用するデータセット

　　3-3 実験条件

　　3-4 既存手法との比較

　　3-5 データ拡張における比較

　　3-6 位置埋め込みの可視化

　　3-7 ViTにおける判断根拠の可視化

　　3-8 ViTが捉えているモノ

第4章コンピュータビジョンタスクへの応用

　　4-1 コンピュータビジョンのサブタスク

　　4-2 画像認識への応用

　　4-3 物体検出、セマンティックセグメンテーションへの応用

　　4-4 動画認識への応用

　　4-5 オブジェクトトラッキングへの応用

　　4-6 3Dビジョンへの応用

　　4-7 その他のコンピュータビジョンサブタスクへの応用

　　4-8 Transformer応用のまとめと展望

第5章 Vision and Languageタスクへの応用

　　5-1 Vision and Languageのサブタスク

　　5-2 VQAへの応用

　　5-3 Image Captioningへの応用

　　5-4 Embodied AIへの応用

　　5-5 その他のVision and Languageサブタスクへの応用

　　5-6 Vision and Languageのまとめと展望

第6章 Vision Transformerの派生手法

　　6-1 ViT派生手法の分類

　　6-2 Swin Transformer

　　6-3 DeiT

　　6-4 CvT

　　6-5 SegFormer

　　6-6 TimeSformer

　　6-7 MAE

第7章 Transformerの謎を読み解く

　　7-1 Transformerの謎に人々は驚き困惑した...