生成AIパスポートの第3章は「生成AIの最新動向」です。生成AIでできることや、主要なサービス・技術について問われます。
この記事では、第3章で押さえておくべきポイントを整理します。
生成AIでできることの全体像
生成AIは、さまざまな種類のコンテンツを作ることができます。試験では、それぞれの特徴と代表的なサービスを知っておく必要があります。
- テキスト生成:文章の作成、要約、翻訳、校正など(ChatGPT、Claude、Geminiなど)
- 画像生成:テキストの指示から画像を作る(Stable Diffusion、DALL-E、Midjourneyなど)
- 音声生成:テキストを音声に変換したり、声をクローンしたりする
- 動画生成:テキストや画像から動画を生成する(Soraなど)
詳しくは「生成AIでできることをやさしく整理する」で解説しています。
主要サービスの違い
試験では、主要な生成AIサービスの特徴を問われることがあります。
- ChatGPT:OpenAIが提供。GPTベース。テキスト生成、画像生成、Web検索など多機能
- Gemini:Googleが提供。マルチモーダル対応が特徴。Google検索との連携
- Claude:Anthropicが提供。安全性重視の設計。長文の処理が得意
各サービスの開発元と大まかな特徴を押さえておけば十分です。
マルチモーダルAI
マルチモーダルAIは、テキスト、画像、音声、動画など複数の種類のデータを同時に扱えるAIです。
たとえば、画像を見せて「この写真の内容を説明して」と聞いたり、テキストの指示から画像を生成したりすることができます。最新のChatGPTやGeminiはマルチモーダル対応しています。
AIエージェント
AIエージェントは、AIが自律的に判断しながら複数のタスクを実行するしくみです。単に質問に答えるだけでなく、必要な情報を自分で調べ、ツールを使い、一連の作業を自動的に進められるのが特徴です。
「AIエージェントは自律的に行動できる」という点が、通常のチャットAIとの違いです。
RAG(検索拡張生成)
RAG(Retrieval-Augmented Generation)は、AIが回答する前に外部のデータベースやドキュメントを検索し、その情報を参考にして回答を生成するしくみです。
RAGのメリットは、AIの学習データにない最新情報や社内情報も活用できることです。ハルシネーションの軽減にも役立ちます。
ディープフェイク
ディープフェイクは、AI技術を使って作られた偽の動画や音声のことです。第3章では技術的な概要が、第4章ではリスクの観点から出題されます。
顔の入れ替え(フェイススワップ)、音声クローンなどの手法を理解しておきましょう。
第3章のまとめ
第3章は実際のサービスや技術に関する内容が中心です。ChatGPTを日常的に使っている人にとっては取り組みやすい章ですが、各サービスの特徴の違いやRAG・AIエージェントなどの新しい概念は意識して押さえておく必要があります。

Comment