生成AIやTransformerについて調べていると、「Attention(アテンション)」という言葉が必ず出てきます。実はこのAttentionこそが、現在のAIが人間のような自然な文章を作れるようになった「最大の立役者」です。
名前は聞いたことがあっても、「具体的に何をしているの?」と聞かれると困る方も多いのではないでしょうか。
この記事では、Attentionとは何か、なぜ重要なのか、どのように機能するのかを、日常生活のたとえを使ってわかりやすく説明します。
Attentionは「どこに注目すべきかを判断する」しくみ
Attention(アテンション)を日本語にすると「注意」「注目」です。AIの世界では、文章の中のどの部分に注目すべきかを自動的に判断するしくみのことを指します。
人間も無意識にAttentionを使っています。たとえば、混雑したカフェで友人と話しているとき、周りの雑音の中から友人の声だけに「注意」を向けて聞き取っていますよね。これは、脳が「今重要な情報」に注目し、「重要でない情報」を無視する処理をしているからです。
AIのAttentionも同じ考え方です。文章の中にたくさんの単語があるとき、「今の処理にとって、どの単語が特に重要か」を判断して、重要な単語に重点を置くしくみです。
Attentionがない時代のAIの苦労
Attentionがなぜ重要かを理解するために、Attentionが登場する前のAIが抱えていた問題を見てみましょう。
以前のAIは、文章を先頭から順番に一語ずつ処理していました。読んだ内容は「要約メモ」のような一つの固定サイズの情報にまとめられ、次の処理に渡されます。
これは、長い小説の内容を付箋1枚にまとめてから感想文を書くようなものです。短い文章なら問題ありませんが、長い文章になると、重要な情報が付箋に入りきらず、どんどん失われていきます。
特に翻訳の場面で問題が顕著でした。たとえば英語から日本語に翻訳するとき、長い英文の最初のほうに出てきた重要な情報が、翻訳時には忘れられてしまうことがあったのです。
Attentionの解決策:「いつでも原文に戻れる」しくみ
Attentionが画期的だったのは、「付箋1枚のメモだけに頼るのではなく、必要に応じていつでも原文に戻って確認できる」しくみを作ったことです。
先ほどの小説のたとえを続けると、Attentionは感想文を書くときに、小説のどのページでも自由にめくって確認できるようにしたのです。しかも、「今書いている感想に関係する部分」を自動的にハイライトしてくれます。
翻訳の例で具体的に見てみましょう。「The cat sat on the mat because it was tired(猫はマットの上に座った。疲れていたからだ)」という英文を日本語に訳すとき、「it」が何を指しているかが重要です。
Attentionのしくみを使うと、AIは「it」を訳すときに文全体を見渡し、「the cat」との関係が強いことを見つけ出します。これにより、「it = 猫」と正しく解釈でき、自然な翻訳が可能になります。
Self-Attention:文章が「自分自身」に注目する
Transformerで使われている特に重要なAttentionが、Self-Attention(セルフ・アテンション)です。「自己注意」と訳されることもあります。
Self-Attentionでは、文章の中のすべての単語が、同じ文章の中の他のすべての単語との関係の強さを計算します。
学校のクラスにたとえてみましょう。30人のクラスで、全員が他の29人全員との「仲の良さ」を点数で表すようなものです。Aさんは「Bさんとは仲が良い(関係が強い)」「Cさんとはあまり接点がない(関係が弱い)」という情報をすべての組み合わせで持つことになります。
文章の場合も同じです。「田中さんは東京で生まれ、大学を卒業してから大阪に引っ越し、彼は今も大阪に住んでいる」という文で、Self-Attentionは次のような関係を見つけます。
- 「彼」と「田中さん」 → 関係がとても強い(同一人物を指す)
- 「彼」と「大阪」 → 関係が強い(住んでいる場所)
- 「彼」と「東京」 → 関係がやや弱い(過去の情報)
このように、文中のすべての単語の関係を網羅的に計算することで、AIは文脈を正確に把握できるのです。
Multi-Head Attention:複数の視点で同時に見る
Transformerでは、Self-Attentionをさらに強化したMulti-Head Attention(マルチヘッド・アテンション)が使われています。
これは、複数の専門家が、それぞれ異なる観点から同じ文章を分析するようなものです。
- 専門家A:「主語と述語の関係」に注目
- 専門家B:「時間の流れ」に注目
- 専門家C:「場所の関係」に注目
- 専門家D:「感情や態度」に注目
それぞれの専門家(Head)が異なる種類の関係を見つけ出し、その結果を統合することで、文章の多面的な理解が可能になります。実際のAIでは、数十個のHeadが同時に動いています。
Attentionが生成AIにもたらした3つの変化
1. 長い文章でも正確に処理できる
文章のどの部分にも直接アクセスできるため、数千語の長い文章でも、重要な情報を見落とさずに処理できるようになりました。これが、AIが長い会話を続けたり、長い文書を要約したりできる理由です。
2. 翻訳や文章理解の精度が飛躍的に向上
文脈を正確に把握できるようになったことで、「彼」「それ」「あの件」といった指示語の解釈や、比喩表現の理解が格段に正確になりました。
3. 並列処理で学習が高速化
Attentionは文章のすべての単語を同時に処理できるため、以前の「一語ずつ順番に処理する」方式と比べて、学習速度が劇的に速くなりました。これにより、数兆語規模のデータでの学習が現実的になりました。
Attentionは言語以外にも広がっている
Attentionのしくみは、文章処理だけでなく、さまざまな分野に応用されています。
- 画像認識 — 画像のどの部分が重要かを判断する
- 音声認識 — 音声のどの部分に注目して文字に変換するかを決める
- 動画理解 — 動画のどのフレームが重要かを判断する
「注目すべき場所を自動で見つける」というAttentionの考え方は、AIのあらゆる分野で活用できる汎用的なアイデアなのです。
Attentionを中心に設計されたTransformerについては、Transformerとは何かでさらに詳しく解説しています。また、Transformerをベースにした大規模言語モデルの全体像は、大規模言語モデルとは何かをご覧ください。
覚えておきたいポイント
- Attentionは「文章のどこに注目すべきか」を自動判断するしくみ
- Self-Attentionにより、すべての単語同士の関係を計算できる
- Multi-Head Attentionで、複数の視点から文章を同時に分析する
- 長い文章の正確な処理と、学習の高速化を実現した


Comment