🥭

Mango Encyclopedia

Comprehensive Guide to Attention Mechanisms in Deep Learning

Welcome to Mango

This encyclopedia provides in-depth explanations of all attention mechanisms used in modern deep learning, particularly in Transformer architectures. Each topic includes detailed explanations, mathematical formulations, implementation insights, and test questions to reinforce learning.

Total Topics: 72 | Format: Mobile-friendly HTML

Core Attention Mechanisms (1-15)

Attention Motivation

Encoder-Decoder Attention

Additive (Bahdanau) Attention

Multiplicative (Luong) Attention

Query-Key-Value Mechanism

Alignment Scores

Context Vectors

Scaled Dot-Product Attention

Multi-Head Attention

Positional Encoding

Learned Positional Embeddings

Relative Positional Encoding

Positional Encodings & Advanced Attention (16-30)

Rotary Position Embeddings (RoPE)

ALiBi Attention Bias

Transformer Encoder

Transformer Decoder

Masked Self-Attention

Cross-Attention

Feed-Forward Layers

Residual Connections

Layer Normalization

Padding Masking

Attention Masks

Sparse Attention

Local Attention

Global Attention

Efficient & Vision Attention (31-45)

Sliding Window Attention

Block Attention

Longformer Attention

BigBird Attention

Linear Attention

Kernelized Attention

Performer Attention

Low-Rank Attention

Memory-Efficient Attention

Vision Attention

Vision Transformer (ViT)

Window Attention

Swin Transformer Attention

Deformable Attention

Cross-Modal & Specialized Attention (46-60)

Cross-Modal Attention

Image-Text Attention

Audio-Text Attention

Video Attention

Retrieval Attention

Memory Attention

Chunked Attention

Grouped Query Attention (GQA)

Multi-Query Attention (MQA)

Attention Visualization

Attention Interpretability

Attention Rollout

Quadratic Complexity Problem

Advanced Architectures & Future Directions (61-72)

Long-Context Attention Issues

Lost-in-the-Middle Problem

Hierarchical Attention

Graph Attention Networks

Reinforcement Learning Attention

Mixture-of-Experts Attention

Transformer Alternatives

State Space Models (Mamba)

Hybrid Attention Architectures

Multimodal Transformers

Diffusion Transformer Attention

Agentic Memory Attention