Stage 04

Alignment & Specialized Techniques

RLHF, DPO, Constitutional AI, reward models, and safety evaluation for aligned LLMs.

10notebooks

8hestimated

4050 min

Reward Model Training

Build a reward model using pairwise ranking loss. The backbone of RLHF pipelines.

Reward ModelPairwise RankingRLHFPreference Data

Study Colab

4160 min

RLHF with PPO

Full RLHF pipeline with Proximal Policy Optimization using TRL library.

RLHFPPOTRLPolicy Gradient+1

Study Colab

4250 min

DPO Implementation

Direct Preference Optimization — alignment without a reward model. Simpler than RLHF.

DPODirect Preference OptimizationPreference LearningRafailov 2023

Study Colab

4345 min

Constitutional AI

Anthropic's self-critique and revision approach: use the model to evaluate and improve its own outputs.

Constitutional AISelf-CritiqueHarmlessnessCAI

Study Colab

4445 min

Domain Adaptation

Continued pre-training on domain corpora (medical, legal, code) before task-specific fine-tuning.

Domain AdaptationContinued Pre-trainingDomain ShiftSpecialization

Study Colab

4545 min

Multi-Task Fine-Tuning

Train one model on multiple tasks simultaneously with task mixing and loss balancing.

Multi-Task LearningTask MixingLoss BalancingMulti-Head

Study Colab

4640 min

Catastrophic Forgetting

EWC (Elastic Weight Consolidation) and replay buffers to preserve performance on old tasks.

Catastrophic ForgettingEWCContinual LearningReplay Buffers

Study Colab

4735 min

Negative Sampling Strategies

In-batch negatives, hard negative mining, and curriculum negatives for retrieval models.

Hard NegativesIn-Batch NegativesRetrievalBi-Encoder

Study Colab

4840 min

Safety Evaluation

Toxicity detection, bias benchmarks, and jailbreak testing for responsible AI deployment.

ToxicityBiasJailbreakSafety+1

Study Colab

4950 min

Mixture of Experts

MoE architecture: sparse gating, top-k routing, and expert load balancing.

MoESparse MoETop-k RoutingExpert Parallelism+1

Study Colab

← Previous

Advanced Optimization

Custom Kernels & Production