Stage 00

Foundations & Environment

Set up your environment, understand transformers from scratch, and master data preparation fundamentals.

7notebooks

4hestimated

0030 min

Configure your GPU environment, install PyTorch and HuggingFace libraries, verify CUDA, and set up HuggingFace authentication.

CUDAPyTorchHuggingFaceGPU Setup+1

0145 min

Build multi-head self-attention from scratch, implement positional encodings, and understand why Attention is All You Need.

Self-AttentionMulti-Head AttentionPositional EncodingTransformer Architecture

0240 min

Explore BPE, WordPiece, and SentencePiece tokenization. Compare GPT-2 and BERT tokenizers side-by-side.

BPEWordPieceSentencePieceVocabulary+1

0335 min

Load, split, and preprocess NLP datasets with HuggingFace Datasets. Train/val/test splitting strategies.

HuggingFace DatasetsTrain/Val/Test SplitTokenizationDataLoader

0435 min

Detect duplicates, class imbalance, outliers, and PII in datasets. Build reusable EDA pipelines.

EDADuplicate DetectionPIIClass Imbalance+1

0530 min

Oversampling, undersampling, class weights, focal loss, and WeightedRandomSampler techniques.

Class WeightsFocal LossWeightedRandomSamplerSMOTE+1

0635 min

Synonym replacement, back-translation, random deletion/swap, and synthetic data generation.

Back-TranslationSynonym ReplacementEDA AugmentationSynthetic Data