Stage one of the project, done

2025-09-29 22:40:17 -04:00
parent a3f14b18dc
commit c719c5873f
11 changed files with 529 additions and 0 deletions
--- a/configs/model_250M.yaml
+++ b/configs/model_250M.yaml
@@ -0,0 +1,24 @@
+# Lyra 250M Model Configuration
+# GPT-style decoder-only transformer
+
+model:
+  name: "lyra-250M"
+  architecture: "gpt"
+
+  # Model dimensions
+  vocab_size: 50257
+  n_positions: 2048  # Larger context window
+  n_embd: 1024      # Embedding dimension
+  n_layer: 16       # Number of transformer layers
+  n_head: 16        # Number of attention heads
+  n_inner: 4096     # FFN inner dimension (4 * n_embd)
+
+  # Regularization
+  embd_pdrop: 0.1
+  resid_pdrop: 0.1
+  attn_pdrop: 0.1
+
+  # Activation
+  activation: "gelu"
+
+  # Total parameters: ~250M