Attempting to create a growing AI

2025-04-08 19:52:01 -04:00 · 2025-04-08 19:52:01 -04:00 · 6f28a30268
commit 6f28a30268
parent ffcc60e205
14 changed files with 484 additions and 108098 deletions
--- a/config.py
+++ b/config.py
@ -1,19 +0,0 @@
 import os
 import torch
 from dotenv import load_dotenv
 load_dotenv()
 class Config:
    model_dim = int(os.getenv("MODEL_DIM", 256))
    num_layers = int(os.getenv("NUM_LAYERS", 4))
    num_heads = int(os.getenv("HEADS", 8))
    vocab_size = int(os.getenv("VOCAB_SIZE", 30000))
    context_size = int(os.getenv("CONTEXT_SIZE", 512))
    batch_size = int(os.getenv("BATCH_SIZE", 8))
    lr = float(os.getenv("LEARNING_RATE", 1e-4))
    device = "cuda" if torch.cuda.is_available() else "cpu"
 cfg = Config()
--- a/dashboard.py
+++ b/dashboard.py
@ -0,0 +1,25 @@
 from flask import Flask, render_template_string
 from debug import DebugMonitor
 debug = DebugMonitor()
 app = Flask(__name__)
@app.route("/")
 def home():
    return render_template_string("""
    <html>
        <head><title>Ruby Debug Dashboard</title></head>
        <body>
            <h1>🧠 Ruby Live Debug</h1>
            <p><b>Last Dream:</b> {{ debug.last_dream }}</p>
            <p><b>Last Thought:</b> {{ debug.last_thought }}</p>
            <p><b>Last Loss:</b> {{ debug.last_loss }}</p>
            <p><b>Last Reply:</b> {{ debug.last_context }}</p>
        </body>
    </html>
    """, debug=debug)
 if __name__ == "__main__":
    app.run(port=5000)
--- a/debug.py
+++ b/debug.py
@ -0,0 +1,29 @@
 from datetime import datetime
 class DebugMonitor:
    def __init__(self):
        self.last_dream = ""
        self.last_thought = ""
        self.last_loss = 0.0
        self.last_context = ""
    def log_dream(self, dream):
        self.last_dream = dream
        self._print("💤 Dream", dream)
    def log_thought(self, thought):
        self.last_thought = thought
        self._print("💭 Thought", thought)
    def log_loss(self, loss):
        self.last_loss = loss
        self._print("📉 Loss", f"{loss:.4f}")
    def log_context(self, context):
        self.last_context = context
        self._print("📖 Context", context)
    def _print(self, label, content):
        now = datetime.now().strftime("%H:%M:%S")
        print(f"[{now}] {label}: {content}")
--- a/dream.py
+++ b/dream.py
@ -0,0 +1,29 @@
 import torch
 import time
 from utils import sample_reply, update_model_vocab
 from debug import DebugMonitor
 debug = DebugMonitor()
 def run_dream_loop(model, tokenizer, device, optimizer, train_step, interval=120):
    print("Ruby is dreaming...")
    while True:
        reply, loss = generate_dream(model, tokenizer, device, optimizer, train_step)
        print(f"[DREAM] {reply} (loss={loss:.4f})")
        time.sleep(interval)
 def generate_dream(model, tokenizer, device, optimizer, train_step):
    update_model_vocab(model, tokenizer)
    prompt = "Ruby: "
    input_ids = tokenizer.encode(prompt, return_tensors=True, freeze=True).to(device)
    reply = sample_reply(model, tokenizer, input_ids)
    training_text = f"User: What do you think?\nRuby: {reply}"
    loss = train_step(model, optimizer, tokenizer, training_text, device)
    return reply, loss
    debug.log_dream(reply)
    debug.log_loss(loss)
--- a/feedback.py
+++ b/feedback.py
@ -0,0 +1,4 @@
 def basic_self_feedback(reply, user_response):
    if user_response and len(user_response.strip()) > 1:
        return 1.0
    return -0.5
--- a/memory.py
+++ b/memory.py
@ -0,0 +1,29 @@
 import json
 from pathlib import Path
 class MemoryBuffer:
    def __init__(self, max_len=3, path="memory.json"):
        self.path = Path(path)
        self.max_len = max_len
        self.memory = []
        self.load()
    def add(self, user_input, bot_reply):
        self.memory.append(f"User: {user_input}")
        self.memory.append(f"Bot: {bot_reply}")
        if len(self.memory) > self.max_len * 2:
            self.memory = self.memory[-self.max_len * 2:]
        self.save()
    def get_context(self):
        return self.memory.copy()
    def save(self):
        with open(self.path, "w", encoding="utf-8") as f:
            json.dump(self.memory, f)
    def load(self):
        if self.path.exists():
            with open(self.path, "r", encoding="utf-8") as f:
                self.memory = json.load(f)
--- a/model.py
+++ b/model.py
@ -0,0 +1,30 @@
 import torch
 import torch.nn as nn
 class MiniTransformer(nn.Module):
    def __init__(self,
                 vocab_size,
                 d_model=256,
                 n_heads=4,
                 n_layers=4,
                 max_seq_len=512):
        super().__init__()
        self.token_emb = nn.Embedding(vocab_size, d_model)
        self.pos_emb = nn.Parameter(torch.zeros(1, max_seq_len, d_model))
        self.layers = nn.ModuleList([
            nn.TransformerEncoderLayer(d_model=d_model,
                                       nhead=n_heads,
                                       batch_first=True)
            for _ in range(n_layers)
        ])
        self.ln = nn.LayerNorm(d_model)
        self.head = nn.Linear(d_model, vocab_size)
    def forward(self, x):
        B, T = x.size()
        x = self.token_emb(x) + self.pos_emb[:, :T]
        for layer in self.layers:
            x = layer(x)
        x = self.ln(x)
        return self.head(x)
--- a/personality.py
+++ b/personality.py
@ -0,0 +1,70 @@
 import json
 from pathlib import Path
 import random
 class Personality:
    def __init__(self, path="personality.json"):
        self.path = Path(path)
        self.data = {
            "likes": [],
            "dislikes": [],
            "traits": [],
            "curiosities": []
        }
        self.load()
    def load(self):
        if self.path.exists():
            with open(self.path, "r", encoding="utf-8") as f:
                self.data.update(json.load(f))
    def save(self):
        with open(self.path, "w", encoding="utf-8") as f:
            json.dump(self.data, f, indent=2)
    def learn_topic(self, text):
        words = [w.lower() for w in text.split()]
        for word in words:
            if word.isalpha() and word not in self.data["curiosities"]:
                self.data["curiosities"].append(word)
        self.save()
    def choose_curiosity(self):
        if not self.data["curiosities"]:
            return None
        return random.choice(self.data["curiosities"])
    def observe_input(self, message: str):
        text = message.lower()
        # Learn likes
        if "i like" in text:
            word = text.split("i like", 1)[1].strip().split()[0]
            if word and word not in self.data["likes"]:
                self.data["likes"].append(word)
                self.save()
        # Learn dislikes
        if "i hate" in text or "i don't like" in text:
            for phrase in ["i hate", "i don't like"]:
                if phrase in text:
                    word = text.split(phrase, 1)[1].strip().split()[0]
                    if word and word not in self.data["dislikes"]:
                        self.data["dislikes"].append(word)
                        self.save()
        # Learn traits from compliments
        for trigger in ["you are", "you're", "ur"]:
            if trigger in text:
                fragment = text.split(trigger, 1)[1].strip().split()[0]
                if fragment and fragment not in self.data["traits"]:
                    self.data["traits"].append(fragment)
                    self.save()
    def reflect(self) -> str:
        if not self.data["likes"] and not self.data["traits"]:
            return "I'm still figuring out who I am."
        likes = ', '.join(self.data["likes"][:3]) or "nothing yet"
        traits = ', '.join(self.data["traits"][:3]) or "no traits yet"
        return f"I'm starting to think I like {likes}. People have called me {traits}."
--- a/ruby.py
+++ b/ruby.py
@ -0,0 +1,106 @@
 import discord
 import torch
 from debug import DebugMonitor
 from dream import run_dream_loop
 from model import MiniTransformer
 from train_step import online_train_step
 from tokenizer import ChildTokenizer
 from feedback import basic_self_feedback
 from memory import MemoryBuffer
 from utils import update_model_vocab, track_loss, sample_reply, sample_thought
 from personality import Personality
 from dotenv import load_dotenv
 import os
 import logging
 import threading
 # Configure logging
 logging.basicConfig(filename='ruby.log', level=logging.ERROR)
 # Load environment variables
 load_dotenv()
 TOKEN = os.getenv('DISCORD_TOKEN')
 # Initialize personality
 personality = Personality()
 # Initialize debug monitor
 debug = DebugMonitor()
 # Initialize model
 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
 tokenizer = ChildTokenizer()
 memory = MemoryBuffer(max_len=3)
 model = MiniTransformer(vocab_size=tokenizer.vocab_size()).to(device)
 optimizer = torch.optim.Adam(model.parameters(), lr=1e-4)
 # Initialize Discord client
 intents = discord.Intents.default()
 intents.message_content = True
 client = discord.Client(intents=intents)
 # Start the dream loop in a separate thread
 dream_thread = threading.Thread(
    target=run_dream_loop,
    args=(model, tokenizer, device, optimizer, online_train_step),
    daemon=True
 )
 dream_thread.start()
 # Event handlers
@client.event
 async def on_ready():
    print(f"{client.user} is ready and learning!")
@client.event
 async def on_message(message):
    try:
        # Ignore bot's own messages
        if message.author == client.user:
            return
        # Get user input and memory
        user_input = message.content
        context = memory.get_context()
        full_input = ' '.join(context + [user_input])
        # 🔍 Debug: log context
        debug.log_context(full_input)
        # Ensure model matches tokenizer
        update_model_vocab(model, tokenizer)
        # Encode user input
        input_ids = tokenizer.encode(full_input, return_tensors=True, freeze=True).to(device)
        if input_ids.size(1) < 2:
            return
        # 💭 Generate internal thought
        thought = sample_thought(model, tokenizer, device, full_input)
        debug.log_thought(thought)
        # 🗣️ Generate reply from Ruby
        reply = sample_reply(model, tokenizer, input_ids)
        debug.log_context(reply)
        # ✅ Send the reply
        await message.channel.send(reply if reply.strip() else "...")
        # Add to memory
        memory.add(user_input, reply)
        # 📉 Train and log loss
        training_example = f"User: {user_input}\nRuby: {reply}"
        loss = online_train_step(model, optimizer, tokenizer, training_example, device)
        debug.log_loss(loss)
    except Exception as e:
        logging.exception("Error in on_message")
        await message.channel.send("Oops, I had a brain freeze.")
 client.run(TOKEN)
--- a/tokenizer.json
+++ b/tokenizer.json
--- a/tokenizer.py
+++ b/tokenizer.py
@ -0,0 +1,42 @@
 import torch
 import logging
 logger = logging.getLogger("tokenizer")
 logger.setLevel(logging.INFO)
 fh = logging.FileHandler("learned_chars.log")
 formatter = logging.Formatter('%(message)s')
 fh.setFormatter(formatter)
 logger.addHandler(fh)
 class ChildTokenizer:
    def __init__(self):
        self.char_to_id = {'<pad>': 0, '<unk>': 1}
        self.id_to_char = {0: '<pad>', 1: '<unk>'}
        self.next_id = 2
        # 🔤 Bootstrap with common characters
        for ch in "abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ.,!? ':;":
            self.char_to_id[ch] = self.next_id
            self.id_to_char[self.next_id] = ch
            self.next_id += 1
    def encode(self, text, return_tensors=False, freeze=False):
        ids = []
        for ch in text:
            if ch not in self.char_to_id:
                if freeze:
                    ids.append(self.char_to_id.get('<unk>', 1))
                    continue
                self.char_to_id[ch] = self.next_id
                self.id_to_char[self.next_id] = ch
                self.next_id += 1
            ids.append(self.char_to_id[ch])
        return torch.tensor([ids], dtype=torch.long) if return_tensors else ids
    def decode(self, ids):
        return ''.join([self.id_to_char.get(i, '<unk>') for i in ids])
    def vocab_size(self):
        return self.next_id
--- a/train.py
+++ b/train.py
@ -1,159 +0,0 @@
 import torch
 import torch.nn as nn
 import time
 import os
 import numpy as np
 from torch.utils.data import Dataset, DataLoader
 from datasets import load_dataset
 from tokenizers import Tokenizer, models, trainers, decoders
 from config import cfg
 from torch.cuda.amp import autocast, GradScaler
 # 1. Tokenizer Implementation (Modified)
 class RubyTokenizer:
    def __init__(self):
        self.tokenizer = Tokenizer(models.BPE(unk_token="[UNK]"))
        self.tokenizer.add_special_tokens(["[PAD]", "[UNK]"])
        self.tokenizer.decoder = decoders.ByteLevel()
    def train(self, texts):
        trainer = trainers.BpeTrainer(
            special_tokens=["[PAD]", "[UNK]"],
            vocab_size=cfg.vocab_size,
            min_frequency=2,  # Modified
            show_progress=True
        )
        self.tokenizer.train_from_iterator(
            (text.split() for text in texts),  # Modified: better word handling
            trainer=trainer
        )
    def encode(self, text):
        return self.tokenizer.encode(text).ids
    @property
    def pad_id(self):
        return self.tokenizer.token_to_id("[PAD]")  # Modified
 # 2. Optimized Dataset (Modified padding handling)
 class CachedDataset(Dataset):
    def __init__(self):
        self.data = np.memmap("dataset_cache.bin", 
                            dtype=np.int32, 
                            mode="r",
                            shape=(os.path.getsize("dataset_cache.bin")//4,))
    def __len__(self):
        return len(self.data) // cfg.context_size
    def __getitem__(self, idx):
        start = idx * cfg.context_size
        return torch.from_numpy(self.data[start:start+cfg.context_size].copy())
 # 3. Transformer Model (Modified padding_idx)
 class Transformer(nn.Module):
    def __init__(self, pad_id):
        super().__init__()
        self.embed = nn.Embedding(
            cfg.vocab_size, 
            cfg.model_dim,
            padding_idx=pad_id  # Modified
        )
        self.blocks = nn.ModuleList([
            nn.TransformerEncoderLayer(
                d_model=cfg.model_dim,
                nhead=cfg.num_heads,
                dim_feedforward=cfg.model_dim*4,
                batch_first=True
            ) for _ in range(cfg.num_layers)
        ])
        self.head = nn.Linear(cfg.model_dim, cfg.vocab_size)
    def forward(self, x):
        x = self.embed(x)
        for block in self.blocks:
            x = block(x)
        return self.head(x)
 # 4. Main Training Process (Critical fixes)
 def main():
    # Initialize tokenizer
    tokenizer = RubyTokenizer()
    if not os.path.exists("dataset_cache.bin"):
        print("Creating dataset cache...")
        ds = load_dataset("openwebtext", split="train[:5%]")
        # Train and save tokenizer (Modified)
        if not os.path.exists("tokenizer.json"):
            print("Training tokenizer...")
            tokenizer.train([text for text in ds["text"] if len(text) > 100])
            tokenizer.tokenizer.save("tokenizer.json")
        else:
            tokenizer.tokenizer = Tokenizer.from_file("tokenizer.json")
        # Tokenize and cache data (Modified)
        all_tokens = []
        pad_id = tokenizer.pad_id
        for text in ds["text"]:
            tokens = tokenizer.encode(text)
            tokens = tokens[:cfg.context_size]  # Truncate after tokenization
            pad_len = cfg.context_size - len(tokens)
            all_tokens.extend(tokens + [pad_id]*pad_len)  # Modified
        memmap = np.memmap("dataset_cache.bin", 
                         dtype=np.int32, 
                         mode="w+", 
                         shape=(len(all_tokens),))
        memmap[:] = np.array(all_tokens, dtype=np.int32)
        del memmap
        # Test tokenizer (Modified)
        test_text = "The quick brown fox jumps over the lazy dog."
        print("Tokenizer test:", tokenizer.tokenizer.encode(test_text).tokens)
    # Initialize model with pad_id (Modified)
    model = Transformer(pad_id=tokenizer.pad_id).to(cfg.device)
    opt = torch.optim.AdamW(model.parameters(), lr=cfg.lr)
    scaler = GradScaler()
    dataset = CachedDataset()
    loader = DataLoader(dataset, 
                      batch_size=cfg.batch_size,
                      pin_memory=True,
                      shuffle=True)
    # Training loop (Modified loss calculation)
    start = time.time()
    for step, batch in enumerate(loader):
        batch = batch.to(cfg.device, non_blocking=True)
        inputs = batch[:, :-1]
        targets = batch[:, 1:]
        with autocast():
            outputs = model(inputs)
            loss = torch.nn.functional.cross_entropy(
                outputs.reshape(-1, cfg.vocab_size),
                targets.reshape(-1).long(),
                ignore_index=tokenizer.pad_id  # Modified
            )
        scaler.scale(loss).backward()
        scaler.step(opt)
        scaler.update()
        opt.zero_grad()
        if step % 10 == 0:
            elapsed = time.time() - start
            speed = (step + 1) * cfg.batch_size / elapsed
            print(f"Step {step} | Loss: {loss.item():.4f} | Speed: {speed:.1f} samples/s")
 if __name__ == "__main__":
    main()
--- a/train_step.py
+++ b/train_step.py
@ -0,0 +1,34 @@
 import torch
 import torch.nn.functional as F
 from utils import update_model_vocab
 def online_train_step(model, optimizer, tokenizer, message, device):
    # Ensure model can handle current vocab
    update_model_vocab(model, tokenizer)
    # Freeze tokenizer so it doesn't grow mid-train
    tokens = tokenizer.encode(message, return_tensors=True, freeze=True).to(device)
    if tokens.size(1) < 2:
        return 0.0
    # Truncate long input
    max_len = model.pos_emb.size(1)
    if tokens.size(1) > max_len:
        tokens = tokens[:, -max_len:]
    x = tokens[:, :-1]
    y = tokens[:, 1:]
    # HARD STOP if y exceeds model vocab
    vocab_size = model.token_emb.num_embeddings
    assert y.max().item() < vocab_size, f"y contains token > vocab_size ({y.max().item()} >= {vocab_size})"
    logits = model(x)
    loss = F.cross_entropy(logits.view(-1, logits.size(-1)), y.view(-1))
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()
    return loss.item()
--- a/utils.py
+++ b/utils.py
@ -0,0 +1,86 @@
 import matplotlib.pyplot as plt
 import torch
 from torch.nn.functional import softmax
 loss_log = []
 def track_loss(loss):
    loss_log.append(loss)
    if len(loss_log) % 50 == 0:
        plot_loss()
 def plot_loss():
    plt.figure()
    plt.plot(loss_log)
    plt.title("Training Loss Over Time")
    plt.xlabel("Steps")
    plt.ylabel("Loss")
    plt.savefig("loss_plot.png")
    plt.close()
 def update_model_vocab(model, tokenizer):
    new_vocab = tokenizer.vocab_size()
    old_vocab = model.token_emb.num_embeddings
    d_model = model.token_emb.embedding_dim
    if new_vocab > old_vocab:
        # Resize token embedding
        old_weights = model.token_emb.weight.data
        new_emb = torch.nn.Embedding(new_vocab, d_model).to(old_weights.device)
        new_emb.weight.data[:old_vocab] = old_weights
        torch.nn.init.normal_(new_emb.weight.data[old_vocab:], mean=0.0, std=0.02)
        model.token_emb = new_emb
        # Resize output head
        old_head = model.head
        new_head = torch.nn.Linear(d_model, new_vocab).to(old_weights.device)
        new_head.weight.data[:old_vocab] = old_head.weight.data
        new_head.bias.data[:old_vocab] = old_head.bias.data
        torch.nn.init.normal_(new_head.weight.data[old_vocab:], mean=0.0, std=0.02)
        torch.nn.init.zeros_(new_head.bias.data[old_vocab:])
        model.head = new_head
 def sample_reply(model, tokenizer, input_ids, max_len=40):
    model.eval()
    generated = input_ids.clone()
    device = input_ids.device
    for _ in range(max_len):
        # Truncate input to fit positional embedding
        max_seq = model.pos_emb.size(1)
        if generated.size(1) > max_seq:
            generated = generated[:, -max_seq:]
        update_model_vocab(model, tokenizer)
        try:
            logits = model(generated)
        except RuntimeError as e:
            print("CUDA crash in sample_reply — possible vocab mismatch")
            print("Generated:", generated)
            raise e
        next_token_logits = logits[0, -1, :]
        probs = torch.nn.functional.softmax(next_token_logits, dim=-1)
        next_token = probs.argmax(dim=-1, keepdim=True)
        next_token = next_token.unsqueeze(0)  # Shape: [1, 1]
        generated = torch.cat((generated, next_token), dim=1)
        decoded = tokenizer.decode([next_token.item()])
        if decoded in ['\n', '.', '!', '?']:
            break
    output = generated[0].tolist()[input_ids.shape[1]:]
    reply = tokenizer.decode(output).strip()
    print(f"[Reply] {repr(reply)}")
    return reply
 def sample_thought(model, tokenizer, device, context_text, max_len=60):
    prompt = f"[thinking] {context_text}"
    input_ids = tokenizer.encode(prompt, return_tensors=True).to(device)
    return sample_reply(model, tokenizer, input_ids, max_len=max_len)