going back to a base state

2025-05-05 17:42:31 -04:00 · 2025-05-05 17:42:31 -04:00 · bf6706c72c
commit bf6706c72c
parent 232e62962e
8 changed files with 1 additions and 602 deletions
--- a/.gitignore
+++ b/.gitignore
@ -168,6 +168,6 @@ cython_debug/
 #  option (not recommended) you can uncomment the following to ignore the entire idea folder.
 #.idea/
-data/*
+books/*
 *.json
 models/best_gen.pt
--- a/evolution/ga.py
+++ b/evolution/ga.py
@ -1,34 +0,0 @@
 import random
 import copy
 import torch
 def mutate(model, mutation_rate=0.01):
    new_model = copy.deepcopy(model)
    for param in new_model.parameters():
        if random.random() < mutation_rate:
            noise = torch.randn_like(param) * 0.1
            param.data += noise
    return new_model
 def crossover(parent1, parent2):
    child = copy.deepcopy(parent1)
    for p_child, p2 in zip(child.parameters(), parent2.parameters()):
        mask = torch.rand_like(p_child) < 0.5
        p_child.data[mask] = p2.data[mask]
    return child
 def evolve(population, fitnesses, retain_ratio=0.2, mutation_rate=0.1):
    # rank by fitness (higher is better)
    paired = sorted(zip(fitnesses, population), key=lambda x: x[0], reverse=True)
    retain_len = int(len(paired) * retain_ratio)
    parents = [ind for _, ind in paired[:retain_len]]
    next_gen = parents.copy()
    while len(next_gen) < len(population):
        p1, p2 = random.sample(parents, 2)
        child = crossover(p1, p2)
        child = mutate(child, mutation_rate)
        next_gen.append(child)
    return next_gen
--- a/main.py
+++ b/main.py
@ -1,132 +0,0 @@
 import os
 import glob
 import torch
 import torch.nn as nn
 import torch.optim as optim
 import discord
 from dotenv import load_dotenv
 from models.transformer import TransformerGenerator
 from utils.tokenizer import HybridTokenizer
 # ──────── Setup ────────
 load_dotenv()
 TOKEN = os.getenv("DISCORD_TOKEN")
 if not TOKEN:
    raise RuntimeError("Missing DISCORD_TOKEN in .env")
 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
 # print(f"[INFO] Using device: {device}")
 # ──────── Tokenizer & Vocab ────────
 vocab_file = os.path.join("vocab", "vocab.json")
 tokenizer = HybridTokenizer(vocab_file)
 # If vocab.json doesn’t exist yet, build it from your books:
 if not tokenizer.char_to_id:
    book_paths = glob.glob(os.path.join("data", "books", "*.txt"))
    texts = []
    for path in book_paths:
        with open(path, "r", encoding="utf-8") as f:
            texts.append(f.read())
    tokenizer.build_vocab(texts)
    print(f"[INFO] Built vocab ({len(tokenizer.word_to_id)} words + "
          f"{len(tokenizer.char_to_id)} chars)")
 # ──────── Model Setup ────────
 vocab_size = len(tokenizer.word_to_id) + len(tokenizer.char_to_id)
 embed_dim, num_heads, mlp_dim, num_layers = 256, 8, 512, 4
 max_seq_len = 128
 model = TransformerGenerator(
    vocab_size, embed_dim, num_heads, mlp_dim, num_layers, max_seq_len
 ).to(device)
 ckpt = os.path.join("models", "best_gen.pt")
 if os.path.isfile(ckpt):
    state = torch.load(ckpt, map_location=device)
    model.load_state_dict(state)
    print("[INFO] Loaded checkpoint models/best_gen.pt")
 else:
    print("[INFO] No checkpoint found; starting from random weights")
 model.eval()
 # ──────── Online Trainer ────────
 class OnlineTrainer:
    """Fine-tune the generator on each new exchange."""
    def __init__(self, model, lr=1e-5):
        self.model = model
        self.optimizer = optim.Adam(model.parameters(), lr=lr)
        self.criterion = nn.CrossEntropyLoss()
        self.device = device
    def train_example(self, text: str):
        # simple causal training: predict each next token in `text`
        token_ids = tokenizer.encode(text)
        if len(token_ids) < 2:
            return
        inp = torch.tensor([token_ids[:-1]], device=self.device)
        tgt = torch.tensor([token_ids[1:]], device=self.device)
        self.model.train()
        self.optimizer.zero_grad()
        logits = self.model(inp)  # (1, seq_len-1, vocab_size)
        loss = self.criterion(
            logits.view(-1, logits.size(-1)),
            tgt.view(-1)
        )
        loss.backward()
        self.optimizer.step()
        self.model.eval()
        # persist updated weights
        os.makedirs("models", exist_ok=True)
        torch.save(self.model.state_dict(), ckpt)
 trainer = OnlineTrainer(model)
 # ──────── Discord Client ────────
 intents = discord.Intents.default()
 intents.message_content = True
 client = discord.Client(intents=intents)
@client.event
 async def on_ready():
    print(f"Ruby is online as {client.user}")
@client.event
 async def on_message(message):
    # ignore Ruby’s own messages
    if message.author == client.user:
        return
    content = message.content.strip()
    if not content:
        return
    # → Generate Ruby’s reply
    ids = tokenizer.encode(content)
    inp = torch.tensor([ids], dtype=torch.long, device=device)
    with torch.no_grad():
        out_ids = model(inp).argmax(-1).squeeze().cpu().tolist()
    reply = tokenizer.decode(out_ids)
    await message.channel.send(reply)
    # → Optionally train on this new example
    sample = f"User: {content}\nRuby: {reply}"
    trainer.train_example(sample)
 # ──────── Run ────────
 client.run(TOKEN)
--- a/models/discriminator.py
+++ b/models/discriminator.py
@ -1,40 +0,0 @@
 import os
 import discord
 from dotenv import load_dotenv
 from ruby_heart import RubyHeart
 load_dotenv()
 TOKEN = os.getenv("DISCORD_TOKEN")
 if not TOKEN:
    raise RuntimeError("DISCORD_TOKEN missing in .env")
 # instantiate your “Ruby” engine
 ruby = RubyHeart()  # uses GPU if available
 intents = discord.Intents.default()
 intents.message_content = True
 client = discord.Client(intents=intents)
@client.event
 async def on_ready():
    print(f"Ruby is online as {client.user}")
@client.event
 async def on_message(message):
    if message.author == client.user:
        return
    content = message.content.strip()
    if not content:
        return
    # generate + train in one call
    reply = ruby.generate(content)
    await message.channel.send(reply)
    ruby.train_on(f"User: {content}\nRuby: {reply}")
 client.run(TOKEN)
--- a/models/transformer.py
+++ b/models/transformer.py
@ -1,80 +0,0 @@
 import torch
 import torch.nn as nn
 class MultiHeadSelfAttention(nn.Module):
    def __init__(self, embed_dim, num_heads):
        super().__init__()
        assert embed_dim % num_heads == 0
        self.embed_dim = embed_dim
        self.num_heads = num_heads
        self.head_dim = embed_dim // num_heads
        self.qkv_proj = nn.Linear(embed_dim, embed_dim * 3)
        self.out_proj = nn.Linear(embed_dim, embed_dim)
    def forward(self, x):
        # x: (batch, seq_len, embed_dim)
        b, t, e = x.size()
        qkv = self.qkv_proj(x)  # (b, t, 3*e)
        q, k, v = qkv.chunk(3, dim=-1)
        # reshape for multi-head
        q = q.view(b, t, self.num_heads, self.head_dim).transpose(1, 2)
        k = k.view(b, t, self.num_heads, self.head_dim).transpose(1, 2)
        v = v.view(b, t, self.num_heads, self.head_dim).transpose(1, 2)
        attn = torch.matmul(q, k.transpose(-2, -1)) / (self.head_dim**0.5)
        attn = torch.softmax(attn, dim=-1)
        out = torch.matmul(attn, v).transpose(1, 2).contiguous()
        out = out.view(b, t, e)
        return self.out_proj(out)
 class TransformerBlock(nn.Module):
    def __init__(self, embed_dim, num_heads, mlp_dim, dropout=0.1):
        super().__init__()
        self.attn = MultiHeadSelfAttention(embed_dim, num_heads)
        self.ln1 = nn.LayerNorm(embed_dim)
        self.ff = nn.Sequential(
            nn.Linear(embed_dim, mlp_dim),
            nn.ReLU(),
            nn.Linear(mlp_dim, embed_dim),
        )
        self.ln2 = nn.LayerNorm(embed_dim)
        self.dropout = nn.Dropout(dropout)
    def forward(self, x):
        x = x + self.dropout(self.attn(self.ln1(x)))
        x = x + self.dropout(self.ff(self.ln2(x)))
        return x
 class TransformerGenerator(nn.Module):
    def __init__(
        self,
        vocab_size: int,
        embed_dim: int,
        num_heads: int,
        mlp_dim: int,
        num_layers: int,
        max_seq_len: int,
    ):
        super().__init__()
        self.token_emb = nn.Embedding(vocab_size, embed_dim)
        self.pos_emb = nn.Embedding(max_seq_len, embed_dim)
        self.layers = nn.ModuleList(
            [
                TransformerBlock(embed_dim, num_heads, mlp_dim)
                for _ in range(num_layers)
            ]
        )
        self.ln = nn.LayerNorm(embed_dim)
        self.head = nn.Linear(embed_dim, vocab_size)
    def forward(self, x):
        # x: (batch, seq_len)
        b, t = x.size()
        positions = torch.arange(t, device=x.device).unsqueeze(0)
        x = self.token_emb(x) + self.pos_emb(positions)
        for layer in self.layers:
            x = layer(x)
        x = self.ln(x)
        return self.head(x)
--- a/ruby_heart.py
+++ b/ruby_heart.py
@ -1,116 +0,0 @@
 import glob
 import os
 import torch
 import torch.nn as nn
 import torch.optim as optim
 from models.transformer import TransformerGenerator
 from models.discriminator import Discriminator
 from utils.tokenizer import HybridTokenizer
 import torch.nn.functional as F
 class RubyHeart:
    def __init__(
        self,
        books_dir="data/books",
        vocab_file="vocab/vocab.json",
        model_file="models/best_gen.pt",
        device=None,
    ):
        self.device = device or torch.device(
            "cuda" if torch.cuda.is_available() else "cpu"
        )
        # tokenizer & vocab
        self.tokenizer = HybridTokenizer(vocab_file)
        if not self.tokenizer.char_to_id:
            self._build_vocab(books_dir)
        # model init
        vs = (
            len(self.tokenizer.word_to_id)
            + len(self.tokenizer.char_to_id)
        )
        self.model = TransformerGenerator(
            vocab_size=vs,
            embed_dim=256,
            num_heads=8,
            mlp_dim=512,
            num_layers=4,
            max_seq_len=128,
        ).to(self.device)
        self.model_file = model_file
        self._load_checkpoint(model_file)
        # online trainer
        self.trainer = self._make_trainer()
    def _build_vocab(self, books_dir):
        paths = glob.glob(os.path.join(books_dir, "*.txt"))
        texts = [open(p, encoding="utf-8").read() for p in paths]
        self.tokenizer.build_vocab(texts)
    def _load_checkpoint(self, path):
        if os.path.isfile(path):
            state = torch.load(path, map_location=self.device,
                               weights_only=True)
            self.model.load_state_dict(state)
        # else: start from scratch
    def _make_trainer(self, lr=1e-5):
        opt = optim.Adam(self.model.parameters(), lr=lr)
        loss_fn = nn.CrossEntropyLoss()
        return {"opt": opt, "loss": loss_fn}
    @staticmethod
    def _top_k_top_p(logits, top_k=50, top_p=0.9):
        # (same filtering code as before)
        if top_k > 0:
            kth = torch.topk(logits, top_k)[0][..., -1, None]
            logits = torch.where(
                logits < kth, float("-inf"), logits
            )
        if top_p > 0.0:
            sorted_logits, indices = torch.sort(
                logits, descending=True
            )
            cum_probs = F.softmax(sorted_logits, dim=-1).cumsum(dim=-1)
            mask = cum_probs > top_p
            mask[..., 1:] = mask[..., :-1].clone()
            mask[..., 0] = False
            remove = indices[mask]
            logits[remove] = float("-inf")
        return logits
    def generate(self, prompt, max_len=64, temp=1.0, top_k=50, top_p=0.9):
        self.model.eval()
        ids = self.tokenizer.encode(prompt)
        input_ids = torch.tensor([ids], device=self.device)
        with torch.no_grad():
            for _ in range(max_len):
                logits = self.model(input_ids)[:, -1, :] / temp
                filt = self._top_k_top_p(logits, top_k, top_p)
                probs = F.softmax(filt, dim=-1)
                nxt = torch.multinomial(probs, 1)
                input_ids = torch.cat([input_ids, nxt], dim=-1)
        return self.tokenizer.decode(input_ids[0].cpu().tolist())
    def train_on(self, text):
        ids = self.tokenizer.encode(text)
        if len(ids) < 2:
            return
        inp = torch.tensor([ids[:-1]], device=self.device)
        tgt = torch.tensor([ids[1:]], device=self.device)
        self.model.train()
        self.trainer["opt"].zero_grad()
        logits = self.model(inp)
        loss = self.trainer["loss"](
            logits.view(-1, logits.size(-1)),
            tgt.view(-1),
        )
        loss.backward()
        self.trainer["opt"].step()
        torch.save(self.model.state_dict(), self.model_file)
        self.model.eval()
--- a/training/train.py
+++ b/training/train.py
@ -1,93 +0,0 @@
 import glob
 import os
 import torch
 import torch.nn as nn
 import torch.optim as optim
 from evolution.ga import evolve
 from models.transformer import TransformerGenerator
 from models.discriminator import Discriminator
 from utils.tokenizer import HybridTokenizer
 def chunked(lst, size):
    """Yield successive chunks from a list."""
    for i in range(0, len(lst), size):
        yield lst[i:i + size]
 def train():
    vocab_file = os.path.join('vocab', 'vocab.json')
    tokenizer = HybridTokenizer(vocab_file)
    book_paths = glob.glob(os.path.join('data', 'books', '*.txt'))
    texts = []
    for path in book_paths:
        with open(path, 'r', encoding='utf-8') as f:
            texts.append(f.read())
    if not tokenizer.char_to_id:
        tokenizer.build_vocab(texts)
    seq_len = 128
    sequences = []
    for text in texts:
        token_ids = tokenizer.encode(text)
        for i in range(0, len(token_ids) - seq_len, seq_len):
            sequences.append(
                torch.tensor(token_ids[i:i + seq_len], dtype=torch.long)
            )
    device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
    pop_size, generations = 10, 50
    vocab_size = len(tokenizer.word_to_id) + len(tokenizer.char_to_id)
    embed_dim, num_heads, mlp_dim, num_layers = 256, 8, 512, 4
    population = [
        TransformerGenerator(
            vocab_size, embed_dim, num_heads, mlp_dim, num_layers, seq_len
        ).to(device)
        for _ in range(pop_size)
    ]
    discriminator = Discriminator(vocab_size, embed_dim).to(device)
    disc_opt = optim.Adam(discriminator.parameters(), lr=1e-4)
    bce = nn.BCEWithLogitsLoss()
    for gen_idx in range(generations):
        # Evaluate fitness
        fitnesses = []
        for g in population:
            inp = torch.randint(0, vocab_size, (1, seq_len), device=device)
            out = g(inp).argmax(-1)
            score = discriminator(out)
            fitnesses.append(-bce(score, torch.ones_like(score)).item())
        # Train discriminator
        for batch in chunked(sequences, 8):
            real = torch.stack(batch).to(device)
            fake_in = torch.randint(0, vocab_size, real.shape, device=device)
            fake = population[0](fake_in).argmax(-1).detach()
            disc_opt.zero_grad()
            loss_r = bce(
                discriminator(real),
                torch.ones(real.size(0), 1, device=device)
            )
            loss_f = bce(
                discriminator(fake),
                torch.zeros(fake.size(0), 1, device=device)
            )
            (loss_r + loss_f).div_(2).backward()
            disc_opt.step()
        # Evolve population
        population = evolve(population, fitnesses)
        print(f'Gen {gen_idx:03d}: best fitness = {max(fitnesses):.4f}')
    os.makedirs('models', exist_ok=True)
    best = population[fitnesses.index(max(fitnesses))]
    torch.save(best.state_dict(), 'models/best_gen.pt')
 # kick off training immediately (no __main__ guard)
 train()
--- a/utils/tokenizer.py
+++ b/utils/tokenizer.py
@ -1,106 +0,0 @@
 import json
 import os
 import re
 import unicodedata
 class HybridTokenizer:
    """Hybrid word/character tokenizer with vocab persistence."""
    def __init__(
        self,
        vocab_file,
        min_word_freq=5,
        max_vocab_size=10000
    ):
        self.vocab_file = vocab_file
        if os.path.exists(vocab_file):
            with open(vocab_file, 'r', encoding='utf-8') as f:
                data = json.load(f)
                self.word_to_id = data.get('word_to_id', {})
                self.char_to_id = data.get('char_to_id', {})
        else:
            self.word_to_id = {'<unk>': 0}
            self.char_to_id = {}
        self.min_word_freq = min_word_freq
        self.max_vocab_size = max_vocab_size
    @staticmethod
    def _clean_text(text):
        text = unicodedata.normalize('NFKC', text)
        text = re.sub(r'[\r\n\t]+', ' ', text)
        text = ''.join(ch for ch in text if ch.isprintable())
        return text
    def build_vocab(self, texts):
        """Build word and character vocabs from a list of texts."""
        word_freq = {}
        char_set = set()
        for text in texts:
            text = self._clean_text(text)
            for word in text.split():
                # Preserve Title-case words, lowercase everything else
                if word[0].isupper() and word[1:].islower():
                    norm = word
                else:
                    norm = word.lower()
                word_freq[norm] = word_freq.get(norm, 0) + 1
                char_set.update(norm)
        # Pick top words by freq
        words = [
            w for w, f in sorted(
                word_freq.items(),
                key=lambda x: x[1],
                reverse=True
            ) if f >= self.min_word_freq
        ]
        avail = self.max_vocab_size - len(self.word_to_id)
        for w in words[:avail]:
            if w not in self.word_to_id:
                self.word_to_id[w] = len(self.word_to_id)
        # Now assign chars after all words
        idx = len(self.word_to_id)
        for ch in sorted(char_set):
            if ch not in self.char_to_id:
                self.char_to_id[ch] = idx
                idx += 1
        os.makedirs(os.path.dirname(self.vocab_file), exist_ok=True)
        with open(self.vocab_file, 'w', encoding='utf-8') as f:
            json.dump({
                'word_to_id': self.word_to_id,
                'char_to_id': self.char_to_id
            }, f, ensure_ascii=False, indent=2)
    def encode(self, text):
        """Convert text into a list of token IDs."""
        text = self._clean_text(text)
        ids = []
        for word in text.split():
            if word[0].isupper() and word[1:].islower():
                norm = word
            else:
                norm = word.lower()
            if norm in self.word_to_id:
                ids.append(self.word_to_id[norm])
            else:
                for ch in norm:
                    ids.append(
                        self.char_to_id.get(ch, self.word_to_id['<unk>'])
                    )
        return ids
    def decode(self, ids):
        """Convert a list of token IDs back into text."""
        inv_word = {v: k for k, v in self.word_to_id.items()}
        inv_char = {v: k for k, v in self.char_to_id.items()}
        tokens = []
        for i in ids:
            if i in inv_word:
                tokens.append(inv_word[i])
            else:
                tokens.append(inv_char.get(i, '<unk>'))
        return ' '.join(tokens)