Trying to use Deepseek to help instead of ChatGPT

2025-01-28 10:33:23 -05:00 · 2025-01-28 10:33:23 -05:00 · ffcc60e205
commit ffcc60e205
parent 326a7b81d7
5 changed files with 108099 additions and 70 deletions
--- a/.gitignore
+++ b/.gitignore
@ -169,3 +169,4 @@ cython_debug/

 # PyPI configuration file
 .pypirc
+/dataset_cache.bin
--- a/config.py
+++ b/config.py
@ -0,0 +1,19 @@
+import os
+import torch
+from dotenv import load_dotenv
+
+load_dotenv()
+
+
+class Config:
+    model_dim = int(os.getenv("MODEL_DIM", 256))
+    num_layers = int(os.getenv("NUM_LAYERS", 4))
+    num_heads = int(os.getenv("HEADS", 8))
+    vocab_size = int(os.getenv("VOCAB_SIZE", 30000))
+    context_size = int(os.getenv("CONTEXT_SIZE", 512))
+    batch_size = int(os.getenv("BATCH_SIZE", 8))
+    lr = float(os.getenv("LEARNING_RATE", 1e-4))
+    device = "cuda" if torch.cuda.is_available() else "cpu"
+
+
+cfg = Config()
--- a/main.py
+++ b/main.py
@ -1,70 +0,0 @@
-import discord
-import requests
-import json
-import os
-from dotenv import load_dotenv
-
-# Load environment variables from .env file
-load_dotenv()
-
-# Replace with your bot token
-BOT_TOKEN = os.getenv('DISCORD_TOKEN')
-
-# Ollama configuration
-OLLAMA_API_URL = 'http://192.168.1.159:11434/api/generate'  # Adjust if your Ollama setup is different
-
-# Set up the Discord client
-intents = discord.Intents.default()
-intents.messages = True
-intents.message_content = True
-
-client = discord.Client(intents=intents)
-
-
-# Function to query Ollama
-def query_ollama(prompt):
-    payload = {
-        "prompt": prompt,
-        "model": "nollama/mythomax-l2-13b:Q4_K_M"  # Replace with your Ollama model
-    }
-    try:
-        response = requests.post(OLLAMA_API_URL, json=payload, stream=True)
-        if response.status_code == 200:
-            collected_response = ""
-            # Stream and parse each line of JSON from the response
-            for line in response.iter_lines(decode_unicode=True):
-                if line.strip():  # Skip empty lines
-                    try:
-                        data = json.loads(line)  # Parse each line as JSON
-                        collected_response += data.get("response", "")
-                        if data.get("done", False):
-                            break
-                    except json.JSONDecodeError as e:
-                        print(f"Error decoding JSON line: {line}, Error: {e}")
-            return collected_response.strip() or "No response from model."
-        else:
-            return f"Error: {response.status_code} - {response.text}"
-    except requests.RequestException as e:
-        return f"Error connecting to Ollama: {str(e)}"
-
-
-# Event for when the bot is ready
-@client.event
-async def on_ready():
-    print(f'We have logged in as {client.user}')
-
-
-# Event for when a message is sent
-@client.event
-async def on_message(message):
-    # Ignore the bot's own messages
-    if message.author == client.user:
-        return
-
-    # Respond to all messages except those in DMs
-    if not isinstance(message.channel, discord.DMChannel):
-        response = query_ollama(message.content.strip())
-        await message.channel.send(response)
-
-# Run the bot
-client.run(BOT_TOKEN)
--- a/tokenizer.json
+++ b/tokenizer.json
--- a/train.py
+++ b/train.py
@ -0,0 +1,159 @@
+import torch
+import torch.nn as nn
+import time
+import os
+import numpy as np
+from torch.utils.data import Dataset, DataLoader
+from datasets import load_dataset
+from tokenizers import Tokenizer, models, trainers, decoders
+from config import cfg
+from torch.cuda.amp import autocast, GradScaler
+
+
+# 1. Tokenizer Implementation (Modified)
+class RubyTokenizer:
+    def __init__(self):
+        self.tokenizer = Tokenizer(models.BPE(unk_token="[UNK]"))
+        self.tokenizer.add_special_tokens(["[PAD]", "[UNK]"])
+        self.tokenizer.decoder = decoders.ByteLevel()
+
+    def train(self, texts):
+        trainer = trainers.BpeTrainer(
+            special_tokens=["[PAD]", "[UNK]"],
+            vocab_size=cfg.vocab_size,
+            min_frequency=2,  # Modified
+            show_progress=True
+        )
+        self.tokenizer.train_from_iterator(
+            (text.split() for text in texts),  # Modified: better word handling
+            trainer=trainer
+        )
+
+    def encode(self, text):
+        return self.tokenizer.encode(text).ids
+
+    @property
+    def pad_id(self):
+        return self.tokenizer.token_to_id("[PAD]")  # Modified
+
+
+# 2. Optimized Dataset (Modified padding handling)
+class CachedDataset(Dataset):
+    def __init__(self):
+        self.data = np.memmap("dataset_cache.bin", 
+                            dtype=np.int32, 
+                            mode="r",
+                            shape=(os.path.getsize("dataset_cache.bin")//4,))
+
+    def __len__(self):
+        return len(self.data) // cfg.context_size
+
+    def __getitem__(self, idx):
+        start = idx * cfg.context_size
+        return torch.from_numpy(self.data[start:start+cfg.context_size].copy())
+
+
+# 3. Transformer Model (Modified padding_idx)
+class Transformer(nn.Module):
+    def __init__(self, pad_id):
+        super().__init__()
+        self.embed = nn.Embedding(
+            cfg.vocab_size, 
+            cfg.model_dim,
+            padding_idx=pad_id  # Modified
+        )
+        self.blocks = nn.ModuleList([
+            nn.TransformerEncoderLayer(
+                d_model=cfg.model_dim,
+                nhead=cfg.num_heads,
+                dim_feedforward=cfg.model_dim*4,
+                batch_first=True
+            ) for _ in range(cfg.num_layers)
+        ])
+        self.head = nn.Linear(cfg.model_dim, cfg.vocab_size)
+
+    def forward(self, x):
+        x = self.embed(x)
+        for block in self.blocks:
+            x = block(x)
+        return self.head(x)
+
+
+# 4. Main Training Process (Critical fixes)
+def main():
+    # Initialize tokenizer
+    tokenizer = RubyTokenizer()
+
+    if not os.path.exists("dataset_cache.bin"):
+        print("Creating dataset cache...")
+        ds = load_dataset("openwebtext", split="train[:5%]")
+
+        # Train and save tokenizer (Modified)
+        if not os.path.exists("tokenizer.json"):
+            print("Training tokenizer...")
+            tokenizer.train([text for text in ds["text"] if len(text) > 100])
+            tokenizer.tokenizer.save("tokenizer.json")
+        else:
+            tokenizer.tokenizer = Tokenizer.from_file("tokenizer.json")
+
+        # Tokenize and cache data (Modified)
+        all_tokens = []
+        pad_id = tokenizer.pad_id
+
+        for text in ds["text"]:
+            tokens = tokenizer.encode(text)
+            tokens = tokens[:cfg.context_size]  # Truncate after tokenization
+            pad_len = cfg.context_size - len(tokens)
+            all_tokens.extend(tokens + [pad_id]*pad_len)  # Modified
+
+        memmap = np.memmap("dataset_cache.bin", 
+                         dtype=np.int32, 
+                         mode="w+", 
+                         shape=(len(all_tokens),))
+        memmap[:] = np.array(all_tokens, dtype=np.int32)
+        del memmap
+
+        # Test tokenizer (Modified)
+        test_text = "The quick brown fox jumps over the lazy dog."
+        print("Tokenizer test:", tokenizer.tokenizer.encode(test_text).tokens)
+
+    # Initialize model with pad_id (Modified)
+    model = Transformer(pad_id=tokenizer.pad_id).to(cfg.device)
+    opt = torch.optim.AdamW(model.parameters(), lr=cfg.lr)
+    scaler = GradScaler()
+
+    dataset = CachedDataset()
+    loader = DataLoader(dataset, 
+                      batch_size=cfg.batch_size,
+                      pin_memory=True,
+                      shuffle=True)
+
+    # Training loop (Modified loss calculation)
+    start = time.time()
+    for step, batch in enumerate(loader):
+        batch = batch.to(cfg.device, non_blocking=True)
+
+        inputs = batch[:, :-1]
+        targets = batch[:, 1:]
+
+        with autocast():
+            outputs = model(inputs)
+            loss = torch.nn.functional.cross_entropy(
+                outputs.reshape(-1, cfg.vocab_size),
+                targets.reshape(-1).long(),
+                ignore_index=tokenizer.pad_id  # Modified
+            )
+
+        scaler.scale(loss).backward()
+        scaler.step(opt)
+        scaler.update()
+        opt.zero_grad()
+
+        if step % 10 == 0:
+            elapsed = time.time() - start
+            speed = (step + 1) * cfg.batch_size / elapsed
+            print(f"Step {step} | Loss: {loss.item():.4f} | Speed: {speed:.1f} samples/s")
+
+
+if __name__ == "__main__":
+    main()