burtenshaw
/

training-scripts

burtenshaw HF Staff commited on 28 days ago

Commit

a6f5f80

verified ·

1 Parent(s): 283e370

Upload train_qwen3_codeforces.py with huggingface_hub

Files changed (1) hide show

train_qwen3_codeforces.py CHANGED Viewed

@@ -13,12 +13,17 @@ import trackio
 from datasets import load_dataset
 from peft import LoraConfig
 from trl import SFTTrainer, SFTConfig
 # Load dataset
 print("📦 Loading dataset...")
 dataset = load_dataset("open-r1/codeforces-cots", split="train")
 print(f"✅ Dataset loaded: {len(dataset)} examples")
 # Create train/eval split
 print("🔀 Creating train/eval split...")
 dataset_split = dataset.train_test_split(test_size=0.02, seed=42)

 from datasets import load_dataset
 from peft import LoraConfig
 from trl import SFTTrainer, SFTConfig
+from transformers import AutoTokenizer
 # Load dataset
 print("📦 Loading dataset...")
 dataset = load_dataset("open-r1/codeforces-cots", split="train")
 print(f"✅ Dataset loaded: {len(dataset)} examples")
+# Keep only the messages column (TRL SFT format)
+dataset = dataset.select_columns(["messages"])
+print(f"✅ Kept only 'messages' column")
 # Create train/eval split
 print("🔀 Creating train/eval split...")
 dataset_split = dataset.train_test_split(test_size=0.02, seed=42)