opus-4b-py-step300-2026-05-02

opus-4b-py-step300-2026-05-02

LoRA adapter trained with reinforcement learning (GRPO via Thinking Machines' Tinker SDK) on the Opus-Magnum puzzle-solving REPL benchmark, snapshotted at training step 300.

Training setup

Base model: Qwen/Qwen3.5-4B
Renderer: qwen3_5_disable_thinking
Representation: python (action language the agent emits)
Adapter: LoRA, rank 32
RL recipe: GRPO via Tinker
Hyperparameters:
- learning_rate = 1e-5
- group_size = 8, groups_per_batch = 16
- max_tokens = 1024, max_trajectory_tokens = 12000
- distances = 1,2,3
- max_steps_off_policy = None
- save_every = 5

Files

adapter_model.safetensors — Tinker raw LoRA adapter weights
adapter_config.json — adapter metadata (rank, alpha, target modules)
README.md — this file

Provenance

Tinker checkpoint:

tinker://37efdd1e-230d-5262-8232-dda7a6bf5106:train:0/sampler_weights/000300

Converting to PEFT format

The files above are in Tinker's raw adapter format. To convert to PEFT format suitable for direct vLLM --lora-modules loading, run on a machine that can host the base model:

from tinker_cookbook.weights import build_lora_adapter

build_lora_adapter(
    base_model="Qwen/Qwen3.5-4B",
    adapter_path="./tinker_adapter",   # this repo's contents
    output_path="./peft_adapter",
)

Downloads last month: -; Downloads are not tracked for this model. How to track

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for GoodStartLabs/opus-4b-py-step300-2026-05-02

Base model

Qwen/Qwen3.5-4B-Base

Finetuned

Qwen/Qwen3.5-4B

Adapter

(195)

this model