Hello

Browse files

Files changed (10) hide show

README.md +267 -3
config.json +39 -0
generation_config.json +7 -0
gitattributes +35 -0
model.safetensors.index.json +635 -0
output-00001-of-00002.safetensors +3 -0
output-00002-of-00002.safetensors +3 -0
special_tokens_map.json +51 -0
tokenizer.json +0 -0
tokenizer_config.json +188 -0

README.md CHANGED Viewed

@@ -1,3 +1,267 @@
----
-license: apache-2.0
----

+---
+pipeline_tag: text-generation
+base_model: ibm-granite/granite-20b-code-base
+inference: true
+license: apache-2.0
+datasets:
+- bigcode/commitpackft
+- TIGER-Lab/MathInstruct
+- meta-math/MetaMathQA
+- glaiveai/glaive-code-assistant-v3
+- glaive-function-calling-v2
+- bugdaryan/sql-create-context-instruction
+- garage-bAInd/Open-Platypus
+- nvidia/HelpSteer
+metrics:
+- code_eval
+library_name: transformers
+tags:
+- code
+model-index:
+- name: granite-20b-code-instruct
+  results:
+  - task:
+      type: text-generation
+    dataset:
+        type: bigcode/humanevalpack
+        name: HumanEvalSynthesis(Python)
+    metrics:
+    - name: pass@1
+      type: pass@1
+      value: 60.4
+      veriefied: false
+  - task:
+      type: text-generation
+    dataset:
+        type: bigcode/humanevalpack
+        name: HumanEvalSynthesis(JavaScript)
+    metrics:
+    - name: pass@1
+      type: pass@1
+      value: 53.7
+      veriefied: false
+  - task:
+      type: text-generation
+    dataset:
+        type: bigcode/humanevalpack
+        name: HumanEvalSynthesis(Java)
+    metrics:
+    - name: pass@1
+      type: pass@1
+      value: 58.5
+      veriefied: false
+  - task:
+      type: text-generation
+    dataset:
+        type: bigcode/humanevalpack
+        name: HumanEvalSynthesis(Go)
+    metrics:
+    - name: pass@1
+      type: pass@1
+      value: 42.1
+      veriefied: false
+  - task:
+      type: text-generation
+    dataset:
+        type: bigcode/humanevalpack
+        name: HumanEvalSynthesis(C++)
+    metrics:
+    - name: pass@1
+      type: pass@1
+      value: 45.7
+      veriefied: false
+  - task:
+      type: text-generation
+    dataset:
+        type: bigcode/humanevalpack
+        name: HumanEvalSynthesis(Rust)
+    metrics:
+    - name: pass@1
+      type: pass@1
+      value: 42.7
+      veriefied: false
+  - task:
+      type: text-generation
+    dataset:
+        type: bigcode/humanevalpack
+        name:  HumanEvalExplain(Python)
+    metrics:
+    - name: pass@1
+      type: pass@1
+      value: 44.5
+      veriefied: false
+  - task:
+      type: text-generation
+    dataset:
+        type: bigcode/humanevalpack
+        name:  HumanEvalExplain(JavaScript)
+    metrics:
+    - name: pass@1
+      type: pass@1
+      value: 42.7
+      veriefied: false
+  - task:
+      type: text-generation
+    dataset:
+        type: bigcode/humanevalpack
+        name:  HumanEvalExplain(Java)
+    metrics:
+    - name: pass@1
+      type: pass@1
+      value: 49.4
+      veriefied: false
+  - task:
+      type: text-generation
+    dataset:
+        type: bigcode/humanevalpack
+        name:  HumanEvalExplain(Go)
+    metrics:
+    - name: pass@1
+      type: pass@1
+      value: 32.3
+      veriefied: false
+  - task:
+      type: text-generation
+    dataset:
+        type: bigcode/humanevalpack
+        name:  HumanEvalExplain(C++)
+    metrics:
+    - name: pass@1
+      type: pass@1
+      value: 42.1
+      veriefied: false
+  - task:
+      type: text-generation
+    dataset:
+        type: bigcode/humanevalpack
+        name:  HumanEvalExplain(Rust)
+    metrics:
+    - name: pass@1
+      type: pass@1
+      value: 18.3
+      veriefied: false
+  - task:
+      type: text-generation
+    dataset:
+        type: bigcode/humanevalpack
+        name:  HumanEvalFix(Python)
+    metrics:
+    - name: pass@1
+      type: pass@1
+      value: 43.9
+      veriefied: false
+  - task:
+      type: text-generation
+    dataset:
+        type: bigcode/humanevalpack
+        name:  HumanEvalFix(JavaScript)
+    metrics:
+    - name: pass@1
+      type: pass@1
+      value: 43.9
+      veriefied: false
+  - task:
+      type: text-generation
+    dataset:
+        type: bigcode/humanevalpack
+        name:  HumanEvalFix(Java)
+    metrics:
+    - name: pass@1
+      type: pass@1
+      value: 45.7
+      veriefied: false
+  - task:
+      type: text-generation
+    dataset:
+        type: bigcode/humanevalpack
+        name:  HumanEvalFix(Go)
+    metrics:
+    - name: pass@1
+      type: pass@1
+      value: 41.5
+      veriefied: false
+  - task:
+      type: text-generation
+    dataset:
+        type: bigcode/humanevalpack
+        name:  HumanEvalFix(C++)
+    metrics:
+    - name: pass@1
+      type: pass@1
+      value: 41.5
+      veriefied: false
+  - task:
+      type: text-generation
+    dataset:
+        type: bigcode/humanevalpack
+        name:  HumanEvalFix(Rust)
+    metrics:
+    - name: pass@1
+      type: pass@1
+      value: 29.9
+      veriefied: false
+---
+![image/png](https://cdn-uploads.huggingface.co/production/uploads/62cd5057674cdb524450093d/1hzxoPwqkBJXshKVVe6_9.png)
+# Granite-20B-Code-Instruct
+## Model Summary
+**Granite-20B-Code-Instruct** is a 20B parameter model fine tuned from *Granite-20B-Code-Base* on a combination of **permissively licensed** instruction data to enhance instruction following capabilities including logical reasoning and problem-solving skills.
+- **Developers:** IBM Research
+- **GitHub Repository:** [ibm-granite/granite-code-models](https://github.com/ibm-granite/granite-code-models)
+- **Paper:** [Granite Code Models: A Family of Open Foundation Models for Code Intelligence](https://github.com/ibm-granite/granite-code-models/blob/main/paper.pdf)
+- **Release Date**: May 6th, 2024
+- **License:** [Apache 2.0](https://www.apache.org/licenses/LICENSE-2.0).
+## Usage
+### Intended use
+The model is designed to respond to coding related instructions and can be used to build coding assitants.
+<!-- TO DO: Check starcoder2 instruct code example that includes the template https://huggingface.co/bigcode/starcoder2-15b-instruct-v0.1 -->
+### Generation
+This is a simple example of how to use **Granite-20B-Code-Instruct** model.
+```python
+import torch
+from transformers import AutoModelForCausalLM, AutoTokenizer
+device = "cuda" # or "cpu"
+model_path = "ibm-granite/granite-20b-code-instruct"
+tokenizer = AutoTokenizer.from_pretrained(model_path)
+# drop device_map if running on CPU
+model = AutoModelForCausalLM.from_pretrained(model_path, device_map=device)
+model.eval()
+# change input text as desired
+chat = [
+    { "role": "user", "content": "Write a code to find the maximum value in a list of numbers." },
+]
+chat = tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)
+# tokenize the text
+input_tokens = tokenizer(chat, return_tensors="pt")
+# transfer tokenized inputs to the device
+for i in input_tokens:
+    input_tokens[i] = input_tokens[i].to(device)
+# generate output tokens
+output = model.generate(**input_tokens, max_new_tokens=100)
+# decode output tokens into text
+output = tokenizer.batch_decode(output)
+# loop over the batch to print, in this example the batch size is 1
+for i in output:
+    print(i)
+```
+<!-- TO DO: Check this part -->
+## Training Data
+Granite Code Instruct models are trained on the following types of data.
+* Code Commits Datasets: we sourced code commits data from the [CommitPackFT](https://huggingface.co/datasets/bigcode/commitpackft) dataset, a filtered version of the full CommitPack dataset. From CommitPackFT dataset, we only consider data for 92 programming languages. Our inclusion criteria boils down to selecting programming languages common across CommitPackFT and the 116 languages that we considered to pretrain the code-base model (*Granite-20B-Code-Base*).
+* Math Datasets: We consider two high-quality math datasets, [MathInstruct](https://huggingface.co/datasets/TIGER-Lab/MathInstruct) and [MetaMathQA](https://huggingface.co/datasets/meta-math/MetaMathQA). Due to license issues, we filtered out GSM8K-RFT and Camel-Math from MathInstruct dataset.
+* Code Instruction Datasets: We use [Glaive-Code-Assistant-v3](https://huggingface.co/datasets/glaiveai/glaive-code-assistant-v3), [Glaive-Function-Calling-v2](https://huggingface.co/datasets/glaiveai/glaive-function-calling-v2), [NL2SQL11](https://huggingface.co/datasets/bugdaryan/sql-create-context-instruction) and a small collection of synthetic API calling datasets.
+* Language Instruction Datasets: We include high-quality datasets such as [HelpSteer](https://huggingface.co/datasets/nvidia/HelpSteer) and an open license-filtered version of [Platypus](https://huggingface.co/datasets/garage-bAInd/Open-Platypus). We also include a collection of hardcoded prompts to ensure our model generates correct outputs given inquiries about its name or developers.
+## Infrastructure
+We train the Granite Code models using two of IBM's super computing clusters, namely Vela and Blue Vela, both outfitted with NVIDIA A100 and H100 GPUs respectively. These clusters provide a scalable and efficient infrastructure for training our models over thousands of GPUs.
+## Ethical Considerations and Limitations
+Granite code instruct models are primarily finetuned using instruction-response pairs across a specific set of programming languages. Thus, their performance may be limited with out-of-domain programming languages. In this situation, it is beneficial providing few-shot examples to steer the model's output. Moreover, developers should perform safety testing and target-specific tuning before deploying these models on critical applications. The model also inherits ethical considerations and limitations from its base model. For more information, please refer to *[Granite-20B-Code-Base](https://huggingface.co/ibm-granite/granite-20b-code-base)* model card.

config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+    "activation_function": "gelu_pytorch_tanh",
+    "architectures": [
+        "GPTBigCodeForCausalLM"
+    ],
+    "attention_softmax_in_fp32": true,
+    "attn_pdrop": 0.1,
+    "bos_token_id": 0,
+    "embd_pdrop": 0.1,
+    "eos_token_id": 0,
+    "initializer_range": 0.02,
+    "layer_norm_epsilon": 1e-05,
+    "model_type": "gpt_bigcode",
+    "multi_query": true,
+    "n_embd": 6144,
+    "n_head": 48,
+    "n_inner": 24576,
+    "n_layer": 52,
+    "n_positions": 8192,
+    "pad_token_id": 4,
+    "resid_pdrop": 0.1,
+    "scale_attention_softmax_in_fp32": true,
+    "scale_attn_weights": true,
+    "torch_dtype": "bfloat16",
+    "transformers_version": "4.41.0.dev0",
+    "use_cache": true,
+    "vocab_size": 49152,
+    "quantization_config": {
+        "quant_method": "exl2",
+        "version": "0.0.20",
+        "bits": 4.0,
+        "head_bits": 6,
+        "calibration": {
+            "rows": 100,
+            "length": 2048,
+            "dataset": "(default)"
+        }
+    }
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 0,
+  "eos_token_id": 0,
+  "pad_token_id": 4,
+  "transformers_version": "4.41.0.dev0"
+}

gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,635 @@

+{
+  "metadata": {
+    "total_size": 40133986304
+  },
+  "weight_map": {
+    "transformer.h.0.attn.c_attn.bias": "model-00001-of-00009.safetensors",
+    "transformer.h.0.attn.c_attn.weight": "model-00001-of-00009.safetensors",
+    "transformer.h.0.attn.c_proj.bias": "model-00001-of-00009.safetensors",
+    "transformer.h.0.attn.c_proj.weight": "model-00001-of-00009.safetensors",
+    "transformer.h.0.ln_1.bias": "model-00001-of-00009.safetensors",
+    "transformer.h.0.ln_1.weight": "model-00001-of-00009.safetensors",
+    "transformer.h.0.ln_2.bias": "model-00001-of-00009.safetensors",
+    "transformer.h.0.ln_2.weight": "model-00001-of-00009.safetensors",
+    "transformer.h.0.mlp.c_fc.bias": "model-00001-of-00009.safetensors",
+    "transformer.h.0.mlp.c_fc.weight": "model-00001-of-00009.safetensors",
+    "transformer.h.0.mlp.c_proj.bias": "model-00001-of-00009.safetensors",
+    "transformer.h.0.mlp.c_proj.weight": "model-00001-of-00009.safetensors",
+    "transformer.h.1.attn.c_attn.bias": "model-00001-of-00009.safetensors",
+    "transformer.h.1.attn.c_attn.weight": "model-00001-of-00009.safetensors",
+    "transformer.h.1.attn.c_proj.bias": "model-00001-of-00009.safetensors",
+    "transformer.h.1.attn.c_proj.weight": "model-00001-of-00009.safetensors",
+    "transformer.h.1.ln_1.bias": "model-00001-of-00009.safetensors",
+    "transformer.h.1.ln_1.weight": "model-00001-of-00009.safetensors",
+    "transformer.h.1.ln_2.bias": "model-00001-of-00009.safetensors",
+    "transformer.h.1.ln_2.weight": "model-00001-of-00009.safetensors",
+    "transformer.h.1.mlp.c_fc.bias": "model-00001-of-00009.safetensors",
+    "transformer.h.1.mlp.c_fc.weight": "model-00001-of-00009.safetensors",
+    "transformer.h.1.mlp.c_proj.bias": "model-00001-of-00009.safetensors",
+    "transformer.h.1.mlp.c_proj.weight": "model-00001-of-00009.safetensors",
+    "transformer.h.10.attn.c_attn.bias": "model-00002-of-00009.safetensors",
+    "transformer.h.10.attn.c_attn.weight": "model-00002-of-00009.safetensors",
+    "transformer.h.10.attn.c_proj.bias": "model-00002-of-00009.safetensors",
+    "transformer.h.10.attn.c_proj.weight": "model-00002-of-00009.safetensors",
+    "transformer.h.10.ln_1.bias": "model-00002-of-00009.safetensors",
+    "transformer.h.10.ln_1.weight": "model-00002-of-00009.safetensors",
+    "transformer.h.10.ln_2.bias": "model-00002-of-00009.safetensors",
+    "transformer.h.10.ln_2.weight": "model-00002-of-00009.safetensors",
+    "transformer.h.10.mlp.c_fc.bias": "model-00002-of-00009.safetensors",
+    "transformer.h.10.mlp.c_fc.weight": "model-00002-of-00009.safetensors",
+    "transformer.h.10.mlp.c_proj.bias": "model-00002-of-00009.safetensors",
+    "transformer.h.10.mlp.c_proj.weight": "model-00002-of-00009.safetensors",
+    "transformer.h.11.attn.c_attn.bias": "model-00002-of-00009.safetensors",
+    "transformer.h.11.attn.c_attn.weight": "model-00002-of-00009.safetensors",
+    "transformer.h.11.attn.c_proj.bias": "model-00002-of-00009.safetensors",
+    "transformer.h.11.attn.c_proj.weight": "model-00002-of-00009.safetensors",
+    "transformer.h.11.ln_1.bias": "model-00002-of-00009.safetensors",
+    "transformer.h.11.ln_1.weight": "model-00002-of-00009.safetensors",
+    "transformer.h.11.ln_2.bias": "model-00002-of-00009.safetensors",
+    "transformer.h.11.ln_2.weight": "model-00002-of-00009.safetensors",
+    "transformer.h.11.mlp.c_fc.bias": "model-00002-of-00009.safetensors",
+    "transformer.h.11.mlp.c_fc.weight": "model-00002-of-00009.safetensors",
+    "transformer.h.11.mlp.c_proj.bias": "model-00002-of-00009.safetensors",
+    "transformer.h.11.mlp.c_proj.weight": "model-00002-of-00009.safetensors",
+    "transformer.h.12.attn.c_attn.bias": "model-00002-of-00009.safetensors",
+    "transformer.h.12.attn.c_attn.weight": "model-00002-of-00009.safetensors",
+    "transformer.h.12.attn.c_proj.bias": "model-00003-of-00009.safetensors",
+    "transformer.h.12.attn.c_proj.weight": "model-00003-of-00009.safetensors",
+    "transformer.h.12.ln_1.bias": "model-00002-of-00009.safetensors",
+    "transformer.h.12.ln_1.weight": "model-00002-of-00009.safetensors",
+    "transformer.h.12.ln_2.bias": "model-00003-of-00009.safetensors",
+    "transformer.h.12.ln_2.weight": "model-00003-of-00009.safetensors",
+    "transformer.h.12.mlp.c_fc.bias": "model-00003-of-00009.safetensors",
+    "transformer.h.12.mlp.c_fc.weight": "model-00003-of-00009.safetensors",
+    "transformer.h.12.mlp.c_proj.bias": "model-00003-of-00009.safetensors",
+    "transformer.h.12.mlp.c_proj.weight": "model-00003-of-00009.safetensors",
+    "transformer.h.13.attn.c_attn.bias": "model-00003-of-00009.safetensors",
+    "transformer.h.13.attn.c_attn.weight": "model-00003-of-00009.safetensors",
+    "transformer.h.13.attn.c_proj.bias": "model-00003-of-00009.safetensors",
+    "transformer.h.13.attn.c_proj.weight": "model-00003-of-00009.safetensors",
+    "transformer.h.13.ln_1.bias": "model-00003-of-00009.safetensors",
+    "transformer.h.13.ln_1.weight": "model-00003-of-00009.safetensors",
+    "transformer.h.13.ln_2.bias": "model-00003-of-00009.safetensors",
+    "transformer.h.13.ln_2.weight": "model-00003-of-00009.safetensors",
+    "transformer.h.13.mlp.c_fc.bias": "model-00003-of-00009.safetensors",
+    "transformer.h.13.mlp.c_fc.weight": "model-00003-of-00009.safetensors",
+    "transformer.h.13.mlp.c_proj.bias": "model-00003-of-00009.safetensors",
+    "transformer.h.13.mlp.c_proj.weight": "model-00003-of-00009.safetensors",
+    "transformer.h.14.attn.c_attn.bias": "model-00003-of-00009.safetensors",
+    "transformer.h.14.attn.c_attn.weight": "model-00003-of-00009.safetensors",
+    "transformer.h.14.attn.c_proj.bias": "model-00003-of-00009.safetensors",
+    "transformer.h.14.attn.c_proj.weight": "model-00003-of-00009.safetensors",
+    "transformer.h.14.ln_1.bias": "model-00003-of-00009.safetensors",
+    "transformer.h.14.ln_1.weight": "model-00003-of-00009.safetensors",
+    "transformer.h.14.ln_2.bias": "model-00003-of-00009.safetensors",
+    "transformer.h.14.ln_2.weight": "model-00003-of-00009.safetensors",
+    "transformer.h.14.mlp.c_fc.bias": "model-00003-of-00009.safetensors",
+    "transformer.h.14.mlp.c_fc.weight": "model-00003-of-00009.safetensors",
+    "transformer.h.14.mlp.c_proj.bias": "model-00003-of-00009.safetensors",
+    "transformer.h.14.mlp.c_proj.weight": "model-00003-of-00009.safetensors",
+    "transformer.h.15.attn.c_attn.bias": "model-00003-of-00009.safetensors",
+    "transformer.h.15.attn.c_attn.weight": "model-00003-of-00009.safetensors",
+    "transformer.h.15.attn.c_proj.bias": "model-00003-of-00009.safetensors",
+    "transformer.h.15.attn.c_proj.weight": "model-00003-of-00009.safetensors",
+    "transformer.h.15.ln_1.bias": "model-00003-of-00009.safetensors",
+    "transformer.h.15.ln_1.weight": "model-00003-of-00009.safetensors",
+    "transformer.h.15.ln_2.bias": "model-00003-of-00009.safetensors",
+    "transformer.h.15.ln_2.weight": "model-00003-of-00009.safetensors",
+    "transformer.h.15.mlp.c_fc.bias": "model-00003-of-00009.safetensors",
+    "transformer.h.15.mlp.c_fc.weight": "model-00003-of-00009.safetensors",
+    "transformer.h.15.mlp.c_proj.bias": "model-00003-of-00009.safetensors",
+    "transformer.h.15.mlp.c_proj.weight": "model-00003-of-00009.safetensors",
+    "transformer.h.16.attn.c_attn.bias": "model-00003-of-00009.safetensors",
+    "transformer.h.16.attn.c_attn.weight": "model-00003-of-00009.safetensors",
+    "transformer.h.16.attn.c_proj.bias": "model-00003-of-00009.safetensors",
+    "transformer.h.16.attn.c_proj.weight": "model-00003-of-00009.safetensors",
+    "transformer.h.16.ln_1.bias": "model-00003-of-00009.safetensors",
+    "transformer.h.16.ln_1.weight": "model-00003-of-00009.safetensors",
+    "transformer.h.16.ln_2.bias": "model-00003-of-00009.safetensors",
+    "transformer.h.16.ln_2.weight": "model-00003-of-00009.safetensors",
+    "transformer.h.16.mlp.c_fc.bias": "model-00003-of-00009.safetensors",
+    "transformer.h.16.mlp.c_fc.weight": "model-00003-of-00009.safetensors",
+    "transformer.h.16.mlp.c_proj.bias": "model-00003-of-00009.safetensors",
+    "transformer.h.16.mlp.c_proj.weight": "model-00003-of-00009.safetensors",
+    "transformer.h.17.attn.c_attn.bias": "model-00003-of-00009.safetensors",
+    "transformer.h.17.attn.c_attn.weight": "model-00003-of-00009.safetensors",
+    "transformer.h.17.attn.c_proj.bias": "model-00003-of-00009.safetensors",
+    "transformer.h.17.attn.c_proj.weight": "model-00003-of-00009.safetensors",
+    "transformer.h.17.ln_1.bias": "model-00003-of-00009.safetensors",
+    "transformer.h.17.ln_1.weight": "model-00003-of-00009.safetensors",
+    "transformer.h.17.ln_2.bias": "model-00003-of-00009.safetensors",
+    "transformer.h.17.ln_2.weight": "model-00003-of-00009.safetensors",
+    "transformer.h.17.mlp.c_fc.bias": "model-00003-of-00009.safetensors",
+    "transformer.h.17.mlp.c_fc.weight": "model-00003-of-00009.safetensors",
+    "transformer.h.17.mlp.c_proj.bias": "model-00003-of-00009.safetensors",
+    "transformer.h.17.mlp.c_proj.weight": "model-00003-of-00009.safetensors",
+    "transformer.h.18.attn.c_attn.bias": "model-00003-of-00009.safetensors",
+    "transformer.h.18.attn.c_attn.weight": "model-00003-of-00009.safetensors",
+    "transformer.h.18.attn.c_proj.bias": "model-00003-of-00009.safetensors",
+    "transformer.h.18.attn.c_proj.weight": "model-00003-of-00009.safetensors",
+    "transformer.h.18.ln_1.bias": "model-00003-of-00009.safetensors",
+    "transformer.h.18.ln_1.weight": "model-00003-of-00009.safetensors",
+    "transformer.h.18.ln_2.bias": "model-00003-of-00009.safetensors",
+    "transformer.h.18.ln_2.weight": "model-00003-of-00009.safetensors",
+    "transformer.h.18.mlp.c_fc.bias": "model-00003-of-00009.safetensors",
+    "transformer.h.18.mlp.c_fc.weight": "model-00003-of-00009.safetensors",
+    "transformer.h.18.mlp.c_proj.bias": "model-00004-of-00009.safetensors",
+    "transformer.h.18.mlp.c_proj.weight": "model-00004-of-00009.safetensors",
+    "transformer.h.19.attn.c_attn.bias": "model-00004-of-00009.safetensors",
+    "transformer.h.19.attn.c_attn.weight": "model-00004-of-00009.safetensors",
+    "transformer.h.19.attn.c_proj.bias": "model-00004-of-00009.safetensors",
+    "transformer.h.19.attn.c_proj.weight": "model-00004-of-00009.safetensors",
+    "transformer.h.19.ln_1.bias": "model-00004-of-00009.safetensors",
+    "transformer.h.19.ln_1.weight": "model-00004-of-00009.safetensors",
+    "transformer.h.19.ln_2.bias": "model-00004-of-00009.safetensors",
+    "transformer.h.19.ln_2.weight": "model-00004-of-00009.safetensors",
+    "transformer.h.19.mlp.c_fc.bias": "model-00004-of-00009.safetensors",
+    "transformer.h.19.mlp.c_fc.weight": "model-00004-of-00009.safetensors",
+    "transformer.h.19.mlp.c_proj.bias": "model-00004-of-00009.safetensors",
+    "transformer.h.19.mlp.c_proj.weight": "model-00004-of-00009.safetensors",
+    "transformer.h.2.attn.c_attn.bias": "model-00001-of-00009.safetensors",
+    "transformer.h.2.attn.c_attn.weight": "model-00001-of-00009.safetensors",
+    "transformer.h.2.attn.c_proj.bias": "model-00001-of-00009.safetensors",
+    "transformer.h.2.attn.c_proj.weight": "model-00001-of-00009.safetensors",
+    "transformer.h.2.ln_1.bias": "model-00001-of-00009.safetensors",
+    "transformer.h.2.ln_1.weight": "model-00001-of-00009.safetensors",
+    "transformer.h.2.ln_2.bias": "model-00001-of-00009.safetensors",
+    "transformer.h.2.ln_2.weight": "model-00001-of-00009.safetensors",
+    "transformer.h.2.mlp.c_fc.bias": "model-00001-of-00009.safetensors",
+    "transformer.h.2.mlp.c_fc.weight": "model-00001-of-00009.safetensors",
+    "transformer.h.2.mlp.c_proj.bias": "model-00001-of-00009.safetensors",
+    "transformer.h.2.mlp.c_proj.weight": "model-00001-of-00009.safetensors",
+    "transformer.h.20.attn.c_attn.bias": "model-00004-of-00009.safetensors",
+    "transformer.h.20.attn.c_attn.weight": "model-00004-of-00009.safetensors",
+    "transformer.h.20.attn.c_proj.bias": "model-00004-of-00009.safetensors",
+    "transformer.h.20.attn.c_proj.weight": "model-00004-of-00009.safetensors",
+    "transformer.h.20.ln_1.bias": "model-00004-of-00009.safetensors",
+    "transformer.h.20.ln_1.weight": "model-00004-of-00009.safetensors",
+    "transformer.h.20.ln_2.bias": "model-00004-of-00009.safetensors",
+    "transformer.h.20.ln_2.weight": "model-00004-of-00009.safetensors",
+    "transformer.h.20.mlp.c_fc.bias": "model-00004-of-00009.safetensors",
+    "transformer.h.20.mlp.c_fc.weight": "model-00004-of-00009.safetensors",
+    "transformer.h.20.mlp.c_proj.bias": "model-00004-of-00009.safetensors",
+    "transformer.h.20.mlp.c_proj.weight": "model-00004-of-00009.safetensors",
+    "transformer.h.21.attn.c_attn.bias": "model-00004-of-00009.safetensors",
+    "transformer.h.21.attn.c_attn.weight": "model-00004-of-00009.safetensors",
+    "transformer.h.21.attn.c_proj.bias": "model-00004-of-00009.safetensors",
+    "transformer.h.21.attn.c_proj.weight": "model-00004-of-00009.safetensors",
+    "transformer.h.21.ln_1.bias": "model-00004-of-00009.safetensors",
+    "transformer.h.21.ln_1.weight": "model-00004-of-00009.safetensors",
+    "transformer.h.21.ln_2.bias": "model-00004-of-00009.safetensors",
+    "transformer.h.21.ln_2.weight": "model-00004-of-00009.safetensors",
+    "transformer.h.21.mlp.c_fc.bias": "model-00004-of-00009.safetensors",
+    "transformer.h.21.mlp.c_fc.weight": "model-00004-of-00009.safetensors",
+    "transformer.h.21.mlp.c_proj.bias": "model-00004-of-00009.safetensors",
+    "transformer.h.21.mlp.c_proj.weight": "model-00004-of-00009.safetensors",
+    "transformer.h.22.attn.c_attn.bias": "model-00004-of-00009.safetensors",
+    "transformer.h.22.attn.c_attn.weight": "model-00004-of-00009.safetensors",
+    "transformer.h.22.attn.c_proj.bias": "model-00004-of-00009.safetensors",
+    "transformer.h.22.attn.c_proj.weight": "model-00004-of-00009.safetensors",
+    "transformer.h.22.ln_1.bias": "model-00004-of-00009.safetensors",
+    "transformer.h.22.ln_1.weight": "model-00004-of-00009.safetensors",
+    "transformer.h.22.ln_2.bias": "model-00004-of-00009.safetensors",
+    "transformer.h.22.ln_2.weight": "model-00004-of-00009.safetensors",
+    "transformer.h.22.mlp.c_fc.bias": "model-00004-of-00009.safetensors",
+    "transformer.h.22.mlp.c_fc.weight": "model-00004-of-00009.safetensors",
+    "transformer.h.22.mlp.c_proj.bias": "model-00004-of-00009.safetensors",
+    "transformer.h.22.mlp.c_proj.weight": "model-00004-of-00009.safetensors",
+    "transformer.h.23.attn.c_attn.bias": "model-00004-of-00009.safetensors",
+    "transformer.h.23.attn.c_attn.weight": "model-00004-of-00009.safetensors",
+    "transformer.h.23.attn.c_proj.bias": "model-00004-of-00009.safetensors",
+    "transformer.h.23.attn.c_proj.weight": "model-00004-of-00009.safetensors",
+    "transformer.h.23.ln_1.bias": "model-00004-of-00009.safetensors",
+    "transformer.h.23.ln_1.weight": "model-00004-of-00009.safetensors",
+    "transformer.h.23.ln_2.bias": "model-00004-of-00009.safetensors",
+    "transformer.h.23.ln_2.weight": "model-00004-of-00009.safetensors",
+    "transformer.h.23.mlp.c_fc.bias": "model-00004-of-00009.safetensors",
+    "transformer.h.23.mlp.c_fc.weight": "model-00004-of-00009.safetensors",
+    "transformer.h.23.mlp.c_proj.bias": "model-00004-of-00009.safetensors",
+    "transformer.h.23.mlp.c_proj.weight": "model-00004-of-00009.safetensors",
+    "transformer.h.24.attn.c_attn.bias": "model-00004-of-00009.safetensors",
+    "transformer.h.24.attn.c_attn.weight": "model-00004-of-00009.safetensors",
+    "transformer.h.24.attn.c_proj.bias": "model-00004-of-00009.safetensors",
+    "transformer.h.24.attn.c_proj.weight": "model-00004-of-00009.safetensors",
+    "transformer.h.24.ln_1.bias": "model-00004-of-00009.safetensors",
+    "transformer.h.24.ln_1.weight": "model-00004-of-00009.safetensors",
+    "transformer.h.24.ln_2.bias": "model-00004-of-00009.safetensors",
+    "transformer.h.24.ln_2.weight": "model-00004-of-00009.safetensors",
+    "transformer.h.24.mlp.c_fc.bias": "model-00004-of-00009.safetensors",
+    "transformer.h.24.mlp.c_fc.weight": "model-00004-of-00009.safetensors",
+    "transformer.h.24.mlp.c_proj.bias": "model-00004-of-00009.safetensors",
+    "transformer.h.24.mlp.c_proj.weight": "model-00004-of-00009.safetensors",
+    "transformer.h.25.attn.c_attn.bias": "model-00004-of-00009.safetensors",
+    "transformer.h.25.attn.c_attn.weight": "model-00004-of-00009.safetensors",
+    "transformer.h.25.attn.c_proj.bias": "model-00005-of-00009.safetensors",
+    "transformer.h.25.attn.c_proj.weight": "model-00005-of-00009.safetensors",
+    "transformer.h.25.ln_1.bias": "model-00004-of-00009.safetensors",
+    "transformer.h.25.ln_1.weight": "model-00004-of-00009.safetensors",
+    "transformer.h.25.ln_2.bias": "model-00005-of-00009.safetensors",
+    "transformer.h.25.ln_2.weight": "model-00005-of-00009.safetensors",
+    "transformer.h.25.mlp.c_fc.bias": "model-00005-of-00009.safetensors",
+    "transformer.h.25.mlp.c_fc.weight": "model-00005-of-00009.safetensors",
+    "transformer.h.25.mlp.c_proj.bias": "model-00005-of-00009.safetensors",
+    "transformer.h.25.mlp.c_proj.weight": "model-00005-of-00009.safetensors",
+    "transformer.h.26.attn.c_attn.bias": "model-00005-of-00009.safetensors",
+    "transformer.h.26.attn.c_attn.weight": "model-00005-of-00009.safetensors",
+    "transformer.h.26.attn.c_proj.bias": "model-00005-of-00009.safetensors",
+    "transformer.h.26.attn.c_proj.weight": "model-00005-of-00009.safetensors",
+    "transformer.h.26.ln_1.bias": "model-00005-of-00009.safetensors",
+    "transformer.h.26.ln_1.weight": "model-00005-of-00009.safetensors",
+    "transformer.h.26.ln_2.bias": "model-00005-of-00009.safetensors",
+    "transformer.h.26.ln_2.weight": "model-00005-of-00009.safetensors",
+    "transformer.h.26.mlp.c_fc.bias": "model-00005-of-00009.safetensors",
+    "transformer.h.26.mlp.c_fc.weight": "model-00005-of-00009.safetensors",
+    "transformer.h.26.mlp.c_proj.bias": "model-00005-of-00009.safetensors",
+    "transformer.h.26.mlp.c_proj.weight": "model-00005-of-00009.safetensors",
+    "transformer.h.27.attn.c_attn.bias": "model-00005-of-00009.safetensors",
+    "transformer.h.27.attn.c_attn.weight": "model-00005-of-00009.safetensors",
+    "transformer.h.27.attn.c_proj.bias": "model-00005-of-00009.safetensors",
+    "transformer.h.27.attn.c_proj.weight": "model-00005-of-00009.safetensors",
+    "transformer.h.27.ln_1.bias": "model-00005-of-00009.safetensors",
+    "transformer.h.27.ln_1.weight": "model-00005-of-00009.safetensors",
+    "transformer.h.27.ln_2.bias": "model-00005-of-00009.safetensors",
+    "transformer.h.27.ln_2.weight": "model-00005-of-00009.safetensors",
+    "transformer.h.27.mlp.c_fc.bias": "model-00005-of-00009.safetensors",
+    "transformer.h.27.mlp.c_fc.weight": "model-00005-of-00009.safetensors",
+    "transformer.h.27.mlp.c_proj.bias": "model-00005-of-00009.safetensors",
+    "transformer.h.27.mlp.c_proj.weight": "model-00005-of-00009.safetensors",
+    "transformer.h.28.attn.c_attn.bias": "model-00005-of-00009.safetensors",
+    "transformer.h.28.attn.c_attn.weight": "model-00005-of-00009.safetensors",
+    "transformer.h.28.attn.c_proj.bias": "model-00005-of-00009.safetensors",
+    "transformer.h.28.attn.c_proj.weight": "model-00005-of-00009.safetensors",
+    "transformer.h.28.ln_1.bias": "model-00005-of-00009.safetensors",
+    "transformer.h.28.ln_1.weight": "model-00005-of-00009.safetensors",
+    "transformer.h.28.ln_2.bias": "model-00005-of-00009.safetensors",
+    "transformer.h.28.ln_2.weight": "model-00005-of-00009.safetensors",
+    "transformer.h.28.mlp.c_fc.bias": "model-00005-of-00009.safetensors",
+    "transformer.h.28.mlp.c_fc.weight": "model-00005-of-00009.safetensors",
+    "transformer.h.28.mlp.c_proj.bias": "model-00005-of-00009.safetensors",
+    "transformer.h.28.mlp.c_proj.weight": "model-00005-of-00009.safetensors",
+    "transformer.h.29.attn.c_attn.bias": "model-00005-of-00009.safetensors",
+    "transformer.h.29.attn.c_attn.weight": "model-00005-of-00009.safetensors",
+    "transformer.h.29.attn.c_proj.bias": "model-00005-of-00009.safetensors",
+    "transformer.h.29.attn.c_proj.weight": "model-00005-of-00009.safetensors",
+    "transformer.h.29.ln_1.bias": "model-00005-of-00009.safetensors",
+    "transformer.h.29.ln_1.weight": "model-00005-of-00009.safetensors",
+    "transformer.h.29.ln_2.bias": "model-00005-of-00009.safetensors",
+    "transformer.h.29.ln_2.weight": "model-00005-of-00009.safetensors",
+    "transformer.h.29.mlp.c_fc.bias": "model-00005-of-00009.safetensors",
+    "transformer.h.29.mlp.c_fc.weight": "model-00005-of-00009.safetensors",
+    "transformer.h.29.mlp.c_proj.bias": "model-00005-of-00009.safetensors",
+    "transformer.h.29.mlp.c_proj.weight": "model-00005-of-00009.safetensors",
+    "transformer.h.3.attn.c_attn.bias": "model-00001-of-00009.safetensors",
+    "transformer.h.3.attn.c_attn.weight": "model-00001-of-00009.safetensors",
+    "transformer.h.3.attn.c_proj.bias": "model-00001-of-00009.safetensors",
+    "transformer.h.3.attn.c_proj.weight": "model-00001-of-00009.safetensors",
+    "transformer.h.3.ln_1.bias": "model-00001-of-00009.safetensors",
+    "transformer.h.3.ln_1.weight": "model-00001-of-00009.safetensors",
+    "transformer.h.3.ln_2.bias": "model-00001-of-00009.safetensors",
+    "transformer.h.3.ln_2.weight": "model-00001-of-00009.safetensors",
+    "transformer.h.3.mlp.c_fc.bias": "model-00001-of-00009.safetensors",
+    "transformer.h.3.mlp.c_fc.weight": "model-00001-of-00009.safetensors",
+    "transformer.h.3.mlp.c_proj.bias": "model-00001-of-00009.safetensors",
+    "transformer.h.3.mlp.c_proj.weight": "model-00001-of-00009.safetensors",
+    "transformer.h.30.attn.c_attn.bias": "model-00005-of-00009.safetensors",
+    "transformer.h.30.attn.c_attn.weight": "model-00005-of-00009.safetensors",
+    "transformer.h.30.attn.c_proj.bias": "model-00005-of-00009.safetensors",
+    "transformer.h.30.attn.c_proj.weight": "model-00005-of-00009.safetensors",
+    "transformer.h.30.ln_1.bias": "model-00005-of-00009.safetensors",
+    "transformer.h.30.ln_1.weight": "model-00005-of-00009.safetensors",
+    "transformer.h.30.ln_2.bias": "model-00005-of-00009.safetensors",
+    "transformer.h.30.ln_2.weight": "model-00005-of-00009.safetensors",
+    "transformer.h.30.mlp.c_fc.bias": "model-00005-of-00009.safetensors",
+    "transformer.h.30.mlp.c_fc.weight": "model-00005-of-00009.safetensors",
+    "transformer.h.30.mlp.c_proj.bias": "model-00005-of-00009.safetensors",
+    "transformer.h.30.mlp.c_proj.weight": "model-00005-of-00009.safetensors",
+    "transformer.h.31.attn.c_attn.bias": "model-00005-of-00009.safetensors",
+    "transformer.h.31.attn.c_attn.weight": "model-00005-of-00009.safetensors",
+    "transformer.h.31.attn.c_proj.bias": "model-00005-of-00009.safetensors",
+    "transformer.h.31.attn.c_proj.weight": "model-00005-of-00009.safetensors",
+    "transformer.h.31.ln_1.bias": "model-00005-of-00009.safetensors",
+    "transformer.h.31.ln_1.weight": "model-00005-of-00009.safetensors",
+    "transformer.h.31.ln_2.bias": "model-00005-of-00009.safetensors",
+    "transformer.h.31.ln_2.weight": "model-00005-of-00009.safetensors",
+    "transformer.h.31.mlp.c_fc.bias": "model-00005-of-00009.safetensors",
+    "transformer.h.31.mlp.c_fc.weight": "model-00005-of-00009.safetensors",
+    "transformer.h.31.mlp.c_proj.bias": "model-00006-of-00009.safetensors",
+    "transformer.h.31.mlp.c_proj.weight": "model-00006-of-00009.safetensors",
+    "transformer.h.32.attn.c_attn.bias": "model-00006-of-00009.safetensors",
+    "transformer.h.32.attn.c_attn.weight": "model-00006-of-00009.safetensors",
+    "transformer.h.32.attn.c_proj.bias": "model-00006-of-00009.safetensors",
+    "transformer.h.32.attn.c_proj.weight": "model-00006-of-00009.safetensors",
+    "transformer.h.32.ln_1.bias": "model-00006-of-00009.safetensors",
+    "transformer.h.32.ln_1.weight": "model-00006-of-00009.safetensors",
+    "transformer.h.32.ln_2.bias": "model-00006-of-00009.safetensors",
+    "transformer.h.32.ln_2.weight": "model-00006-of-00009.safetensors",
+    "transformer.h.32.mlp.c_fc.bias": "model-00006-of-00009.safetensors",
+    "transformer.h.32.mlp.c_fc.weight": "model-00006-of-00009.safetensors",
+    "transformer.h.32.mlp.c_proj.bias": "model-00006-of-00009.safetensors",
+    "transformer.h.32.mlp.c_proj.weight": "model-00006-of-00009.safetensors",
+    "transformer.h.33.attn.c_attn.bias": "model-00006-of-00009.safetensors",
+    "transformer.h.33.attn.c_attn.weight": "model-00006-of-00009.safetensors",
+    "transformer.h.33.attn.c_proj.bias": "model-00006-of-00009.safetensors",
+    "transformer.h.33.attn.c_proj.weight": "model-00006-of-00009.safetensors",
+    "transformer.h.33.ln_1.bias": "model-00006-of-00009.safetensors",
+    "transformer.h.33.ln_1.weight": "model-00006-of-00009.safetensors",
+    "transformer.h.33.ln_2.bias": "model-00006-of-00009.safetensors",
+    "transformer.h.33.ln_2.weight": "model-00006-of-00009.safetensors",
+    "transformer.h.33.mlp.c_fc.bias": "model-00006-of-00009.safetensors",
+    "transformer.h.33.mlp.c_fc.weight": "model-00006-of-00009.safetensors",
+    "transformer.h.33.mlp.c_proj.bias": "model-00006-of-00009.safetensors",
+    "transformer.h.33.mlp.c_proj.weight": "model-00006-of-00009.safetensors",
+    "transformer.h.34.attn.c_attn.bias": "model-00006-of-00009.safetensors",
+    "transformer.h.34.attn.c_attn.weight": "model-00006-of-00009.safetensors",
+    "transformer.h.34.attn.c_proj.bias": "model-00006-of-00009.safetensors",
+    "transformer.h.34.attn.c_proj.weight": "model-00006-of-00009.safetensors",
+    "transformer.h.34.ln_1.bias": "model-00006-of-00009.safetensors",
+    "transformer.h.34.ln_1.weight": "model-00006-of-00009.safetensors",
+    "transformer.h.34.ln_2.bias": "model-00006-of-00009.safetensors",
+    "transformer.h.34.ln_2.weight": "model-00006-of-00009.safetensors",
+    "transformer.h.34.mlp.c_fc.bias": "model-00006-of-00009.safetensors",
+    "transformer.h.34.mlp.c_fc.weight": "model-00006-of-00009.safetensors",
+    "transformer.h.34.mlp.c_proj.bias": "model-00006-of-00009.safetensors",
+    "transformer.h.34.mlp.c_proj.weight": "model-00006-of-00009.safetensors",
+    "transformer.h.35.attn.c_attn.bias": "model-00006-of-00009.safetensors",
+    "transformer.h.35.attn.c_attn.weight": "model-00006-of-00009.safetensors",
+    "transformer.h.35.attn.c_proj.bias": "model-00006-of-00009.safetensors",
+    "transformer.h.35.attn.c_proj.weight": "model-00006-of-00009.safetensors",
+    "transformer.h.35.ln_1.bias": "model-00006-of-00009.safetensors",
+    "transformer.h.35.ln_1.weight": "model-00006-of-00009.safetensors",
+    "transformer.h.35.ln_2.bias": "model-00006-of-00009.safetensors",
+    "transformer.h.35.ln_2.weight": "model-00006-of-00009.safetensors",
+    "transformer.h.35.mlp.c_fc.bias": "model-00006-of-00009.safetensors",
+    "transformer.h.35.mlp.c_fc.weight": "model-00006-of-00009.safetensors",
+    "transformer.h.35.mlp.c_proj.bias": "model-00006-of-00009.safetensors",
+    "transformer.h.35.mlp.c_proj.weight": "model-00006-of-00009.safetensors",
+    "transformer.h.36.attn.c_attn.bias": "model-00006-of-00009.safetensors",
+    "transformer.h.36.attn.c_attn.weight": "model-00006-of-00009.safetensors",
+    "transformer.h.36.attn.c_proj.bias": "model-00006-of-00009.safetensors",
+    "transformer.h.36.attn.c_proj.weight": "model-00006-of-00009.safetensors",
+    "transformer.h.36.ln_1.bias": "model-00006-of-00009.safetensors",
+    "transformer.h.36.ln_1.weight": "model-00006-of-00009.safetensors",
+    "transformer.h.36.ln_2.bias": "model-00006-of-00009.safetensors",
+    "transformer.h.36.ln_2.weight": "model-00006-of-00009.safetensors",
+    "transformer.h.36.mlp.c_fc.bias": "model-00006-of-00009.safetensors",
+    "transformer.h.36.mlp.c_fc.weight": "model-00006-of-00009.safetensors",
+    "transformer.h.36.mlp.c_proj.bias": "model-00006-of-00009.safetensors",
+    "transformer.h.36.mlp.c_proj.weight": "model-00006-of-00009.safetensors",
+    "transformer.h.37.attn.c_attn.bias": "model-00006-of-00009.safetensors",
+    "transformer.h.37.attn.c_attn.weight": "model-00006-of-00009.safetensors",
+    "transformer.h.37.attn.c_proj.bias": "model-00006-of-00009.safetensors",
+    "transformer.h.37.attn.c_proj.weight": "model-00006-of-00009.safetensors",
+    "transformer.h.37.ln_1.bias": "model-00006-of-00009.safetensors",
+    "transformer.h.37.ln_1.weight": "model-00006-of-00009.safetensors",
+    "transformer.h.37.ln_2.bias": "model-00006-of-00009.safetensors",
+    "transformer.h.37.ln_2.weight": "model-00006-of-00009.safetensors",
+    "transformer.h.37.mlp.c_fc.bias": "model-00006-of-00009.safetensors",
+    "transformer.h.37.mlp.c_fc.weight": "model-00006-of-00009.safetensors",
+    "transformer.h.37.mlp.c_proj.bias": "model-00006-of-00009.safetensors",
+    "transformer.h.37.mlp.c_proj.weight": "model-00006-of-00009.safetensors",
+    "transformer.h.38.attn.c_attn.bias": "model-00006-of-00009.safetensors",
+    "transformer.h.38.attn.c_attn.weight": "model-00006-of-00009.safetensors",
+    "transformer.h.38.attn.c_proj.bias": "model-00007-of-00009.safetensors",
+    "transformer.h.38.attn.c_proj.weight": "model-00007-of-00009.safetensors",
+    "transformer.h.38.ln_1.bias": "model-00006-of-00009.safetensors",
+    "transformer.h.38.ln_1.weight": "model-00006-of-00009.safetensors",
+    "transformer.h.38.ln_2.bias": "model-00007-of-00009.safetensors",
+    "transformer.h.38.ln_2.weight": "model-00007-of-00009.safetensors",
+    "transformer.h.38.mlp.c_fc.bias": "model-00007-of-00009.safetensors",
+    "transformer.h.38.mlp.c_fc.weight": "model-00007-of-00009.safetensors",
+    "transformer.h.38.mlp.c_proj.bias": "model-00007-of-00009.safetensors",
+    "transformer.h.38.mlp.c_proj.weight": "model-00007-of-00009.safetensors",
+    "transformer.h.39.attn.c_attn.bias": "model-00007-of-00009.safetensors",
+    "transformer.h.39.attn.c_attn.weight": "model-00007-of-00009.safetensors",
+    "transformer.h.39.attn.c_proj.bias": "model-00007-of-00009.safetensors",
+    "transformer.h.39.attn.c_proj.weight": "model-00007-of-00009.safetensors",
+    "transformer.h.39.ln_1.bias": "model-00007-of-00009.safetensors",
+    "transformer.h.39.ln_1.weight": "model-00007-of-00009.safetensors",
+    "transformer.h.39.ln_2.bias": "model-00007-of-00009.safetensors",
+    "transformer.h.39.ln_2.weight": "model-00007-of-00009.safetensors",
+    "transformer.h.39.mlp.c_fc.bias": "model-00007-of-00009.safetensors",
+    "transformer.h.39.mlp.c_fc.weight": "model-00007-of-00009.safetensors",
+    "transformer.h.39.mlp.c_proj.bias": "model-00007-of-00009.safetensors",
+    "transformer.h.39.mlp.c_proj.weight": "model-00007-of-00009.safetensors",
+    "transformer.h.4.attn.c_attn.bias": "model-00001-of-00009.safetensors",
+    "transformer.h.4.attn.c_attn.weight": "model-00001-of-00009.safetensors",
+    "transformer.h.4.attn.c_proj.bias": "model-00001-of-00009.safetensors",
+    "transformer.h.4.attn.c_proj.weight": "model-00001-of-00009.safetensors",
+    "transformer.h.4.ln_1.bias": "model-00001-of-00009.safetensors",
+    "transformer.h.4.ln_1.weight": "model-00001-of-00009.safetensors",
+    "transformer.h.4.ln_2.bias": "model-00001-of-00009.safetensors",
+    "transformer.h.4.ln_2.weight": "model-00001-of-00009.safetensors",
+    "transformer.h.4.mlp.c_fc.bias": "model-00001-of-00009.safetensors",
+    "transformer.h.4.mlp.c_fc.weight": "model-00001-of-00009.safetensors",
+    "transformer.h.4.mlp.c_proj.bias": "model-00001-of-00009.safetensors",
+    "transformer.h.4.mlp.c_proj.weight": "model-00001-of-00009.safetensors",
+    "transformer.h.40.attn.c_attn.bias": "model-00007-of-00009.safetensors",
+    "transformer.h.40.attn.c_attn.weight": "model-00007-of-00009.safetensors",
+    "transformer.h.40.attn.c_proj.bias": "model-00007-of-00009.safetensors",
+    "transformer.h.40.attn.c_proj.weight": "model-00007-of-00009.safetensors",
+    "transformer.h.40.ln_1.bias": "model-00007-of-00009.safetensors",
+    "transformer.h.40.ln_1.weight": "model-00007-of-00009.safetensors",
+    "transformer.h.40.ln_2.bias": "model-00007-of-00009.safetensors",
+    "transformer.h.40.ln_2.weight": "model-00007-of-00009.safetensors",
+    "transformer.h.40.mlp.c_fc.bias": "model-00007-of-00009.safetensors",
+    "transformer.h.40.mlp.c_fc.weight": "model-00007-of-00009.safetensors",
+    "transformer.h.40.mlp.c_proj.bias": "model-00007-of-00009.safetensors",
+    "transformer.h.40.mlp.c_proj.weight": "model-00007-of-00009.safetensors",
+    "transformer.h.41.attn.c_attn.bias": "model-00007-of-00009.safetensors",
+    "transformer.h.41.attn.c_attn.weight": "model-00007-of-00009.safetensors",
+    "transformer.h.41.attn.c_proj.bias": "model-00007-of-00009.safetensors",
+    "transformer.h.41.attn.c_proj.weight": "model-00007-of-00009.safetensors",
+    "transformer.h.41.ln_1.bias": "model-00007-of-00009.safetensors",
+    "transformer.h.41.ln_1.weight": "model-00007-of-00009.safetensors",
+    "transformer.h.41.ln_2.bias": "model-00007-of-00009.safetensors",
+    "transformer.h.41.ln_2.weight": "model-00007-of-00009.safetensors",
+    "transformer.h.41.mlp.c_fc.bias": "model-00007-of-00009.safetensors",
+    "transformer.h.41.mlp.c_fc.weight": "model-00007-of-00009.safetensors",
+    "transformer.h.41.mlp.c_proj.bias": "model-00007-of-00009.safetensors",
+    "transformer.h.41.mlp.c_proj.weight": "model-00007-of-00009.safetensors",
+    "transformer.h.42.attn.c_attn.bias": "model-00007-of-00009.safetensors",
+    "transformer.h.42.attn.c_attn.weight": "model-00007-of-00009.safetensors",
+    "transformer.h.42.attn.c_proj.bias": "model-00007-of-00009.safetensors",
+    "transformer.h.42.attn.c_proj.weight": "model-00007-of-00009.safetensors",
+    "transformer.h.42.ln_1.bias": "model-00007-of-00009.safetensors",
+    "transformer.h.42.ln_1.weight": "model-00007-of-00009.safetensors",
+    "transformer.h.42.ln_2.bias": "model-00007-of-00009.safetensors",
+    "transformer.h.42.ln_2.weight": "model-00007-of-00009.safetensors",
+    "transformer.h.42.mlp.c_fc.bias": "model-00007-of-00009.safetensors",
+    "transformer.h.42.mlp.c_fc.weight": "model-00007-of-00009.safetensors",
+    "transformer.h.42.mlp.c_proj.bias": "model-00007-of-00009.safetensors",
+    "transformer.h.42.mlp.c_proj.weight": "model-00007-of-00009.safetensors",
+    "transformer.h.43.attn.c_attn.bias": "model-00007-of-00009.safetensors",
+    "transformer.h.43.attn.c_attn.weight": "model-00007-of-00009.safetensors",
+    "transformer.h.43.attn.c_proj.bias": "model-00007-of-00009.safetensors",
+    "transformer.h.43.attn.c_proj.weight": "model-00007-of-00009.safetensors",
+    "transformer.h.43.ln_1.bias": "model-00007-of-00009.safetensors",
+    "transformer.h.43.ln_1.weight": "model-00007-of-00009.safetensors",
+    "transformer.h.43.ln_2.bias": "model-00007-of-00009.safetensors",
+    "transformer.h.43.ln_2.weight": "model-00007-of-00009.safetensors",
+    "transformer.h.43.mlp.c_fc.bias": "model-00007-of-00009.safetensors",
+    "transformer.h.43.mlp.c_fc.weight": "model-00007-of-00009.safetensors",
+    "transformer.h.43.mlp.c_proj.bias": "model-00007-of-00009.safetensors",
+    "transformer.h.43.mlp.c_proj.weight": "model-00007-of-00009.safetensors",
+    "transformer.h.44.attn.c_attn.bias": "model-00007-of-00009.safetensors",
+    "transformer.h.44.attn.c_attn.weight": "model-00007-of-00009.safetensors",
+    "transformer.h.44.attn.c_proj.bias": "model-00007-of-00009.safetensors",
+    "transformer.h.44.attn.c_proj.weight": "model-00007-of-00009.safetensors",
+    "transformer.h.44.ln_1.bias": "model-00007-of-00009.safetensors",
+    "transformer.h.44.ln_1.weight": "model-00007-of-00009.safetensors",
+    "transformer.h.44.ln_2.bias": "model-00007-of-00009.safetensors",
+    "transformer.h.44.ln_2.weight": "model-00007-of-00009.safetensors",
+    "transformer.h.44.mlp.c_fc.bias": "model-00007-of-00009.safetensors",
+    "transformer.h.44.mlp.c_fc.weight": "model-00007-of-00009.safetensors",
+    "transformer.h.44.mlp.c_proj.bias": "model-00008-of-00009.safetensors",
+    "transformer.h.44.mlp.c_proj.weight": "model-00008-of-00009.safetensors",
+    "transformer.h.45.attn.c_attn.bias": "model-00008-of-00009.safetensors",
+    "transformer.h.45.attn.c_attn.weight": "model-00008-of-00009.safetensors",
+    "transformer.h.45.attn.c_proj.bias": "model-00008-of-00009.safetensors",
+    "transformer.h.45.attn.c_proj.weight": "model-00008-of-00009.safetensors",
+    "transformer.h.45.ln_1.bias": "model-00008-of-00009.safetensors",
+    "transformer.h.45.ln_1.weight": "model-00008-of-00009.safetensors",
+    "transformer.h.45.ln_2.bias": "model-00008-of-00009.safetensors",
+    "transformer.h.45.ln_2.weight": "model-00008-of-00009.safetensors",
+    "transformer.h.45.mlp.c_fc.bias": "model-00008-of-00009.safetensors",
+    "transformer.h.45.mlp.c_fc.weight": "model-00008-of-00009.safetensors",
+    "transformer.h.45.mlp.c_proj.bias": "model-00008-of-00009.safetensors",
+    "transformer.h.45.mlp.c_proj.weight": "model-00008-of-00009.safetensors",
+    "transformer.h.46.attn.c_attn.bias": "model-00008-of-00009.safetensors",
+    "transformer.h.46.attn.c_attn.weight": "model-00008-of-00009.safetensors",
+    "transformer.h.46.attn.c_proj.bias": "model-00008-of-00009.safetensors",
+    "transformer.h.46.attn.c_proj.weight": "model-00008-of-00009.safetensors",
+    "transformer.h.46.ln_1.bias": "model-00008-of-00009.safetensors",
+    "transformer.h.46.ln_1.weight": "model-00008-of-00009.safetensors",
+    "transformer.h.46.ln_2.bias": "model-00008-of-00009.safetensors",
+    "transformer.h.46.ln_2.weight": "model-00008-of-00009.safetensors",
+    "transformer.h.46.mlp.c_fc.bias": "model-00008-of-00009.safetensors",
+    "transformer.h.46.mlp.c_fc.weight": "model-00008-of-00009.safetensors",
+    "transformer.h.46.mlp.c_proj.bias": "model-00008-of-00009.safetensors",
+    "transformer.h.46.mlp.c_proj.weight": "model-00008-of-00009.safetensors",
+    "transformer.h.47.attn.c_attn.bias": "model-00008-of-00009.safetensors",
+    "transformer.h.47.attn.c_attn.weight": "model-00008-of-00009.safetensors",
+    "transformer.h.47.attn.c_proj.bias": "model-00008-of-00009.safetensors",
+    "transformer.h.47.attn.c_proj.weight": "model-00008-of-00009.safetensors",
+    "transformer.h.47.ln_1.bias": "model-00008-of-00009.safetensors",
+    "transformer.h.47.ln_1.weight": "model-00008-of-00009.safetensors",
+    "transformer.h.47.ln_2.bias": "model-00008-of-00009.safetensors",
+    "transformer.h.47.ln_2.weight": "model-00008-of-00009.safetensors",
+    "transformer.h.47.mlp.c_fc.bias": "model-00008-of-00009.safetensors",
+    "transformer.h.47.mlp.c_fc.weight": "model-00008-of-00009.safetensors",
+    "transformer.h.47.mlp.c_proj.bias": "model-00008-of-00009.safetensors",
+    "transformer.h.47.mlp.c_proj.weight": "model-00008-of-00009.safetensors",
+    "transformer.h.48.attn.c_attn.bias": "model-00008-of-00009.safetensors",
+    "transformer.h.48.attn.c_attn.weight": "model-00008-of-00009.safetensors",
+    "transformer.h.48.attn.c_proj.bias": "model-00008-of-00009.safetensors",
+    "transformer.h.48.attn.c_proj.weight": "model-00008-of-00009.safetensors",
+    "transformer.h.48.ln_1.bias": "model-00008-of-00009.safetensors",
+    "transformer.h.48.ln_1.weight": "model-00008-of-00009.safetensors",
+    "transformer.h.48.ln_2.bias": "model-00008-of-00009.safetensors",
+    "transformer.h.48.ln_2.weight": "model-00008-of-00009.safetensors",
+    "transformer.h.48.mlp.c_fc.bias": "model-00008-of-00009.safetensors",
+    "transformer.h.48.mlp.c_fc.weight": "model-00008-of-00009.safetensors",
+    "transformer.h.48.mlp.c_proj.bias": "model-00008-of-00009.safetensors",
+    "transformer.h.48.mlp.c_proj.weight": "model-00008-of-00009.safetensors",
+    "transformer.h.49.attn.c_attn.bias": "model-00008-of-00009.safetensors",
+    "transformer.h.49.attn.c_attn.weight": "model-00008-of-00009.safetensors",
+    "transformer.h.49.attn.c_proj.bias": "model-00008-of-00009.safetensors",
+    "transformer.h.49.attn.c_proj.weight": "model-00008-of-00009.safetensors",
+    "transformer.h.49.ln_1.bias": "model-00008-of-00009.safetensors",
+    "transformer.h.49.ln_1.weight": "model-00008-of-00009.safetensors",
+    "transformer.h.49.ln_2.bias": "model-00008-of-00009.safetensors",
+    "transformer.h.49.ln_2.weight": "model-00008-of-00009.safetensors",
+    "transformer.h.49.mlp.c_fc.bias": "model-00008-of-00009.safetensors",
+    "transformer.h.49.mlp.c_fc.weight": "model-00008-of-00009.safetensors",
+    "transformer.h.49.mlp.c_proj.bias": "model-00008-of-00009.safetensors",
+    "transformer.h.49.mlp.c_proj.weight": "model-00008-of-00009.safetensors",
+    "transformer.h.5.attn.c_attn.bias": "model-00001-of-00009.safetensors",
+    "transformer.h.5.attn.c_attn.weight": "model-00001-of-00009.safetensors",
+    "transformer.h.5.attn.c_proj.bias": "model-00001-of-00009.safetensors",
+    "transformer.h.5.attn.c_proj.weight": "model-00001-of-00009.safetensors",
+    "transformer.h.5.ln_1.bias": "model-00001-of-00009.safetensors",
+    "transformer.h.5.ln_1.weight": "model-00001-of-00009.safetensors",
+    "transformer.h.5.ln_2.bias": "model-00001-of-00009.safetensors",
+    "transformer.h.5.ln_2.weight": "model-00001-of-00009.safetensors",
+    "transformer.h.5.mlp.c_fc.bias": "model-00001-of-00009.safetensors",
+    "transformer.h.5.mlp.c_fc.weight": "model-00001-of-00009.safetensors",
+    "transformer.h.5.mlp.c_proj.bias": "model-00002-of-00009.safetensors",
+    "transformer.h.5.mlp.c_proj.weight": "model-00002-of-00009.safetensors",
+    "transformer.h.50.attn.c_attn.bias": "model-00008-of-00009.safetensors",
+    "transformer.h.50.attn.c_attn.weight": "model-00008-of-00009.safetensors",
+    "transformer.h.50.attn.c_proj.bias": "model-00008-of-00009.safetensors",
+    "transformer.h.50.attn.c_proj.weight": "model-00008-of-00009.safetensors",
+    "transformer.h.50.ln_1.bias": "model-00008-of-00009.safetensors",
+    "transformer.h.50.ln_1.weight": "model-00008-of-00009.safetensors",
+    "transformer.h.50.ln_2.bias": "model-00008-of-00009.safetensors",
+    "transformer.h.50.ln_2.weight": "model-00008-of-00009.safetensors",
+    "transformer.h.50.mlp.c_fc.bias": "model-00008-of-00009.safetensors",
+    "transformer.h.50.mlp.c_fc.weight": "model-00008-of-00009.safetensors",
+    "transformer.h.50.mlp.c_proj.bias": "model-00008-of-00009.safetensors",
+    "transformer.h.50.mlp.c_proj.weight": "model-00008-of-00009.safetensors",
+    "transformer.h.51.attn.c_attn.bias": "model-00008-of-00009.safetensors",
+    "transformer.h.51.attn.c_attn.weight": "model-00008-of-00009.safetensors",
+    "transformer.h.51.attn.c_proj.bias": "model-00009-of-00009.safetensors",
+    "transformer.h.51.attn.c_proj.weight": "model-00009-of-00009.safetensors",
+    "transformer.h.51.ln_1.bias": "model-00008-of-00009.safetensors",
+    "transformer.h.51.ln_1.weight": "model-00008-of-00009.safetensors",
+    "transformer.h.51.ln_2.bias": "model-00009-of-00009.safetensors",
+    "transformer.h.51.ln_2.weight": "model-00009-of-00009.safetensors",
+    "transformer.h.51.mlp.c_fc.bias": "model-00009-of-00009.safetensors",
+    "transformer.h.51.mlp.c_fc.weight": "model-00009-of-00009.safetensors",
+    "transformer.h.51.mlp.c_proj.bias": "model-00009-of-00009.safetensors",
+    "transformer.h.51.mlp.c_proj.weight": "model-00009-of-00009.safetensors",
+    "transformer.h.6.attn.c_attn.bias": "model-00002-of-00009.safetensors",
+    "transformer.h.6.attn.c_attn.weight": "model-00002-of-00009.safetensors",
+    "transformer.h.6.attn.c_proj.bias": "model-00002-of-00009.safetensors",
+    "transformer.h.6.attn.c_proj.weight": "model-00002-of-00009.safetensors",
+    "transformer.h.6.ln_1.bias": "model-00002-of-00009.safetensors",
+    "transformer.h.6.ln_1.weight": "model-00002-of-00009.safetensors",
+    "transformer.h.6.ln_2.bias": "model-00002-of-00009.safetensors",
+    "transformer.h.6.ln_2.weight": "model-00002-of-00009.safetensors",
+    "transformer.h.6.mlp.c_fc.bias": "model-00002-of-00009.safetensors",
+    "transformer.h.6.mlp.c_fc.weight": "model-00002-of-00009.safetensors",
+    "transformer.h.6.mlp.c_proj.bias": "model-00002-of-00009.safetensors",
+    "transformer.h.6.mlp.c_proj.weight": "model-00002-of-00009.safetensors",
+    "transformer.h.7.attn.c_attn.bias": "model-00002-of-00009.safetensors",
+    "transformer.h.7.attn.c_attn.weight": "model-00002-of-00009.safetensors",
+    "transformer.h.7.attn.c_proj.bias": "model-00002-of-00009.safetensors",
+    "transformer.h.7.attn.c_proj.weight": "model-00002-of-00009.safetensors",
+    "transformer.h.7.ln_1.bias": "model-00002-of-00009.safetensors",
+    "transformer.h.7.ln_1.weight": "model-00002-of-00009.safetensors",
+    "transformer.h.7.ln_2.bias": "model-00002-of-00009.safetensors",
+    "transformer.h.7.ln_2.weight": "model-00002-of-00009.safetensors",
+    "transformer.h.7.mlp.c_fc.bias": "model-00002-of-00009.safetensors",
+    "transformer.h.7.mlp.c_fc.weight": "model-00002-of-00009.safetensors",
+    "transformer.h.7.mlp.c_proj.bias": "model-00002-of-00009.safetensors",
+    "transformer.h.7.mlp.c_proj.weight": "model-00002-of-00009.safetensors",
+    "transformer.h.8.attn.c_attn.bias": "model-00002-of-00009.safetensors",
+    "transformer.h.8.attn.c_attn.weight": "model-00002-of-00009.safetensors",
+    "transformer.h.8.attn.c_proj.bias": "model-00002-of-00009.safetensors",
+    "transformer.h.8.attn.c_proj.weight": "model-00002-of-00009.safetensors",
+    "transformer.h.8.ln_1.bias": "model-00002-of-00009.safetensors",
+    "transformer.h.8.ln_1.weight": "model-00002-of-00009.safetensors",
+    "transformer.h.8.ln_2.bias": "model-00002-of-00009.safetensors",
+    "transformer.h.8.ln_2.weight": "model-00002-of-00009.safetensors",
+    "transformer.h.8.mlp.c_fc.bias": "model-00002-of-00009.safetensors",
+    "transformer.h.8.mlp.c_fc.weight": "model-00002-of-00009.safetensors",
+    "transformer.h.8.mlp.c_proj.bias": "model-00002-of-00009.safetensors",
+    "transformer.h.8.mlp.c_proj.weight": "model-00002-of-00009.safetensors",
+    "transformer.h.9.attn.c_attn.bias": "model-00002-of-00009.safetensors",
+    "transformer.h.9.attn.c_attn.weight": "model-00002-of-00009.safetensors",
+    "transformer.h.9.attn.c_proj.bias": "model-00002-of-00009.safetensors",
+    "transformer.h.9.attn.c_proj.weight": "model-00002-of-00009.safetensors",
+    "transformer.h.9.ln_1.bias": "model-00002-of-00009.safetensors",
+    "transformer.h.9.ln_1.weight": "model-00002-of-00009.safetensors",
+    "transformer.h.9.ln_2.bias": "model-00002-of-00009.safetensors",
+    "transformer.h.9.ln_2.weight": "model-00002-of-00009.safetensors",
+    "transformer.h.9.mlp.c_fc.bias": "model-00002-of-00009.safetensors",
+    "transformer.h.9.mlp.c_fc.weight": "model-00002-of-00009.safetensors",
+    "transformer.h.9.mlp.c_proj.bias": "model-00002-of-00009.safetensors",
+    "transformer.h.9.mlp.c_proj.weight": "model-00002-of-00009.safetensors",
+    "transformer.ln_f.bias": "model-00009-of-00009.safetensors",
+    "transformer.ln_f.weight": "model-00009-of-00009.safetensors",
+    "transformer.wpe.weight": "model-00001-of-00009.safetensors",
+    "transformer.wte.weight": "model-00001-of-00009.safetensors"
+  }
+}

output-00001-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b424c91ebd5c3a837612ca40a3bec9e03b7367acbec1d0fddfcf7c535ee561f2
+size 8512092556

output-00002-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d2dd101a1e60991faf173025ffee484af926e9b8459955684c515797cfbd3b35
+size 2288378028

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "additional_special_tokens": [
+    "<|endoftext|>",
+    "<fim_prefix>",
+    "<fim_middle>",
+    "<fim_suffix>",
+    "<fim_pad>",
+    "<filename>",
+    "<gh_stars>",
+    "<issue_start>",
+    "<issue_comment>",
+    "<issue_closed>",
+    "<jupyter_start>",
+    "<jupyter_text>",
+    "<jupyter_code>",
+    "<jupyter_output>",
+    "<empty_output>",
+    "<commit_before>",
+    "<commit_msg>",
+    "<commit_after>",
+    "<reponame>"
+  ],
+  "bos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,188 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<fim_prefix>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "<fim_middle>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<fim_suffix>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "4": {
+      "content": "<fim_pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "5": {
+      "content": "<filename>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "6": {
+      "content": "<gh_stars>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "7": {
+      "content": "<issue_start>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "8": {
+      "content": "<issue_comment>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "9": {
+      "content": "<issue_closed>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "10": {
+      "content": "<jupyter_start>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "11": {
+      "content": "<jupyter_text>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "12": {
+      "content": "<jupyter_code>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "13": {
+      "content": "<jupyter_output>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "14": {
+      "content": "<empty_output>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "15": {
+      "content": "<commit_before>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "16": {
+      "content": "<commit_msg>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "17": {
+      "content": "<commit_after>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "18": {
+      "content": "<reponame>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [
+    "<|endoftext|>",
+    "<fim_prefix>",
+    "<fim_middle>",
+    "<fim_suffix>",
+    "<fim_pad>",
+    "<filename>",
+    "<gh_stars>",
+    "<issue_start>",
+    "<issue_comment>",
+    "<issue_closed>",
+    "<jupyter_start>",
+    "<jupyter_text>",
+    "<jupyter_code>",
+    "<jupyter_output>",
+    "<empty_output>",
+    "<commit_before>",
+    "<commit_msg>",
+    "<commit_after>",
+    "<reponame>"
+  ],
+  "bos_token": "<|endoftext|>",
+  "chat_template": "{% for message in messages %}\n{% if message['role'] == 'user' %}\n{{ 'Question:\n' + message['content'] + '\n\n' }}{% elif message['role'] == 'system' %}\n{{ 'System:\n' + message['content'] + '\n\n' }}{% elif message['role'] == 'assistant' %}{{ 'Answer:\n'  + message['content'] + '\n\n' }}{% endif %}\n{% if loop.last and add_generation_prompt %}\n{{ 'Answer:\n' }}{% endif %}{% endfor %}",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "<|endoftext|>",
+  "model_max_length": 8192,
+  "pad_token": "<|fim_pad|>",
+  "padding_side": "left",
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": "<|endoftext|>",
+  "vocab_size": 49152
+}