openbmb
/

MiniCPM3-4B-GPTQ-Int4

@@ -29,14 +29,18 @@ MiniCPM3-4B has a 32k context window. Equipped with LLMxMapReduce, MiniCPM3-4B c
 ```python
 from transformers import AutoModelForCausalLM, AutoTokenizer
 import torch
 path = "openbmb/MiniCPM3-4B-GPTQ-Int4"
 device = "cuda"
 tokenizer = AutoTokenizer.from_pretrained(path, trust_remote_code=True)
 model = AutoModelForCausalLM.from_pretrained(path, torch_dtype=torch.bfloat16, device_map=device, trust_remote_code=True)
 messages = [
     {"role": "user", "content": "推荐5个北京的景点。"},
 ]
 model_inputs = tokenizer.apply_chat_template(messages, return_tensors="pt").to(device)
 model_outputs = model.generate(
     model_inputs,
     max_new_tokens=1024,
@@ -44,9 +48,11 @@ model_outputs = model.generate(
     temperature=0.7,
     repetition_penalty=1.02
 )
 output_token_ids = [
     model_outputs[i][len(model_inputs[i]):] for i in range(len(model_inputs))
 ]
 responses = tokenizer.batch_decode(output_token_ids, skip_special_tokens=True)[0]
 print(responses)
 ```
@@ -55,18 +61,23 @@ print(responses)
 ```python
 from transformers import AutoTokenizer
 from vllm import LLM, SamplingParams
 model_name = "openbmb/MiniCPM3-4B-GPTQ-Int4"
 prompt = [{"role": "user", "content": "推荐5个北京的景点。"}]
 tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
 input_text = tokenizer.apply_chat_template(prompt, tokenize=False, add_generation_prompt=True)
 llm = LLM(
     model=model_name,
     trust_remote_code=True,
     tensor_parallel_size=1,
-    quantization='gptq',
 )
 sampling_params = SamplingParams(top_p=0.7, temperature=0.7, max_tokens=1024, repetition_penalty=1.02)
 outputs = llm.generate(prompts=input_text, sampling_params=sampling_params)
 print(outputs[0].outputs[0].text)
 ```
@@ -226,7 +237,7 @@ print(outputs[0].outputs[0].text)
         <td>63.2 </td>
     </tr>
     <tr>
-        <td>LiveCodeBench</td>
         <td>22.2</td>
         <td>20.2</td>
         <td>19.2</td>
@@ -239,7 +250,7 @@ print(outputs[0].outputs[0].text)
         <td colspan="15" align="left"><strong>Function Call</strong></td>
     </tr>
     <tr>
-        <td>BFCL</td>
         <td>71.6</td>
         <td>70.1</td>
         <td>19.2</td>
@@ -263,6 +274,7 @@ print(outputs[0].outputs[0].text)
     </tr>
 </table>
 ## Statement
 * As a language model, MiniCPM3-4B generates content by learning from a vast amount of text.
 * However, it does not possess the ability to comprehend or express personal opinions or value judgments.
@@ -283,4 +295,4 @@ print(outputs[0].outputs[0].text)
   journal={arXiv preprint arXiv:2404.06395},
   year={2024}
 }
-```

 ```python
 from transformers import AutoModelForCausalLM, AutoTokenizer
 import torch
 path = "openbmb/MiniCPM3-4B-GPTQ-Int4"
 device = "cuda"
 tokenizer = AutoTokenizer.from_pretrained(path, trust_remote_code=True)
 model = AutoModelForCausalLM.from_pretrained(path, torch_dtype=torch.bfloat16, device_map=device, trust_remote_code=True)
 messages = [
     {"role": "user", "content": "推荐5个北京的景点。"},
 ]
 model_inputs = tokenizer.apply_chat_template(messages, return_tensors="pt").to(device)
 model_outputs = model.generate(
     model_inputs,
     max_new_tokens=1024,
     temperature=0.7,
     repetition_penalty=1.02
 )
 output_token_ids = [
     model_outputs[i][len(model_inputs[i]):] for i in range(len(model_inputs))
 ]
 responses = tokenizer.batch_decode(output_token_ids, skip_special_tokens=True)[0]
 print(responses)
 ```
 ```python
 from transformers import AutoTokenizer
 from vllm import LLM, SamplingParams
 model_name = "openbmb/MiniCPM3-4B-GPTQ-Int4"
 prompt = [{"role": "user", "content": "推荐5个北京的景点。"}]
 tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
 input_text = tokenizer.apply_chat_template(prompt, tokenize=False, add_generation_prompt=True)
 llm = LLM(
     model=model_name,
     trust_remote_code=True,
     tensor_parallel_size=1,
+    quantization='gptq'
 )
 sampling_params = SamplingParams(top_p=0.7, temperature=0.7, max_tokens=1024, repetition_penalty=1.02)
 outputs = llm.generate(prompts=input_text, sampling_params=sampling_params)
 print(outputs[0].outputs[0].text)
 ```
         <td>63.2 </td>
     </tr>
     <tr>
+        <td>LiveCodeBench v3</td>
         <td>22.2</td>
         <td>20.2</td>
         <td>19.2</td>
         <td colspan="15" align="left"><strong>Function Call</strong></td>
     </tr>
     <tr>
+        <td>BFCL v2</td>
         <td>71.6</td>
         <td>70.1</td>
         <td>19.2</td>
     </tr>
 </table>
 ## Statement
 * As a language model, MiniCPM3-4B generates content by learning from a vast amount of text.
 * However, it does not possess the ability to comprehend or express personal opinions or value judgments.
   journal={arXiv preprint arXiv:2404.06395},
   year={2024}
 }
+```