vwxyzjn
/

rm_zephyr_new

@@ -11,6 +11,38 @@ model-index:
     metrics:
     - type: accuracy
       value: 0.5343383584589615
   - task:
       type: preference_evaluation
     dataset:

     metrics:
     - type: accuracy
       value: 0.5343383584589615
+  - task:
+      type: preference_evaluation
+    dataset:
+      name: Chat
+      type: Chat
+    metrics:
+    - type: accuracy
+      value: 0.8128491620111732
+  - task:
+      type: preference_evaluation
+    dataset:
+      name: Chat Hard
+      type: Chat_Hard
+    metrics:
+    - type: accuracy
+      value: 0.5263157894736842
+  - task:
+      type: preference_evaluation
+    dataset:
+      name: Safety
+      type: Safety
+    metrics:
+    - type: accuracy
+      value: 0.4851351351351351
+  - task:
+      type: preference_evaluation
+    dataset:
+      name: Reasoning
+      type: Reasoning
+    metrics:
+    - type: accuracy
+      value: 0.3930266819446718
   - task:
       type: preference_evaluation
     dataset: