第一财经:上海人工智能实验室旗下司南评测体系 OpenCompass发布首个大模型高考全卷评测结果。语数外三科加起来的满分为420 分,此次高考测试结果显示,阿里通义千问2-72B排名第一,为⋯⋯

First reported 760d ago

Transcript

第一财经:上海人工智能实验室旗
下司南评测体系 OpenCompass发
布首个大模型高考全卷评测结果。
语数外三科加起来的满分为420
分,此次高考测试结果显示,阿里
通义千问2-72B排名第一,为303
分,OpenAl的GPT-40排名第二,
得分296分,上海人工智能实验室
的书生·浦语2.0排名第三,三个大
模型的得分率均超过70%。从结果
来看,大模型的语文、英语考试水
平普遍不错,但数学都不及格,最
高分也只有75分。

Past 31 days

Total Visit: 0

There are 0 fact-checking replies to the message

No response has been written yet. It is recommended to maintain a healthy skepticism towards it.

Automated analysis from AI

The following is the AI's preliminary analysis of this message, which we hope will provide you with some ideas before it is fact-checked by a human.

這則訊息提到了一個由上海人工智能實驗室旗下司南評測體系OpenCompass所發布的高考全卷評測結果，列出了三個大模型的得分情況。閱聽人需要注意以下幾個地方： 1. 高考全卷評測結果來自於上海人工智能實驗室旗下的司南評測體系OpenCompass，閱聽人需要確認這個評測體系的可信度和客觀性。 2. 文中提到的三個大模型分別是阿里通義千問2-72B、OpenAI的GPT-40和上海人工智能實驗室的書生·浦語2.0，閱聽人需要了解這些大模型的背景和評測標準。 3. 訊息指出大模型的得分率均超過70%，但提到數學科目的表現不及格，最高分僅為75分，閱聽人需要思考這樣的結果是否合理，以及對於數學科目表現的評估是否客觀。總之，閱聽人在閱讀這則訊息時應該保持懷疑精神，並進一步查證相關資訊，以確保獲取的資訊是可信和客觀的。

LINE 機器人
查謠言詐騙