订阅
纠错
加入自媒体

8家大模型挑战高考作文

6 月 7 日消息,2023 年全国高考正式拉开大幕,全国有 1291 万考生奔赴考场,报考人数再创历史新高。

高考作文题历年来都是最受瞩目的热点,今天,就用高考作文题来检验一下各家大模型的真实水平,是骡子是马出来溜溜。

这里选择“ChatGPT、微软 Bing、文心一言、通义千问、昆仑万维「天工」、钉钉斜杠「/」、360智脑、讯飞星火” 8 款代表性产品检测大模型能力。测试标准统一,输入全国卷甲卷高考题目全文,对比各大模型产品首次生成的内容。

全国卷全国甲卷作文土木要求如下——

阅读下面的材料,根据要求写作。(60分)

人们因技术发展得以更好地掌控时间,但也有人因此成了时间的仆人。

这句话引发了你怎样的联想与思考?请写一篇文章。

要求:选准角度,确定立意,明确文体,自拟标题;不要套作,不得抄袭;不得泄露个人信息;不少于800字。

真金不怕火炼,一起看看各家大模型表现。

ChatGPT

题目《科技的发展:让人们更好地掌控时间还是失去掌控能力?》

评价:字数 702 字,表现中庸,乏善可陈。


微软 New Bing

题目:《技术的发展:掌控时间与成为时间的奴隶》

评价:字数702 字,不及作文硬性要求,产出结果为“回答”样式,并非结构完整的“作文”。优点在于上下文、上下句逻辑尚算的上连贯。


百度「文心一言」

题目《技术的双面性:时间的掌控与自由的丧失》


评价:997 字字数达标,对比下来属于表现优秀的了,一次提示直接给出题目和文章主干,结构整齐,有引用名言加分。缺点方面,各位请看文章倒数第一、二自然段,“最后”和“总得来说”章节中,车轱辘话反复说,有拼凑感。


阿里「通义千问」

题目《把握时间的“度”》


评价:字数 551 字恐会扣分,文章题目需要二次问询才能生成。


钉钉斜杠「/」

题目《技术的双刃剑:掌控时间,还是被时间支配?》

评价:918 字,在逻辑上和措辞上表现不俗,“议论文”特质拉满,进行了反思并给出措施。也存在车轱辘话反复说的问题。


昆仑万维「天工」

题目《掌控时间,而不是被时间控制:如何在科技时代保持自主性和掌控力》


评价:585 字恐被扣分,文章题目奇怪,且需要追问题目是什么,理解题意的能力有限。


科大讯飞「讯飞星火」

题目《时间的掌控与仆人》


评价:820 字,在逻辑上和措辞上挺好,还会“结合自身经历”,举例“我有一个程序员朋友”。


360 智脑

题目《技术发展与时间管理》


评价:821 字,需要追问方给出题目,表现中规中矩。


Closing  Thoughts

以上,就是八款主流 AI 工具生成的高考作文。

整体上,细读以上文章不难发现,写的不咋地都。。(摊手)

各家大模型产出内容普遍逻辑结构混乱,论据不充分,上下文衔接是生硬,名言引用并不那么贴切,这种文章在高考赛场上是拿不到高分的。要是加个查重率,不得全军覆没。

但是,大模型产出内容胜在产量高,速度快,几秒钟就好了,随着迭代内容质量会被优化。

具体来说,从文章结构上来看文心一言更胜一筹,层次清楚分明;讯飞星火和钉钉在逻辑上和措辞上挺好,讯飞星火还会“结合自身经历”,举例“我有一个程序员朋友”;钉钉斜杠「/」文风“议论文”特质拉满,进行了反思并给出措施;New Bing 给出的答案不能构成完整文章结构,产出字数493字是偏离字数要求的;至于 ChatGPT,表现中规中矩,因期望过高反而没感受到“惊喜”。

那么,您看下来觉得哪篇文章写得最好?满分 60 分的作文,它们又分别能得多少分呢?

声明: 本网站所刊载信息,不代表OFweek观点。刊用本站稿件,务经书面授权。未经授权禁止转载、摘编、复制、翻译及建立镜像,违者将依法追究法律责任。

发表评论

0条评论,0人参与

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

人工智能 猎头职位 更多
扫码关注公众号
OFweek人工智能网
获取更多精彩内容
文章纠错
x
*文字标题:
*纠错内容:
联系邮箱:
*验 证 码:

粤公网安备 44030502002758号