实测昆仑万维大模型「天工」3.5：“文科脑”能说会道也解不出鸡兔同笼

最新信息

2023-04-18 10:34:00

　　财联社4月18日讯（记者崔铭）昨日，昆仑万维（300418.SZ）正式发布大语言模型「天工」3.5，同时宣布即日起启动邀请测试。财联社记者第一时间对其进行了测评。

　　「天工」3.5由昆仑万维与奇点智源联合研发，昆仑万维方面称，其为第一个真正实现智能涌现的国产大语言模型，已“非常接近OpenAI ChatGPT的智能水平”，可满足文案创作、知识问答、代码编程、逻辑推演、数理推算等多元化需求。
　　那么，该产品实际表现如何？让我们一探究竟。
　　在开始测试前，记者先请「天工」3.5做了个自我介绍。

　　考虑到在此之前，业内已有多家企业推出大模型，记者也顺势问了它与其他大模型相比有什么优点？
　　「天工」3.5回答其优点在于灵活、高效、智能、安全和环保，并表示自己是一个“非常有用和可靠的工具”。

　　初步了解之后，记者接下来分别从文本写作、语义理解、逻辑推理、数学计算、撰写代码这几个方面，实测「天工」3.5的各项能力。
　　首先，我们抛出了一个比较常规的写作要求：如果续写《西游记》故事，可以有哪些角度？
　　可以看到，「天工」3.5给出了几个写作方向，语言组织能力较为通顺，也较为符合逻辑。

　　随后，记者让其以“月光”为主题写一首有平仄且押韵的七言律诗，「天工」3.5在几秒钟内便完成了。

　　有趣的是，记者也让ChatGPT（3.5版本）写了一首，发现两首诗竟有不少重叠的部分。

　　工具总归是要落到实处，记者让其写一条MMORPG游戏广告文案，要求要有梗有转折。「天工」3.5迅速给出了答案，内容整体风格符合该类游戏特点，但转折部分稍显生硬。

　　记者又提出让它撰写电商运营岗位的招聘JD（职位描述），「天工」3.5给出了非常详细的答复，涵盖职位名称、职位描述、任职要求、薪资待遇，甚至最后还附上了公司介绍和投递邮箱。不仅格式工整，内容也较为合理。

　　语义理解方面，「天工」3.5能准确说出成语释义。

　　也懂一点上海话。

　　记者决定加大难度，问一些“陷阱题”，看看「天工」3.5能否从容应对。
　　先来一个脑筋急转弯，提问：小明的爸爸有三个儿子，大儿子叫大毛，二儿子叫二毛，三儿子叫什么名字？
　　「天工」3.5一次就答对了。

　　同样的问题，记者去问ChatGPT（3.5版本），虽也回答正确，但多了一句灵魂拷问：所以小明的名字是什么。

　　再来一道灯谜题，提问：说它是头牛，不会拉犁头，说它力气小，背着屋子走。（打一个动物）
　　「天工」3.5又一次答对了。

　　而ChatGPT（3.5版本）并没有答对。

　　面对“蒸包子”问题，「天工」3.5也回答的头头是道，颇为“理性”。

　　ChatGPT（3.5版本）则给出了略微不同的回答。

　　接着，记者希望能考一下它的数学能力。
　　最经典的“鸡兔同笼”问题：若干只鸡兔同在一个笼子里，已知笼子里有9个头，有30只脚，请问笼中各有多少只鸡和兔？
　　这次「天工」3.5列出了正确的方程式，却得出了错误的答案。

　　在被指出这一问题后，「天工」3.5 “虚心认错”并重新计算了一遍，但还是没有得出正确的答案。

　　同样的题目，我们又问了一遍ChatGPT（3.5版本），依然是列出了正确的方程式，但在运算过程中出错，最后也没有回答正确。

　　记者又问了一道奥数题：已知父亲今年32岁，儿子今年5岁，请问几年后父亲的年龄正好是儿子的年龄的4倍？
　　这次「天工」3.5没有答出。

　　同样的问题，ChatGPT（3.5版本）算出了正确答案。

　　记者还尝试使用「天工」3.5写代码，提问：用Scala实现并查集，在得到回答后，又再次提问：用Java再写一遍。
　　随后记者拿给程序员朋友检查，对方称结果是对的，还表示这一问题相对基础，写代码能力如何还要视具体需求，若能进行多轮对话联系上下文修改，会是个辅助业务的“好帮手”。

　　最后，以一个哲学问题结尾。
　　记者问了著名的“电车难题”，「天工」3.5指出这是一个伦理困境的问题，并给出了一个辩证的答复。

　　从记者体验来看，「天工」3.5已经能够较为准确、完整、流畅地回答问题，较少出现“答非所问”的情况。在跟ChatGPT（3.5版本）对比使用过程中，二者的文本写作能力接近，在一些与数理相关问题上，还有优化的空间。
　　昆仑万维CEO方汉在昨日发布会上透露，「天工」3.5累计投入数亿元，由数百人研发团队历时3年时间打造。目前最高已能支持1万字以上文本对话，实现20轮次以上用户交互，在多类问答场景中都能实现较高的输出水平及较强记忆能力。
　　据悉，未来昆仑万维「天工」大模型在数理、逻辑推理等方面也将不断迭代优化，随着产品技术成熟，将根据监管和合规要求逐步启动开源，「天工」4和「天工」5也在推进计划中。
（文章来源：财联社）

免责申明： 本站部分内容转载自国内知名媒体，如有侵权请联系客服删除。