近两个月来,国内大模型卷进了“长文本”大战,科大讯飞旗下的讯飞星火大模型也不例外。最近,讯飞星火大模型迎来了 V3.5 版本的更新,此次更新显著增强了对长文本、长图文和长语音的处理能力。同时,新版本还首次推出了星火图文识别大模型、多情感超拟人合成技术以及一句话复刻功能。
根据官方的说明,讯飞星火大模型在长文本处理方面,能够快速吸收和理解来自不同渠道的大量文本数据,针对各个行业和专业领域的问答,提供更加精准的回答。此外,在文件上传、知识问答响应速度以及文本生成等方面,讯飞星火的效率也得到了显著的提升。
今年初,IT之家对讯飞星火 V3.5 版本进行了深入的体验,并将其与 GPT-4 进行了全面的比较。从IT之家的评测来看,讯飞星火 V3.5 的综合能力已经能够与 GPT-4 相媲美,在逻辑推理、数学能力和知识库更新速度等方面,甚至展现出了一定的领先优势。
那么,搭载了长文本、长图文、长语音等新功能的讯飞星火大模型 V3.5 更新版,体验又将如何呢?接下来,IT之家将围绕这些新功能,进一步分享体验感受。
红框内,就是讯飞星火 V3.5 新能力的入口,最右侧的文件里,包含了你上传过的所有文档,都会以“云空间”的形式保存在里面,方便下次使用一、长文本体验
长文本处理能力已经成为衡量各大模型产品硬实力的关键指标之一。
在日常生活中,我们不可避免地会遭遇那些冗长的文本内容,比如阅读起来乏味透顶的隐私政策,那些篇幅庞大、晦涩难懂的免责条款,还有那些曲折复杂,绕来绕去的保险合同。
面对这些动辄数十万字的文档,要完整地阅读它们,其难度堪比啃完哲学著作《形而上学》。
对于笔者自己而言,如果某一天在卫生间里忘记带手机,一边是放着一册 xx 保险示范条款。另一边放着一瓶沐浴露。我宁愿把沐浴露的成分列表背过,都不愿意去主动看 xx 保险条款。
然而,这些玩意的存在是有其必要性的,毕竟,写出来就是给我们看的。你可以选择不看,但若遇到问题,这些隐私政策和合同条款就可能成为关键。
所以问题来了,我们如何在数万乃至数十万字的内容中迅速定位到关键信息?特别是诸如保险条款、合同这些,如何找到对我们自己最有利的条款?或者,如何立即发现那些对我们不利规定?
再比如,对于一些财务人员,又或者是文字工作者,当面对某企业发布财报或白皮书时,如何从海量信息中提取出最关键的要点?如何快速找到最关心的信息?
总而言之,这种长文本的阅读需求是生活中经常遇到的痛点,而大模型的存在意义,就是帮我们繁杂的文字中找到我们最想要、最所需的信息。
那么讯飞星火大模型 V3.5 的表现又如何?
讯飞星火大模型 V3.5 界面,为了方便大家阅读,网页放大了 50%1、合同条款类
首先,讯飞星火大模型 V3.5 全新引入了新引入的“星火合同助手”小组件,能全面辅助用户快速起草各类合同。
讯飞星火 V3.5 不仅能够提供一系列专业问题的通俗解答,确保法律准确性与合规性,还能通过其精准地判断和回答,帮助用户更有效地理解和处理复杂的信息。
以下图的《网站隐私政策》为例,这种隐私政策在我们生活中到处可见,诸如每款 App 打开之前都滑动同意那些冗长的条款。
网站隐私政策笔者将该隐私政策复制成 Word,随后上传至讯飞星火大模型 V3.5 聊天框中:
红色箭头部分是长文档上传入口随后询问了如下两个问题:
概述该隐私条款中我需要特别注意的问题
该隐私政策会获取我的哪些信息
讯飞星火大模型 V3.5 在收到问题后,都迅速做出了简单易懂的回答。
接下来笔者又上传了《费改机动车商业保险示范条款及免责事项说明书》(下图),字数在 2 万 + 左右,并针对免责条款、保险赔偿等方面咨询了各种问题。
费改机动车商业保险示范条款及免责事项说明书比如,笔者询问“发动机进水赔偿吗?”,讯飞星火大模型 V3.5 迅速给出了回答:
回到《免责事项说明书》中,确实找到了这一说法,如下图红框内。
不过,笔者对这个“特约条款”的意思还是不太够理解,接着继续问飞星火大模型 V3.5,给出的回答(下图):
随后,同样的问题咨询了保险公司人工客服,回答如下:
讯飞星火大模型 V3.5 和人工客服给出的回答是一样的。
关于这个“特约条款”,这里插一句。
笔者在网上查询了一番资料,简单来讲,保险新规后,正常发动机涉水是在车损险保障范围内的。但是呢,有些人的用车环境是在沙漠或者是雨水较少的地区。那么投保这个“特约条款”,可以进一步降低保费,但发动机进水损坏后,保险公司不会理赔。
从讯飞星火大模型 V3.5 的回答来看,确实将这个“条款”的意思表达的清清楚楚,和客服回答的也基本一致。
但是,这里有个“发动机涉水是包含在车损险保障范围内”的前提,而这个前提并未出现在这份两万字的“免责事项说明书”中。讯飞星火大模型 V3.5 是通过笔者提供的长文本来检索,自然也不知道这一点。
接下来,笔者又问“建议购买吗?”
讯飞星火大模型 V3.5 给出了明确的回答 —— 不建议。
客服同样不建议。
笔者又针对保险中的各种问题进行了提问,讯飞星火大模型 V3.5 都给出了精准回答:
从各种回答来看,讯飞星火 V3.5 都达到了一个令人满意的水准,且具备了一定的逻辑推理能力,能够给用户一个正确的建议。
2、研究报告类
本月 26 日上午,OPPO 发布了《OPPO 创新与知识产权白皮书》,pdf 文件,共有 23 页内容。
针对这份白皮书的内容,笔者也进行了一系列的提问。
讯飞星火 V3.5 的回答结果自然是令人满意的,且反馈速度极快,几乎就在几秒钟内给出回答。这对于一些文字工作者而言,简直就是效率神器了。
关于理想汽车的一份研究报告,有大量的图表、图片说明和数据,讯飞星火 V3.5 甚至还能根据报告中非常细分化的问题(比如销量)做出回答。
针对用户在科研方面的需求,这次讯飞星火 V3.5 还加入了长文本摘要能力,针对行业报告,也加入了长文本生成能力。
在星火助手中心中,找到星火科研助手,即可进行一系列的专业化回答。
笔者上传了研究报告《全球产业数字化转型趋势及方向研判》和《华为终端可持续发展报告 (2022-2023 年)》,并就其中的专业性问题发起了一系列提问。
讯飞星火 V3.5 能够提供系统性的回答,以应对这些专业领域的复杂问题。
长文本摘要:
长文本生成:
3、读书娱乐类
最后,笔者将余华《在细雨中呼喊》小说 TXT 文档上传至讯飞星火 V3.5,并针对小说中呈现的众多角色和故事情节提出了一系列问题。
《在细雨中呼喊》也是笔者最喜欢的小说之一,来来回回已经读了四五遍,对里面的每个故事和剧情都有深刻的印象。
但是呢,毕竟这也是一部有着 14.9 万字的长篇小说,小说里蕴含了众多的细节与情节交织,要让我给出一个周全而精准的回答,恐怕还真不容易。
那么讯飞星火 V3.5 的表现如何?
首先笔者提问,小说主人公的父亲(孙广才)是一个怎样的人?讯飞星火 V3.5 的回答如下:
在笔者看来,孙广才的后半生算是一个彻头彻底的无赖,自私虚伪,可鄙可怜。讯飞星火 V3.5 给出的回答与笔者的观点颇为接近,但评判的“力度”不太够。但不可否认,矛盾贯穿了孙广才的整个人生,讯飞星火 V3.5 也给出了这个观点。
《在细雨中呼喊》小说中作者对死亡有非常多的描述,而孙广才的死又是小说中最具戏剧化的一幕。
关于这个问题,讯飞星火 V3.5 也做了精准的回答 —— 他葬身于最为肮脏的地方,但死时并不知道这些。
关于祖父的一生经历,讯飞星火 V3.5 也能做一个简练的总结:
不过,关于一些更复杂的问题,讯飞星火 V3.5 在事实陈述上虽然明晰透彻,在深度评价方面稍显肤浅了一些。
比如,在“看待孙光明救人行为”这一问题时,讯飞星火 V3.5 回答“对其无私英雄主义的赞赏,也透露出对其鲁莽行为的批评态度。”
小说中作者却是这样描述的:
孙光明是为了救那个孩子才淹死的。将舍己救人用在我弟弟身上,显然是夸大其词。弟弟还没有崇高到愿意以自己的死去换别人的生。
他在那一刻的行为,来自于他对那几个七八岁孩子的权威。
当死亡袭击孙光明手下的孩子时,他粗心大意地以为自己可以轻而易举地去拯救。
被救的孩子根本无法回忆当初的情景,他只会瞠目结舌地看着询问他的人。几年以后,当有人再度提起这事时,那孩子一脸的将信将疑,仿佛这是别人编造的。
若不是村里有人亲眼所见,孙光明很可能被认为是自己淹死的。
二、长图文体验
比起单纯的无文字图片或长文本之外的复杂情况,讯飞星火 V3.5 的图文识别大模型可以针对复杂版面进行高精度解析。
官方表示,识别场景包括教育(书籍、作文批改)、专利、学术论文、报纸、金融文档、体检报告、自然场景、PPT、产品说明书、海报、读物、药盒、APP 截图等等。
针对上述场景,你可以对图片中的文字信息进行提问,也可以基于文字信息进行更深入、整合性的提问。
以笔者刚刚买的“鼻用喷雾剂”举例,手机拍摄说明书照片,随后上传至讯飞星火 V3.5 中。
笔者询问注意事项、使用方法,讯飞星火 V3.5 都能给出具体回答。
从结果来看,基本上是将说明书中的文字信息“OCR”了出来,然后根据词义整理,反馈给提问者。
更复杂的场景,笔者上传了 USB 测试仪使用说明书的截图:
针对不同的接口,进行了功能提问,讯飞星火 V3.5 回答也令人满意。
笔者又上传了此前参加活动拍摄一张 PPT 图片,并让讯飞星火 V3.5 提取照片中的重点。
结果显示,讯飞星火 V3.5 准确地识别出了照片中的内容,并且正确判断出这是广汽集团的技术展示,同时注意到了在场观众对此表现出的高度关注。
写到这,笔者简单感慨一下,这个功能的想象力空间确实巨大,特别是对于视障人士而言,尽管他们的双眼无法看见,但只需通过手机拍下照片,上传至讯飞星火,便能立即通过语音描述,将眼前的世界传达给视障者,能够给日常生活带来极大的帮助。
当然,现阶段的体验也并非十全十美,比如就出现过一次“已读乱回”的现象(下图),回答得莫名其妙,有一定的优化空间。
三、长语音、视频体验
在当今的学习与生活中,我们不仅需要大模型来助力文字处理,同样也需要其协助处理语音和视频资料。尤其在“全民短视频”的风潮下,明明一两句就能说明白的话,非要做成一个视频。
同时,对于学生群体和职场人士而言,无论是学术讲座还是商务采访的视频资料都包含了丰富的信息。关键在于,如何从这些视频中高效提取出核心要点?
升级后的讯飞星火 V3.5 能够协助用户在这些多媒体内容中迅速捕捉和理解关键信息。
笔者上传了IT之家《今天,北京车展,哭笑嘿哈》这篇语音文章,时长在 19 分钟左右。
针对音频,笔者提问了音频的主要内容,讯飞星火 V3.5 用极短的时间给出了回答。
从结果来看,基本是令人满意的。
不过也有一些细节上的小错误,比如把极氪识别成了“极客”,把蔚来 ET7 识别成了“A7”,但瑕不掩瑜,这个表现已经很出色了。要知道,上述音频中有各种新技术名词、新车名称,以及各种汉英夹杂的情况,这本身就有非常高的识别难度。
接下来笔者又围绕腾势、迈腾等新车,提出了更具体的问题,讯飞星火 V3.5 的答复都很令人满意。
讯飞星火 V3.5 同样也支持上传视频,就拿IT之家发布过的《种草华为运动健康全家桶》导购视频为例,视频长达 6 分钟。
首先,笔者让其概述整个视频内容,讯飞星火 V3.5 给出了精准回答。
不过,一个细节上的小错误,把“HarmonyOS”识别成了“哈姆 6s”(也有可能跟视频里的读音有关),但是整体回答并没有偏离主题,也没有给出含糊不清的回答。
询问视频推荐哪些值得买的产品,讯飞星火 V3.5 也能依次排列,并给出每个产品的亮点。
另外,在体验中,讯飞星火 V3.5 在识别过程中,也没有太长的加载时间,基本问题都是按“秒”来回答的,而且是越用越快,你问的问题越多,它回答的速度就越快。
四、讯飞星火语音大模型
讯飞星火 V3.5 这次升级了星火语音大模型,带来了“多情感超拟人合成”和“一句话声音复刻”首发两项功能,偏趣味性体验。
在语音对话中是一个类似通话界面,而讯飞星火大模型所提供的回答非常接近自然人声,虽然带有一丝机器人特有的韵味,但整体上已经非常逼真。
“一句话声音复刻”就很有意思了,它可以模仿你或者是身边其他人的声音。完成声纹录制后,你可以在“我创建的发音人”中找到自己的声音。选择后,在使用语音交互时,大模型就会以自己的声音与你对话,且声音还原地相当真实。
大家可以点击下方视频感受一下:
总结:
AI 不是一个新鲜的概念,几年前谈及 AI 改变生活,笔者总觉得是天方夜谭,遥不可及。然而,也就在这短短两三年的时间里,AI 技术迎来了爆炸性的升级变革,一个真正属于 AI 的黄金时代就在眼前。
在这个过程中,科大讯飞既是参与者,也是推动者。讯飞的星火大模型,也仅仅是科大讯飞在 AI 领域创新的一个具体呈现之一。
这一次讯飞星火大模型 V3.5 升级,在长文本处理、图文识别以及长语音和视频处理方面都展现出了卓越的能力,重点加码了用户在专业性、实用性这两方面的需求体验。
就拿文章开头讲到的那样,我们每天要接触着海量的信息,一份用词晦涩、专业术语堆积、绕来绕去的合同,又或者是复杂难懂的免责条款就能难道无数打工人。
在过去,或许需要上网查阅各种资料,又或者是花钱咨询专家来获得帮助。这个过程中,你或许还会遇到各种充值缴费才能显示答案,寻找专家过程中也难免遇到各类骗子。
但是有了讯飞星火大模型 V3.5 这类应用的出现,上述问题处理的就非常简单了。
类似的场景还有那些冗长繁琐的会议音频,打工人可以轻松地在几万字的车轱辘话中找到最关键的那几句;在视频中迅速提取精华,甚至为科研报告快速生成摘要...
尽管讯飞星火大模型 V3.5 在某些细节体验上还有待优化,但其所带来的想象力空间无疑是巨大的。
今年 6 月 27 日讯飞星火 V4.0 将正式发布,届时还将带来哪些新功能,我们可以好好期待一下了。