支持长文本、长图文及长语音：讯飞星火大模型V3.5更新版体验

近两个月来，国内大模型卷进了“长文本”大战，科大讯飞旗下的讯飞星火大模型也不例外。最近，讯飞星火大模型迎来了 V3.5 版本的更新，此次更新显著增强了对长文本、长图文和长语音的处理能力。同时，新版本还首次推出了星火图文识别大模型、多情感超拟人合成技术以及一句话复刻功能。

根据官方的说明，讯飞星火大模型在长文本处理方面，能够快速吸收和理解来自不同渠道的大量文本数据，针对各个行业和专业领域的问答，提供更加精准的回答。此外，在文件上传、知识问答响应速度以及文本生成等方面，讯飞星火的效率也得到了显著的提升。

今年初，IT之家对讯飞星火 V3.5 版本进行了深入的体验，并将其与 GPT-4 进行了全面的比较。从IT之家的评测来看，讯飞星火 V3.5 的综合能力已经能够与 GPT-4 相媲美，在逻辑推理、数学能力和知识库更新速度等方面，甚至展现出了一定的领先优势。

那么，搭载了长文本、长图文、长语音等新功能的讯飞星火大模型 V3.5 更新版，体验又将如何呢？接下来，IT之家将围绕这些新功能，进一步分享体验感受。

红框内，就是讯飞星火 V3.5 新能力的入口，最右侧的文件里，包含了你上传过的所有文档，都会以“云空间”的形式保存在里面，方便下次使用

一、长文本体验

长文本处理能力已经成为衡量各大模型产品硬实力的关键指标之一。

在日常生活中，我们不可避免地会遭遇那些冗长的文本内容，比如阅读起来乏味透顶的隐私政策，那些篇幅庞大、晦涩难懂的免责条款，还有那些曲折复杂，绕来绕去的保险合同。

面对这些动辄数十万字的文档，要完整地阅读它们，其难度堪比啃完哲学著作《形而上学》。

对于笔者自己而言，如果某一天在卫生间里忘记带手机，一边是放着一册 xx 保险示范条款。另一边放着一瓶沐浴露。我宁愿把沐浴露的成分列表背过，都不愿意去主动看 xx 保险条款。

然而，这些玩意的存在是有其必要性的，毕竟，写出来就是给我们看的。你可以选择不看，但若遇到问题，这些隐私政策和合同条款就可能成为关键。

所以问题来了，我们如何在数万乃至数十万字的内容中迅速定位到关键信息？特别是诸如保险条款、合同这些，如何找到对我们自己最有利的条款？或者，如何立即发现那些对我们不利规定？

再比如，对于一些财务人员，又或者是文字工作者，当面对某企业发布财报或白皮书时，如何从海量信息中提取出最关键的要点？如何快速找到最关心的信息？

总而言之，这种长文本的阅读需求是生活中经常遇到的痛点，而大模型的存在意义，就是帮我们繁杂的文字中找到我们最想要、最所需的信息。

那么讯飞星火大模型 V3.5 的表现又如何？

讯飞星火大模型 V3.5 界面，为了方便大家阅读，网页放大了 50%

1、合同条款类

首先，讯飞星火大模型 V3.5 全新引入了新引入的“星火合同助手”小组件，能全面辅助用户快速起草各类合同。

讯飞星火 V3.5 不仅能够提供一系列专业问题的通俗解答，确保法律准确性与合规性，还能通过其精准地判断和回答，帮助用户更有效地理解和处理复杂的信息。

以下图的《网站隐私政策》为例，这种隐私政策在我们生活中到处可见，诸如每款 App 打开之前都滑动同意那些冗长的条款。

网站隐私政策

笔者将该隐私政策复制成 Word，随后上传至讯飞星火大模型 V3.5 聊天框中：

红色箭头部分是长文档上传入口

随后询问了如下两个问题：

概述该隐私条款中我需要特别注意的问题

该隐私政策会获取我的哪些信息

讯飞星火大模型 V3.5 在收到问题后，都迅速做出了简单易懂的回答。

接下来笔者又上传了《费改机动车商业保险示范条款及免责事项说明书》（下图），字数在 2 万 + 左右，并针对免责条款、保险赔偿等方面咨询了各种问题。

费改机动车商业保险示范条款及免责事项说明书

比如，笔者询问“发动机进水赔偿吗？”，讯飞星火大模型 V3.5 迅速给出了回答：

回到《免责事项说明书》中，确实找到了这一说法，如下图红框内。

不过，笔者对这个“特约条款”的意思还是不太够理解，接着继续问飞星火大模型 V3.5，给出的回答（下图）：

随后，同样的问题咨询了保险公司人工客服，回答如下：

讯飞星火大模型 V3.5 和人工客服给出的回答是一样的。

关于这个“特约条款”，这里插一句。

笔者在网上查询了一番资料，简单来讲，保险新规后，正常发动机涉水是在车损险保障范围内的。但是呢，有些人的用车环境是在沙漠或者是雨水较少的地区。那么投保这个“特约条款”，可以进一步降低保费，但发动机进水损坏后，保险公司不会理赔。

从讯飞星火大模型 V3.5 的回答来看，确实将这个“条款”的意思表达的清清楚楚，和客服回答的也基本一致。

但是，这里有个“发动机涉水是包含在车损险保障范围内”的前提，而这个前提并未出现在这份两万字的“免责事项说明书”中。讯飞星火大模型 V3.5 是通过笔者提供的长文本来检索，自然也不知道这一点。

接下来，笔者又问“建议购买吗？”

讯飞星火大模型 V3.5 给出了明确的回答 —— 不建议。

客服同样不建议。

笔者又针对保险中的各种问题进行了提问，讯飞星火大模型 V3.5 都给出了精准回答：

从各种回答来看，讯飞星火 V3.5 都达到了一个令人满意的水准，且具备了一定的逻辑推理能力，能够给用户一个正确的建议。

2、研究报告类

本月 26 日上午，OPPO 发布了《OPPO 创新与知识产权白皮书》，pdf 文件，共有 23 页内容。

针对这份白皮书的内容，笔者也进行了一系列的提问。

讯飞星火 V3.5 的回答结果自然是令人满意的，且反馈速度极快，几乎就在几秒钟内给出回答。这对于一些文字工作者而言，简直就是效率神器了。

关于理想汽车的一份研究报告，有大量的图表、图片说明和数据，讯飞星火 V3.5 甚至还能根据报告中非常细分化的问题（比如销量）做出回答。

针对用户在科研方面的需求，这次讯飞星火 V3.5 还加入了长文本摘要能力，针对行业报告，也加入了长文本生成能力。

在星火助手中心中，找到星火科研助手，即可进行一系列的专业化回答。

笔者上传了研究报告《全球产业数字化转型趋势及方向研判》和《华为终端可持续发展报告 (2022-2023 年)》，并就其中的专业性问题发起了一系列提问。

讯飞星火 V3.5 能够提供系统性的回答，以应对这些专业领域的复杂问题。

长文本摘要：

长文本生成：

3、读书娱乐类

最后，笔者将余华《在细雨中呼喊》小说 TXT 文档上传至讯飞星火 V3.5，并针对小说中呈现的众多角色和故事情节提出了一系列问题。

《在细雨中呼喊》也是笔者最喜欢的小说之一，来来回回已经读了四五遍，对里面的每个故事和剧情都有深刻的印象。

但是呢，毕竟这也是一部有着 14.9 万字的长篇小说，小说里蕴含了众多的细节与情节交织，要让我给出一个周全而精准的回答，恐怕还真不容易。

那么讯飞星火 V3.5 的表现如何？

首先笔者提问，小说主人公的父亲（孙广才）是一个怎样的人？讯飞星火 V3.5 的回答如下：

在笔者看来，孙广才的后半生算是一个彻头彻底的无赖，自私虚伪，可鄙可怜。讯飞星火 V3.5 给出的回答与笔者的观点颇为接近，但评判的“力度”不太够。但不可否认，矛盾贯穿了孙广才的整个人生，讯飞星火 V3.5 也给出了这个观点。

《在细雨中呼喊》小说中作者对死亡有非常多的描述，而孙广才的死又是小说中最具戏剧化的一幕。

关于这个问题，讯飞星火 V3.5 也做了精准的回答 —— 他葬身于最为肮脏的地方，但死时并不知道这些。

关于祖父的一生经历，讯飞星火 V3.5 也能做一个简练的总结：

不过，关于一些更复杂的问题，讯飞星火 V3.5 在事实陈述上虽然明晰透彻，在深度评价方面稍显肤浅了一些。

比如，在“看待孙光明救人行为”这一问题时，讯飞星火 V3.5 回答“对其无私英雄主义的赞赏，也透露出对其鲁莽行为的批评态度。”

小说中作者却是这样描述的：

孙光明是为了救那个孩子才淹死的。将舍己救人用在我弟弟身上，显然是夸大其词。弟弟还没有崇高到愿意以自己的死去换别人的生。

他在那一刻的行为，来自于他对那几个七八岁孩子的权威。

当死亡袭击孙光明手下的孩子时，他粗心大意地以为自己可以轻而易举地去拯救。

被救的孩子根本无法回忆当初的情景，他只会瞠目结舌地看着询问他的人。几年以后，当有人再度提起这事时，那孩子一脸的将信将疑，仿佛这是别人编造的。

若不是村里有人亲眼所见，孙光明很可能被认为是自己淹死的。

二、长图文体验

比起单纯的无文字图片或长文本之外的复杂情况，讯飞星火 V3.5 的图文识别大模型可以针对复杂版面进行高精度解析。

官方表示，识别场景包括教育（书籍、作文批改）、专利、学术论文、报纸、金融文档、体检报告、自然场景、PPT、产品说明书、海报、读物、药盒、APP 截图等等。

针对上述场景，你可以对图片中的文字信息进行提问，也可以基于文字信息进行更深入、整合性的提问。

以笔者刚刚买的“鼻用喷雾剂”举例，手机拍摄说明书照片，随后上传至讯飞星火 V3.5 中。

笔者询问注意事项、使用方法，讯飞星火 V3.5 都能给出具体回答。

从结果来看，基本上是将说明书中的文字信息“OCR”了出来，然后根据词义整理，反馈给提问者。

更复杂的场景，笔者上传了 USB 测试仪使用说明书的截图：

针对不同的接口，进行了功能提问，讯飞星火 V3.5 回答也令人满意。

笔者又上传了此前参加活动拍摄一张 PPT 图片，并让讯飞星火 V3.5 提取照片中的重点。

结果显示，讯飞星火 V3.5 准确地识别出了照片中的内容，并且正确判断出这是广汽集团的技术展示，同时注意到了在场观众对此表现出的高度关注。

写到这，笔者简单感慨一下，这个功能的想象力空间确实巨大，特别是对于视障人士而言，尽管他们的双眼无法看见，但只需通过手机拍下照片，上传至讯飞星火，便能立即通过语音描述，将眼前的世界传达给视障者，能够给日常生活带来极大的帮助。

当然，现阶段的体验也并非十全十美，比如就出现过一次“已读乱回”的现象（下图），回答得莫名其妙，有一定的优化空间。

三、长语音、视频体验

在当今的学习与生活中，我们不仅需要大模型来助力文字处理，同样也需要其协助处理语音和视频资料。尤其在“全民短视频”的风潮下，明明一两句就能说明白的话，非要做成一个视频。

同时，对于学生群体和职场人士而言，无论是学术讲座还是商务采访的视频资料都包含了丰富的信息。关键在于，如何从这些视频中高效提取出核心要点？

升级后的讯飞星火 V3.5 能够协助用户在这些多媒体内容中迅速捕捉和理解关键信息。

笔者上传了IT之家《今天，北京车展，哭笑嘿哈》这篇语音文章，时长在 19 分钟左右。

针对音频，笔者提问了音频的主要内容，讯飞星火 V3.5 用极短的时间给出了回答。

从结果来看，基本是令人满意的。

不过也有一些细节上的小错误，比如把极氪识别成了“极客”，把蔚来 ET7 识别成了“A7”，但瑕不掩瑜，这个表现已经很出色了。要知道，上述音频中有各种新技术名词、新车名称，以及各种汉英夹杂的情况，这本身就有非常高的识别难度。

接下来笔者又围绕腾势、迈腾等新车，提出了更具体的问题，讯飞星火 V3.5 的答复都很令人满意。

讯飞星火 V3.5 同样也支持上传视频，就拿IT之家发布过的《种草华为运动健康全家桶》导购视频为例，视频长达 6 分钟。

首先，笔者让其概述整个视频内容，讯飞星火 V3.5 给出了精准回答。

不过，一个细节上的小错误，把“HarmonyOS”识别成了“哈姆 6s”（也有可能跟视频里的读音有关），但是整体回答并没有偏离主题，也没有给出含糊不清的回答。

询问视频推荐哪些值得买的产品，讯飞星火 V3.5 也能依次排列，并给出每个产品的亮点。

另外，在体验中，讯飞星火 V3.5 在识别过程中，也没有太长的加载时间，基本问题都是按“秒”来回答的，而且是越用越快，你问的问题越多，它回答的速度就越快。

四、讯飞星火语音大模型

讯飞星火 V3.5 这次升级了星火语音大模型，带来了“多情感超拟人合成”和“一句话声音复刻”首发两项功能，偏趣味性体验。

在语音对话中是一个类似通话界面，而讯飞星火大模型所提供的回答非常接近自然人声，虽然带有一丝机器人特有的韵味，但整体上已经非常逼真。

“一句话声音复刻”就很有意思了，它可以模仿你或者是身边其他人的声音。完成声纹录制后，你可以在“我创建的发音人”中找到自己的声音。选择后，在使用语音交互时，大模型就会以自己的声音与你对话，且声音还原地相当真实。

大家可以点击下方视频感受一下：

总结：

AI 不是一个新鲜的概念，几年前谈及 AI 改变生活，笔者总觉得是天方夜谭，遥不可及。然而，也就在这短短两三年的时间里，AI 技术迎来了爆炸性的升级变革，一个真正属于 AI 的黄金时代就在眼前。

在这个过程中，科大讯飞既是参与者，也是推动者。讯飞的星火大模型，也仅仅是科大讯飞在 AI 领域创新的一个具体呈现之一。

这一次讯飞星火大模型 V3.5 升级，在长文本处理、图文识别以及长语音和视频处理方面都展现出了卓越的能力，重点加码了用户在专业性、实用性这两方面的需求体验。

就拿文章开头讲到的那样，我们每天要接触着海量的信息，一份用词晦涩、专业术语堆积、绕来绕去的合同，又或者是复杂难懂的免责条款就能难道无数打工人。

在过去，或许需要上网查阅各种资料，又或者是花钱咨询专家来获得帮助。这个过程中，你或许还会遇到各种充值缴费才能显示答案，寻找专家过程中也难免遇到各类骗子。

但是有了讯飞星火大模型 V3.5 这类应用的出现，上述问题处理的就非常简单了。

类似的场景还有那些冗长繁琐的会议音频，打工人可以轻松地在几万字的车轱辘话中找到最关键的那几句；在视频中迅速提取精华，甚至为科研报告快速生成摘要...

尽管讯飞星火大模型 V3.5 在某些细节体验上还有待优化，但其所带来的想象力空间无疑是巨大的。

今年 6 月 27 日讯飞星火 V4.0 将正式发布，届时还将带来哪些新功能，我们可以好好期待一下了。

电脑装配网