四、长语音:突破音视频的界限 精准识别 总结到位
这一次的春季更新,讯飞星火大模型还新增了音视频的识别能力,我们可以自由上传音频和视频文件,主要针对诸如会议录音、对话、学习、访谈视频、讲座视频等学习和工作场景。
在界面中,我们选中“音视频”按钮,直接上传音频或视频文件,大模型便能进行深度识别。
我们也准备了一段音频文件和一段视频文件,来测试一下它对音视频的识别能力与问答能力。
①录音:罗翔对话余华
问题1:为什么说鲁迅是一个病人写的书?
问题2:在《兄弟》这本书中,作者如何通过自己的经历和观察来揭示社会弊病?
面对音频文件的识别,讯飞星火会将音频内容进行转写,我们通过提问的方式让其对音频内容进行作答,最终的答案没有偏离主题,也没有含糊其辞,而是直截了当地给出了问题的解答,从这里可以清晰地看到讯飞星火在语音识别和语言理解方面的出色表现力。
②视频:樊振东WTT仁川冠军赛采访视频
我们也选用了一段樊振东WTT仁川冠军赛采访的视频,让讯飞星火进行识别,并让它简要概述这个视频的内容。
问题:简要概述整个视频的内容
在30秒左右的时间内,讯飞星火可以对一段5分钟左右的视频进行精准识别,理解其内涵内容,并将其汇总成一段200字左右的简要概述。
这项技术的应用非常广泛,可以用于新闻报道、教育讲座、商业演讲等各种场景。
例如,新闻记者可以使用讯飞星火快速生成新闻摘要,节省大量的时间和精力;教师可以使用它来帮助学生理解和记忆课堂内容;商业人士也可以使用它来快速获取会议或演讲的关键信息。
而且呢,我们上传过的文档、视频、图片、音频等内容,都会暂存在“个人空间”内,便于以后快速查找和进行知识问答。
“个人空间”,在界面的右上角位置和底部的对话框位置均可找到。