搜狗秒收技术是什么(搜狗输入法怎样自动发送)_网络推广

摘要：先爬再走后跑，可以形象地概括为搜狗同传的技术路线演进图。

「语言是人工智能皇冠上的一颗明珠」，王小川如此比喻。

从输入法到搜索引擎，表达信息和获取信息被搜狗汲取到了产品发展脉络中。向 AI 时代跨越的搜狗，产品需要以新技术和新形态来承载。

而在 AI 商业化落地的进程中，搜狗以自然交互和知识计算分别作为横轴和纵轴。横纵交汇处，便是搜狗在 AI 语音技术和产品的布局。在已成型的项目中，有一个产品显而易见，那就是「搜狗同传」。

在中国，从事同传工作的，大多数是英语专业背景，精通全领域是充分而非必要条件。而面对涉及医疗、数学和物理等领域的会议时，同传人员并不能很好地将这些相关术语准地翻译。

当学术盲点变成了行业痛点，以语音智能见长的科技公司便主动出击，抓住了同声传译这一细分市场的机遇。迭代到 3.0 版本的搜狗同传，已在逾千场大型会议上登场。

搜狗认为，机器同传的产品价值，主要体现在其致力于解决跨语言交流、跨语言信息获取和语言表达的电子化记录等障碍。若要真正实现这三点，不能单纯地把语音识别和机器翻译做嫁接，而需要一套完整的「有机系统」。

搜狗同传产品的迭代轨迹

作为业内首个商用机器同传的产品，搜狗同传的初始版本要追溯至 2016 年 11 月。

「在测试级的准确率波动比较大」，这是内部对搜狗同传 1.0 的客观描述。比如领域、口音、中英文混杂等因素，都是导致同传输出的内容出现极强不确定性的原因。「只有（演讲者）字正腔圆时，准确率才达到 95% 到 98%，其他时候可能只有 80%，」搜狗 AI 交互技术总监陈伟如是说。

三年后，同样的舞台，相近的时间，搜狗同传进化到了第三代。对比初代版本，「其识别能力越来越强，错误率越来越小，稳定性越来越好」，这是团队给出的全新评价。

早期同传产品之所以收效甚微，恰恰是没有很好地搭建其这套系统模型。陈伟指出，传统的同传产品掣肘于通用模型，在会议同传场景下，一旦涉及专业领域的内容，机器同传的效果和准确度就远不及人工同传。

搜狗同传 1.0 发布以来就陷入了瓶颈。每逢重大场合，陈伟和团队就忐忑不已。归根到底，是担心效果不好。为了加速商用化进程，团队连带推出了「个性化私人定制」的服务，就是投入人力，针对演讲内容做优化。

在推进的过程中团队发现，由于很难把所有演讲人的 PPT 和材料收全，导致所谓的「个性化定制」很难在会前完成。当产品上了试炼战场，疲于应付的「下下策」总不是长久之计。况且，一家科技公司不应受困于技术。

顺着个性化定制的思路，团队在琢磨：「如果把接口开放给用户，事先上传演讲稿或重点内容会不会好一些？」实现这一点不难，单仍旧谈不上进步。要知道，大会演讲通常是来也匆匆，去也匆匆，嘉宾上阵 PPT 马上跟播，不可能有充裕的时间来完成私人定制。

趔趄之中，倒逼着搜狗同传的技术团队研发更智能、更敏捷的同传系统，让机器自觉地定制语境，摆脱人工干预。

「原来我们以为，人工同传只是戴着耳机去听演讲者在讲什么，」陈伟后来了解到，同传的过程不是全程无材料的「裸翻」。同传师坐进全玻璃的同传箱之前，需要提前准备一到两天的时间，了解活动当天的全部背景资料。

以往的机器同传，仅仅是通过语音技术来识别讲述内容。而搜狗同传 2.0 的产品启发，实际上借鉴了人工同传的流程。在同传的过程中，除了做好语音识别以外，团队意识到，视觉信息同等重要。

实际上，」每个演讲者都有一套自己的话语体系，」陈伟指出，基于搜狗同传 2.0，团队引入 OCR 技术，通过摄像头或数据线来捕捉 PPT 内容，算法实时在后端分析 PPT 的核心关键词，搜狗同传 3.0 的就绪度已完成了 50%。

识别翻译协同模块进化前后的语句对比

当自动化定制成为过去式，最新发布的搜狗同传 3.0，内核进化成为了「语境引擎」。除了「语音信息+OCR」的结合方式，升级后的产品，最大亮点是在「能听会看」的多模态基础上，注入了思考和推理能力，背后靠的是知识图谱的加持。

从机器同传的流程来看，当机器视觉捕捉到核心关键词之后，会根据搜狗的知识图谱技术，把相关的词汇以及专业领域相关的词语拓展出来，作为语音识别和翻译的加强。

这一点非常重要。通过语境引擎构建的个性化知识，团队在某一专业论坛做了测试评估，结果显示其识别准确率提升了 21.7%，翻译正确率提升了 40.3%。补足了上一代从 PPT 获许不到太多关键词的短板。

从搜狗同传 3.0 在某论坛的的评测效果来看，满分为 5 分，人工同传得分 4.08，搜狗同传 2.0 为 3.41 分，搜狗同传 3. 为 3.82 分。「这说明这说明 3.0 的系统距离人工同传的水平更加接近，它更像一个专家和内行一样，去解读和翻译大会，」陈伟表示

以搜狗同传 3.0 实际应用效果为例。案例一的背景是围绕阿尔法狗和李世石的人机大战。「投子」是一个围棋术语，没有语境的前提下，2.0 版本会把这一词汇识别为「投资」，但 3.0 版本可以根据 PPT 的内容，拓展出「投子」的术语。

类似的案例还有「罗辑思维」。搜狗同传 2.0 的系统没有办法捕捉语境信息去做优化和增强。3.0 版本，系统根据罗振宇的知识图谱做拓展，自动判定跟他密切相关的是「罗辑思维」，而不是「逻辑思维」。

值得一提的是，3.0 版本在英文词汇方面，对观众更加友好。例如在医学领域，「INI」对应的是「国际神经科学研究所」的中文译称。以往，机器同传的结果会直接显示「INI」，普通听众很可能不太清楚其具体含义，基于机器对知识图谱进行拓展查询，在搜狗的专业中英文知识库中，就可以找到与之相应的中文解释。

语境引擎是搜狗同传3.0取得突破的关键

「我们认为未来面向人和机器交互过程中，一定是多模态的」，搜狗提倡的技术主张，使机器同传和同类产品拉开了一代之差。「他们还是以同传为主，我们已经从语音跨到了多模态，并把对于知识和语音的理解放进去，使同传开始具备一定的认知能力。」

必须要承认的是，无论是搜狗同传还是其他玩家，大家目前距离顶级同传的水准还有很长的路要走。虽然真正到金字塔塔尖的同传人才十分稀少，但陈伟认为目前的机器同传能力和顶级人工同传相比，仍存在不小的差距。

显然，针对极高规格的会议场景，现阶段的机器同传还达不到要求。不过在复杂要求不高，辅助观众和听众跨语言交流的用途中，其发挥的作用愈发明显。因此，行业应该要抱着向人工同传学习的态度，「而不能说今天六级，明天八级，后天机器超越人工了，这不是特别好的心态。」

除了大会演讲这种 2B 同传场景，未来，机器同传可向记者采访、跨国办公会议、中英文视频直播、字幕翻译等场景延展。这些应用场景最主要的挑战，是怎么保证机器同传的稳定效果，考验的是采集设备、网络环境、识别能力等。「预计迭代到 3.5 的版本，技术沉淀后的能力，就可以向这些场景做覆盖了。」

尽管搜狗通过技术迭代不断地教育市场，不过机器同传并没有在过去一两年迎来爆发，搜狗同传也并没有通过大会获取收入。其中很重要的因素在于，「跨代跃进的效果提升，需要一个研发周期，在这个过程中不能盲目地向 B 端市场狂推。」陈伟明确指出，搜狗同传更多的是代表了搜狗在 AI 方面的核心竞争力和技术驱动创新上的成果，所以「不会是一个很赚钱的行业」。

而搜狗在 AI 语音商业化的进程，最终的指向还是 2C。陈伟预判，未来各种各样的场合都可能用到搜狗同传的技术，通过同传打磨的能力也可以反向用于搜狗的 C 端产品。「我们希望以搜狗同传在大会场景和 B 端的经验、数据为基础，不断打磨 2B 输出的能力，最后反哺到 2C 端的市场中。」

本文作者：包校千

责任编辑：卧虫

图片来源：VPhoto、搜狗

本文链接：https://www.24zzc.com/news/169486501835284.html