RTC+AI双剑合璧,解锁移动应用出海增长新密码|WAVE2025

11月20日,由全球化媒体智库——霞光社ShineGlobal&霞光智库联合阿里云举办的「模型应用·编码新未来|WAVE2025泛互联网全球大会」在上海成功举办。

在本次大会的主论坛上,即构科技副总裁陈今今以《RTC+AI双剑合璧,解锁移动应用出海增长新密码》为题,进行了精彩演讲。

以下为详细内容,霞光社经整理发布。

陈今今:大家好,我是即构科技的陈今今。我们和霞光社是老朋友了,很荣幸第三次我们公司站上领航者大会的舞台,我们也一直在见证整个平台是如何驱动整个行业进行深度思考和前行的,再次感谢霞光社的邀请。

即构科技副总裁陈今今

我先自我介绍一下,我整个职业生涯里面,前16年都在国内一家电信设备提供商工作,一直负责网络相关建设,我在海外也很多年,从欧洲到南美最后到南太地区,去过不少地方。在整个过程中,我一直在负责基础网络、底层架构的设计和构建的工作中,也深切体会到海外网络环境,包括监管,包括海外的组织有非常复杂的关系和很难控制的一些难点。

现在我任职于即构科技,也超过6年时间了,我现在主要负责解决方案与服务相关的部分,希望利用我们的这种经验能够给我们的客户带来商业上更加成功的体验。

即构科技是一家提供实时音视频云通讯的服务商,实时音视频从技术上有一定的技术门槛,涉及到很多编解码的算法,模拟信号的处理,以及网络调优诸多方面的工程化和前沿技术积累。即构科技一直聚焦实时音视频云通讯,持续投入研发,我们希望把复杂留给自己,让客户聚焦于自身业务发展,实现商业成功。

这十几年来,即构服务了行业大概70%的互联网头部客户,他们其中有很大部分都成长为出色的出海标杆企业。即构也持续地跟客户进行共创,无论是在质量上,还是在体验上也在不断的进化成长,交了很多的朋友,现在也形成了很紧密和信任的伙伴关系。目前,即构服务的客户日均互动时长超过30亿分钟,覆盖了全球超过200个国家和地区的客户。

讲一下整个出海的痛点,这些痛点其实最突出的就是网络环境:

一方面,海外网络环境发展不均衡,不同国家的基础设施差异、运营商策略不同导致部分区域弱网问题突出。这种情况就会导致从丢包、高时延、抖动上会造成音视频体验极大的降低。

另一方面,海外用户复杂的使用环境和使用习惯不可控,容易影响实时音视频通话的整体效果。比如说国内的主播一般装备会比较好,直播间的布置有很多标准化以及很精细化的运营。在海外,这种主播的专业性、直播环境,对整个直播的效果以及体验也会带来非常大的影响。

此外,海外用户的终端设备性能也存在参差不齐的情况,部分区域用户的设备中低端机型占比大,也会影响体验效果……

我们怎么去解决呢?如果用传统的技术方式去解决,也可以达到一定的水平。但是,传统的技术存在一些比较固定的模式,需要设定几个模式,这几个模式去适应全球各种各样不同复杂的网络,其实是有一点捉襟见肘的。当AI技术爆发起来以后,模型模式适应性会有一个质的飞跃,所以我们就利用好AI再赋能到整个RTC,这样会产生一个协同效益,会有更好体验的提升。

在弱网应对上面,我们底层采用即构自研的海量有序数据网络MSDN,定义了一张虚拟网络。物理网络有卡顿、断网,或者某些地方的带宽比较小的情况,我们在物理上比较差一点的网络上面,构建了一个软件定义的虚拟网络,除了传统的根据时延、丢包、抖动、卡顿率这些指标进行持续监控,还会参考历史的数据,通过大数据、AI识别,模式识别去选择最优最佳的路径,以及在网络故障的情况下可以进行快速的切换。

不同国家都存在网络的流量控制,经常出海的朋友应该都有比较深刻的体验,这种弱网环境不只是说当地网络建设投资的问题,还有很多监管方面的因素,以及运营商本身的网络流量策略,都会对整个网络环境造成很大的影响。怎么在合规的情况下能够尽可能的把我们音视频的数据送达需要的用户,还不影响用户体验,也是通过这样的一个网络来完成的。即构AI MSDN网络具备精细路径规划能力,通过AI算法在协议选择、资源选择、内容选择方面精细规划,采取灵活智能的调度策略,帮助客户解决网络问题。

随着AI技术的发展,也为实时音视频技术提供了更多可以想象的空间,即构Express SDK采用了AI技术,在噪声抑制、回声消除、自动增益AGC等方面也有了更显著的提升,传统方式去不掉的噪声,现在已经完全不是问题,可以给客户提供更纯净、更自然、更舒适的音质体验。

除了AI算法对实时音频声音的处理之外,对于实时视频画质效果的提升也是非常大的。比如说在主播端,如果主播把控直播间的能力有限,设备可能也不太好,灯光也有限制,就会导致整个画面画质不佳,现在可以通过AI算法精准的对环境进行识别。比如说灯光是不是太暗等等,以及人脸有些是皮肤肤色偏黑的人,我怎么通过这种自动的暗光增强,HDR的技术进行画质的调整。现在我们也实现了智能滤镜的能力,也可以自动识别不同的场景,基于这些场景去对这些滤镜进行锐化的效果,让码率和分辨率不变的情况下,甚至更低的情况下可以提供更好的清晰度,极大程度还原画质效果。

用户端我们也会有很多画质提升的方案,主播没有变化的情况下,用户可以通过低码高清的方式、超分的方式,尽可能弥补设备网络带宽的不足,设备的缺陷,原始素材客观条件导致的限制,做更好的画质和图像的处理。

当前,泛互联网的应用呈现出来三大发展主线:社交泛化,内容IP化,应用+AI。

社交与音视频、游戏的结合,诞生了直播、语聊房、在线K歌,游戏社交等多种玩法。随着AI在泛娱乐领域中的广泛应用,创造出全新的社交互动场景和内容生产模式。此外,随着短剧的快速发展,IP化趋势将贯穿内容消费进行延展。

根据Sensor Tower的数据,在 2025 年上半年 ,在媒体娱乐、健康保健、 工作教育、生活服务和金融服务等领域 ,有超过 200 款应用新 增或内置了 AI 相关功能。AI逐渐成为泛互联网产品应用的技术新基建,渗透到各个决策领域。

从出海的移动应用来讲,AI涌现出很多新的互动场景,比如说视频通话上面有AI实时的字幕、翻译,AI摘要、AI美颜,都已经也是得到了很好的使用。

在泛娱乐+AI上,在线KTV是即构一个很大的优势,我们是行业里面第一家提供实时合唱能力的公司。实时合唱对网络的要求以及音视频的技术要求非常高。因为人的对时延感知的敏感性,技术达不到一定的标准整个体验效果就没有办法商用。实时在线KTV里面也提供了很多音乐识别,通过识别音乐场景、音乐的歌声进行声音的优化处理,以及对于一些唱歌效果的打分,都应用在整个AI的场景里面,我们也提供了丰富的套件,让开发者更快速的集成和上线。

2025年是对话式AI快速增长的一年,随着多模态大模型的持续发展,对话式AI和应用成为可能。对话式AI是新的人机交互的界面,也是最原始的诉求。要建立一种和真人互动一样沉浸感的实时体验。

对话式AI现在也面临很大的挑战,简单来讲,对时效的要求,响应速度的要求。整个处理链路很长,从发出声音到这个声音被设备采集走,再经过网络传输到云端,我们需要用ASR把声音转成文字,把文字又送到大模型,送到大模型得到回应以后又要转成语音,再通过网络又送到另外一端设备上,整个周期链路和处理的pipeline非常复杂非常长。怎么在这么长的工作流里面极致的压缩时延,这个是非常挑战的一件事情。

周边的环境很复杂,有嘈杂的声音或者有回声,也会干扰智能体的判断,你的回声被智能体听到以后就会进行应答,这样整个对话的效果和质量就乱套了。真实对话场景里面还会经常出现打断行为,怎么能够快速打断,该打断的时候打断,不该打断的时候不打断,包括语速、声音、语调怎么做到匹配场景。比如说直播需要很激昂的场景,怎么对情绪和情感融入到这个声音里面等等,这里面有很多的挑战。

对话式AI能带来的前景、效率的提升其实是很有吸引力的。这样也不断推动我们这些开发者和各个企业都在关注和采取大量的应用实践。为了匹配这样的客户的诉求,即构科技推出了实时互动AI Agen方案。通过这个方案不仅可以提供文字的互动,也可以提供语音的互动,甚至是数字人视频的互动。前面说到的问题,更低时延,更自然的打断能力,声音情绪等这些也解决了大部分的问题。

我们从去年开始就一直在打磨AI Agent方案,看似好像没有特别高深的一些技术,但是从工程化的过程来讲是有很大工作量的,我们跟合作伙伴打磨了很长时间,对各种参数进行调整,也踩过很多坑,目前已达到可商用的水平。

针对AI陪伴场景,即构实时互动AI Agent高达99%的识别准确率、95%的打断准确率、90%的断句准确率、对话延迟约1.5s、可播放带人声BGM等特性,充分适配该场景下用户的使用习惯,能够智能识别并给予用户及时的情感陪伴和互动交流。还支持包括真人图片数字人、赛博风图片数字人、多角色语音群聊等能力,大大丰富了AI的形象和互动形式。

在线课堂场景下,即构AI伴学在线课堂方案让真人老师在直播课中可以灵活控制启用自己的AI分身,与学生进行1V1互动,AI老师根据学生的回复给出个性化引导和反馈。方案采用万级并发架构,稳定支撑超大型直播课;支持灵活定制AI老师形象、音色、对话风格,并可结合老师讲课实时内容、白板等课件自然展示;采用“时长+并发包”的灵活计费模式,按实际用量收费。

直播、语聊房等场景下,依托即构云端实时语音识别服务打造的AI观众/AI助理,具备四大优势:600ms低延迟、语音识别准确、较传统模式节省50%以上成本、支持多语言与多厂商,能够有效提升主播开播时长、用户活跃度和留存率,全面提升直播生态体验。

在智能硬件业务中,即构方案适配主流芯片、功耗低,识别准确率达95%,延迟低至1s,采用License计费模式,有效控制成本。不论是AI玩具、机器人玩具、AI翻译机还是宠物陪伴设备等智能硬件产品,都能通过实现自然化、场景化的智能交互。

实时互动AI Agent还有更多场景,比如AI男友/女友、AI剧本杀、AI陪玩游戏等。我们有客户做了剧本杀,这里面有多人AI互动的能力,不只是单人点对点的对话。很多人编排在一起,营造一个有真人玩家,其他三五个是智能体玩家,跟你一起玩游戏。

RTC让泛互联网应用连接世界,AI让这种连接更智能。未来的实时互动,是更沉浸、更自然、更有想象力的。我们期待与在座的各位开发者、伙伴们携手一起去打磨技术,创造未来,一起共创实时互动的新篇章!谢谢大家!

声明:本文为维科号作者发布,不代表维科号立场。如有侵权或其他问题,请及时联系我们举报。