使用微信扫一扫分享到朋友圈
使用微信扫一扫进入小程序分享活动
RTE大会(原“RTC大会”)创立于2015年,是亚太首个、迄今为止规模最大的实时互联网技术盛会,覆盖200+行业场景、累计影响200w+开发者。2020 年,实时互联网大会名称从「RTC 大会」升级为「RTE 大会」,大会主题也从技术布道逐步升级为技术内核、聚焦场景的行业峰会。
今年,RTE2023 将以“智能·高清”为主题,推出辐射实时互联网全生态的论坛及周边活动共计20余场,包括技术开发、趋势洞见、行业观察、创业投资等多维度内容分享,覆盖AIGC、出海、数字化转型等时下最热门的话题讨论。
赵斌,声网创始人兼CEO。2014年创立声网,开创了全球实时互动云服务。2020年6月26日,声网母公司 Agora, Inc.成功登陆纳斯达克,股票代码 为“API”。声网服务的企业遍布社交、教育、IoT、金融、医疗等20余行业,200多种场景。在此之前,赵斌也曾参与两家美国纳斯达克上市公司的创立。1997年,作为创始工程师之一参与WebEx (网讯) 创业。2007年,作为CTO参与YY (欢聚时代)创业。
吴玮杰先生现任智谱AI副总裁,负责公司2B业务。在此之前,他曾担任字节跳动旗下飞书和Lark全球首席商业官,整体负责字节跳动企业SaaS应用的商业化工作。除此以外,吴玮杰先生也曾担任GE数字集团大中华区副总裁兼销售总经理、复星集团联席CGO、快乐BG联席首席投资官、Oracle公司等管理岗位。
吴玮杰先生持有ISCTE-IUL管理学博士学位,香港大学国际工商管理硕士学位以及复旦大学软件工程学士、硕士学位。
钟声,声网首席科学家、CTO。北京大学数学系学士和博士。曾任海信芯片总经理兼CTO、博通资深主任科学家、华亚微电子技术副总裁。拥有 100 余项技术发明专利。曾是 MPEG/JVT 与 INCITS 主要成员,并发表了 30 余篇论文,主要从事图像处理、视频编解码、计算机视觉、深度学习、芯片架构设计等方向的研发。
inSpaze是一款专为Apple Vision Pro量身定制的社交产品,旨在打破空间和语言的障碍,带来沉浸式的互动娱乐体验。它是挚文集团推出的基于Apple Vision Pro原生开发的沉浸式空间社交产品,于2024年2月与Apple Vision Pro同步上线。苹果CEO蒂姆·库克在访问挚文集团时,对inSpaze给予了高度评价,认为其在Apple Vision Pro空间算力之下的沉浸式社交体验令人印象深刻。
先后任职于搜狐视频、芒果TV,长期从事在线视频平台技术研发与应用,现任职于芒果融创科技有限公司(5G高新视频多场景应用国家广播电视总局重点实验室)主要从事超高清内容生产技术与空间互动内容生产技术研究。
张栋,复旦大学硕士生,导师为周雅倩副教授和邱锡鹏教授,研究领域为端到端语音对话与语音大模型,作为第一作者在 ICLR/ACL/EMNLP 等会议发表多篇文章,代表性科研成果为 SpeechGPT 系列工作。
戴伟,博士毕业于香港科技大学,主要研究视频编解码的加速和优化。目前是声网视频编解码器负责人,2016年加入声网,主导开发并落地了声网SDK中的264和av1的编解码器。
关注出海3年半、4年记者经验 关心社交&泛娱乐、粮食、宠物和时尚
资深互联网教育产品专家,从事互联网教育行业多年,对互联网教育有着深刻的理解。有过下沉市场教育行业创业经历,成功搭建符合三四线本地化教育的产品及服务。曾任职 TutorABC 成人英语产品负责人,海风教育产品总监。主导搭建过多个0-1在线教育产品。
声网泛娱乐行业产品经理,12年移动互联网产品和开发经验;曾任职爱奇艺、淘宝直播,对音视频行业有丰富的经验和洞察。
智能化趋势正加快脚步走来。过去一年,AI智能技术为实时互动带来诸多赋能与变革,助力实时互动体验进入全新的清时代。本届大会主论坛,来自AI与实时互动领域的多位资深大咖将从不同维度解读智能化背景下,2023年实时互动行事件、产业发展与技术趋势前瞻。
9:00-9:40 智能·高清 引领实时互动体验新时代 声网创始人兼CEO 赵斌/声网合伙人兼客户成功副总裁 孙雨润
9:40-10:10 AI如何赋能RTE未来How AI Empowers Tomorrow of RTE Founders Space创始人兼CEO 史蒂夫‧霍夫曼 (Steve Hoffman)
10:10-10:50 AI时代实时互动何去何从 声网首席科学家、CTO 钟声
10:50-11:10 科技赋能:共筑数字包容未来Harnessing Technology for Digital Inclusion: Building a World Where No One is Left Behind 联合国人口基金(UNFPA)驻华代理代表 欧雯姗
11:10-12:00 圆桌:AI 如何赋能实时互动体验改善及场景升级? 主持人:声网首席运营官 刘斌/嘉宾:喜马拉雅首席科学家 卢恒/Soul App 技术副总裁 张高政/小红书音视频架构负责人 陈靖/商汤科技商务总监 数字文娱事业部副总裁 李星冶
随着移动通信、大数据、云计算、人工智能等互联网技术的发展与通信媒介的迭代更新,泛娱乐社交产品呈现出了更加多元的发展方向。年初AIGC引爆行业,GPT的问世为泛娱乐注入新的活力;另一方面,随着硬件设备的持续迭代和网络基础设施的发展,互联网用户对于FHD及4K高清画质的需求也随之增长,AIGC、高清、出海、泛娱乐,交汇出全新的时代篇章。
14:00-14:30 2023年最新最牛的泛娱乐实时互动“大杀器” 声网泛娱乐产品负责人 李斯特
14:30-15:00 原创AI大模型,引领泛娱乐出海 商汤科技商务总监 数字文娱事业部副总裁 李星冶
15:00-15:30 PWNK 从看到”玩“,点燃直播弹幕互动小宇宙 Starscape主策划 陈飞
15:30-16:00 AI与直播的创新融合-困境破局的曙光 LiveMe 产品总监 刘晶晶
16:00-16:40 AI+高清,社交新玩法来袭? 主持人:白鲸出海泛娱乐主笔 辛童 / 嘉宾:声网泛娱乐产品负责人 李斯特 Starscape主策划 陈飞/Google大中华区新客移动业务负责人 钟鼎文
大数据时代视频有了更多的表现形式,极大丰富了用户体验,创造了全新领域。本次视频技术专场将带来超高清视频、沉浸式视频、短视频等领域的最近技术进展,讨论视频技术赋能广电、安防、教育、影视等产业的现状以及核心应用发展趋势。我们还将探讨新一代视频编码技术的落地探索、面向视频传输的信源信道联合编码架构研究和AI 技术与沉浸式视频编解码的深度融合,展望AIGC & XR 技术推动下的视频新趋势。
14:00-14:35 数据驱动下的压缩视频质量增强 徐迈 北京航空航天大学教授
近年来,随着智能终端的发展以及在线视频等新型多媒体业务的普及,网络中所传输的图像视频数据量呈爆炸式增长的趋势,网络带宽供求矛盾日益尖锐,视频编码是网络带宽供求矛盾的关键技术。然而,高压缩比的视频压缩导致视频质量差,极大降低了视频用户体验。本次报告将介绍徐迈课题组在视频质量增强方面的研究工作,主要包括:(1)基于多帧联合优化的压缩视频质量增强技术;(2)面向盲质量增强的动态高效深度网络模型;(3)感知失焦特性的压缩图像质量增强。
演讲提纲:
1.研究背景
2.多帧联合优化的视频质量增强
3.盲质量增强的高效动态深度网络模型
4.感知失焦特性的压缩图像质量增强
14:35-15:10 信源信道联合编码——从图像到任务 范晓鹏 哈尔滨工业大学智能接口与人机交互研究中心主任
图像视频已占互联网流量的90%,且仍在不断增长。随着视频编码技术进步以及标准迭代,视频压缩效率不断提升。然而经过压缩的视频对于比特错误比较敏感,如何提升无线传输条件下视频抗噪能力,是目前仍然需要解决的问题。本报告将首先回顾传统信源信道联合编码、数模混合视频通信等技术,然后介绍新兴的为视频编码带来较大效率提升的AI技术,包括基于深度学习的视频编码、基于深度学习的多任务编码等,并探讨这些技术应用于信源信道联合编码的新思路和新途径。
15:10-15:45 AV1的优化与落地 戴伟 声网视频编解码负责人
AV1自从定稿以来,就因其高效的压缩效率和友好的专利设计收到了广泛的关注,经过5年的发展,AV1的生态圈不断扩大,目前AV1的编解码已经在各个主流的浏览器中得到了支持,并且各种AV1硬件的编解码产品也都在陆陆续续的发布;而AV1的软编的速度,也从最开始的x264的几百倍优化到几十倍甚至几倍,我们已经看到了AV1能够在各个产品线中落地的可行性。在这次的分享中,我们讲着重介绍一下AV1在RTE领域落地时候的一些经验和成果。
演讲提纲:
1. AV1的现状和前景
2. AV1的硬件编解码通路落地
3. AV1的软件编码落地
4. AV1/AV2的发展展望
15:45-16:20 下一代视频图像编解码技术 王晶 华为媒体编解码技术实验室主任
传统编解码算法经过三十年的发展,压缩效果的提升逐渐变得困难。近年来,随着AI的发展,基于AI的视频图像编码技术逐渐得到业界关注。本次演讲将介绍目前业界第一个AI图像编码国际标准JPEG AI,包括模型结构、亮点技术、压缩效果、应用场景等;还将介绍业界领先的AI视频压缩算法AlphaVC,它将与业界算法融合成为AVS探索平台。最后,将对下一代编解码算法进行展望。
演讲提纲:
1. JPEG AI
1.1 High Profile 与Base profile的结构与性能
1.2 轻量化技术点
1.3 芯片功耗与算力分析
1.4 典型应用场景
2. AlphaVC
2.1 模型框架
2.2 运动估计模块
2.3 熵估计模块
2.4 残差编码重建模块
2.5 AVS探索平台介绍
3. 下一代视频编码展望
16:20-16:55 微信基于内容感知自适应的实时视频通话技术 高欣玮 腾讯微信多媒体团队高级研究员
视频通话的服务方案是针对通信网络和通话设备制定策略,往往缺少对于采集视频本身的内容场景的兼顾,微信多媒体团队基于微信视频通话产品的特点,自主创新研发了微信基于内容感知自适应的实时视频通话技术,突破现有视频编解码标准在不同内容场景下的固定分辨率帧率码率等参数的限制,并结合业务场景与团队多年积累的视频编解码技术,设计了实时视频通话基于内容感知的引擎和混合分辨率视频编解码内核。在微信视频通话中落地应用,提升微信用户的视频体验。
演讲提纲:
1. 介绍微信实时通话业务
2. 支撑微信实时通话的WAVE引擎
3. 微信基于内容感知自适应的实时视频通话技术
4. 实时通话业务一些心得体会以及技术展望
本专场将聚焦音频与语音前沿算法的发展,探讨相关技术在实时互动众多场景的落地实践,包括音频 AI 算法与传统算法的融合,前沿音频技术在会议、车载、游戏、硬件终端、AIGC方面的最新应用。从多种场景视角出发,分享音频技术的落地经验,以及为用户带来的体验提升。
14:00-14:35 极端环境中的语音信号获取与传输 陈景东 西北工业大学教授
声信号获取与处理技术不仅是语音通信和人机语音交互系统的基石,也可以用于灾害(如地震、矿难、火灾等)等极端环境中协助完成很多挑战性的任务。但和日常的语音通信和人机交互环境相比,极端场景下的声信号获取与传输面临很多不同的挑战,不仅涉及到弱信号(信噪比远远小于0分贝)的感知、还涉及到平台的设计与平台噪声控制等诸多问题。在这个报告中,我将简要介绍麦克风阵列的设计与处理方法,然后讨论如何利用麦克风阵列来实现灾难场景下微弱声信号的获取、参数估计以及信号和参数的传输问题。
14:35-15:10 汽车音频新风口下的机遇和挑战 相非 蔚来汽车资深专家&技术总监
新能源时代的到来为百年汽车行业带来了前所未有的变革,造车理念的转变引发了人们对座舱体验的全新思考和定义,而其中声音体验逐渐成为尤其重要并受到广泛关注的环节。汽车音频技术也因此迎来了新风口下的发展机遇。此次演讲会具体分析汽车音频新机遇的产生原因,并且展开介绍新的体验驱动思路下音频技术在汽车领域的应用场景以及面临的多种技术挑战。希望在此过程中抛砖引玉,引发业内同仁的关注和思考,在新能源汽车大背景下推动音频技术的普及应用。
演讲提纲:
1.汽车音频技术发展历史
2.汽车音频新机遇的形成
3.汽车音频技术应用场景
4.汽车音频技术挑战及展望
15:10-15:45 音频AIGC在喜马拉雅的研发以及落地 卢恒 喜马拉雅首席科学家
随着神经网络以及大模型技术的兴起,多模态以及语音大模型技术也成为了研究热点。本次分享主要介绍喜马拉雅语音大模型技术,包括语音生成以及风格转换的大模型的研究以及落地。同同时介绍多模态情感识别大模型在语音交互中的应用。
演讲提纲:
1. 语音生成大模型
2. 多模态情感识别
3. 音频AIGC在喜马拉雅的落地应用
15:45-16:20 声网凤鸣AI引擎:AI音频降噪、AI回声消除和3D空间音频算法的实现与应用 吴渤 声网音频算法专家
声网凤鸣AI引擎包含了AI降噪、AI回声消除、空间音频等在内的声网新一代智能音频技术。其中凤鸣·AI降噪采用均衡的损失函数组合方案来兼顾强降噪与高保真,采用噪声抑制和远场去混响一体化模型在强降噪的同时实现远场混响抑制;凤鸣·AI回声消除采用均衡的损失函数组合方案来兼顾非线性回声抑制和近端语音保护,实现高保真音频体验;凤鸣·空间音频通过纯软件算法方案,模拟头部球面区域立体声场,利用范围音频、人声模糊、空气衰减模拟等能力,模拟现实听觉感受。
演讲提纲:
1. 凤鸣AI引擎在解决音频领域多个核心问题上的价值
2. 基于传统信号处理的音频算法在实际应用中的问题
3. 基于人工智能的音频降噪算法的研究与应用
4. 基于人工智能的回声消除算法的研究与应用
5. 基于3D空间音频技术的研究与应用
6. 总结与展望
16:20-16:55 游戏场景下的音频内容生成式技术 朱鹏程 网易伏羲语音算法专家
随着深度学习技术的发展,语音技术逐渐在生活的各个应用场景落地生根。在本次报告中,将结合游戏场景下,音频内容生成的需求与实际问题,分享网易伏羲在生成式音频技术上的经验与成果。同时,对未来游戏场景下,音频内容生成式技术的趋势进行展望。
演讲提纲:
1. 游戏剧情音频内容生成
2. 游戏实时语音生成玩法
3. 实时语音转换技术
4. 游戏场景下,音频技术尚未解决的需求
16:55-17:30 声反馈系统的技术实践 袁鋆 蛙声科技音频算法工程师
声反馈系统主要包含回声消除和啸叫抑制两个方向,两者区别在于播放的源数据来自于远端还是本地,同时两者在算法上又能共通。本次报告,主要介绍在这两个方向上我们从结构设计,传统算法的优化,AI算法的落地当中的一些技术实践经验,并且对当下相关产品的需求和痛点做了总结以及对未来的优化方向做了一个展望。
演讲摘要:
1.回声消除算法技术分享
2.啸叫抑制算法技术分享
3.声反馈系统的应用和需求
4.声反馈系统的未来展望
三年来,超音速计划见证着新场景新技术的萌芽与成长,尤其在 AI 的加持下,创业者正在向更细分的场景探索 RTE 的潜力。AIGC、心理疗愈、低代码......越来越多的场景都在强调沉浸感与互动性。今年,这些令人惊叹的新技术、新场景以及新应用都将亮相第三届RTE创新大赛决赛!超音速计划年度八强以及海外RTE优胜者将现场角逐全球三强!
14:00-14:05 开场致辞 赵斌,声网创始人兼CEO
14:05-14:35 炉边谈话:长期主义与创业全球化 主持人:赵斌,声网创始人兼CEO/嘉宾:刘凯 五源资本合伙人
/罗超 纪源资本执行董事
14:35-16:30 2023年超音速计划年度八强路演
16:30-17:20 2023年海外startup battlefield获胜团队路演
17:20-18:00 校友圆桌:未来独角兽-探索RTE边界的先行者 主持人:王式,极客公园变量资本高级研究员 嘉宾:陈悦 有大科技创始人兼CEO/李诗淼 蚁触科技COO/栾轩 Emerge创始人
18:00-18:30 RTE创新大赛年度三强颁奖典礼
随着5G、AI、RTC等技术的发展,万物互联成为物联网的主旋律,尤其是实时音视频在物联网各场景内的渗透,让人与设备、人与场景有了更高质量的互联互通,本场论坛,将邀请不同行业的物联网大咖,围绕家、车、人与实时互动结合后将产生哪些化学反应?
9:00-9:20 智能家居进入真互动时代 冯晓东 声网IoT行业产品总监
9:20-9:50 远程撸猫、AI拍照,家庭机器人的情感连接 夏大伟 Enabot产品负责人
9:50-10:20 通信云模组的多场景应用及如何助力万物互联 方飞 移远通信云产品部高级产品经理
10:20-10:30 智能网联汽车远程运维平台能力要求标准解读 马龙飞 中国信通院汽车云工作组组长
10:30-10:50 超低延时助力平行操控极致体验 张乐淘 声网平行操控技术负责人
10:50-11:30 平行操控技术如何助力无人车的体验升级 主持人:李进科 低速无人驾驶联盟秘书长 嘉宾:马龙飞 中国信通院汽车云工作组组长/蔡尧 驭势战略产品部负责人/冯晓东 声网IoT行业产品总监/胡哲华 九号机器人自动驾驶与AI产品线负责人
面向实时互动的网络架构、传输、边缘云计算等话题,始终是直播、娱乐、教育,甚至 IoT、元宇宙等领域在业务发展过程中需要关注的关键技术点。本专场将分享新时代的端边云协同、实时边缘云架构、Severless、研发增效等话题。
9:00-9:35 华为云应用传送网络ADN技术架构探索 丁凯 华为云媒体网络服务架构师
华为云在骨干专线和internet互联网之上,通过overlay技术和智能感知调度技术等,构建了一张全球精品传送网络。该网络彻底解决了互联网缺乏QoS保障,局部路由拥塞收敛慢,覆盖区域受限等问题,从而为媒体业务提供了兼具互联网全域覆盖、低成本及专线的确定性QoS保障优势的基础网络传送服务,并且可支持应用驱动的SLA与QoS。
演讲提纲:
1. 媒体业务在互联网面临的问题
2. 华为ADN网络的QoS保障技术探索
3. 应用场景与创新案例
9:35-10:10 实时应用场景中声网实时消息服务的架构演进及最佳实践 刘畅 声网分布式存储架构师
随着RTE实时互动场景不断普及,越来越多的应用场景涌现出来,而除了RTC音视频传输之外,业务的控制面和数据面传输也伴随着诸多痛点和挑战:
- 元宇宙场景下如何实现万人同时在线的实时位置同步及音视频的自动就近订阅?
- 平行驾驶场景如何实现弱网场景多摄像头上行及控制指令下行的稳定可靠传输?
- 在线教育和会控场景下如何维护麦位及其他房间状态的实时同步?
- 在线电商竞品场景如何实现千人同时竞拍及最新竞价的实时同步?
声网基于RTM多年的技术积累和沉淀,提炼发布了新架构RTM2,本次分享将从实际业务场景出发,介绍新特性的技术架构演进过程以及具体业务场景下的最佳实践。
演讲提纲:
1. 实时互动场景的痛点&挑战
2. 基于SD-RTN的消息传输架构
3. 从消息分发到状态同步
4. 声网RTM2在互动场景下的最佳实践
10:10-10:45 RTC在云游戏场景面临的机遇与挑战 ---海马云RTC的技术升级之路 张武锋 海马云RTC团队负责人
云游戏行业进入了快速发展的阶段,随着用户使用场景的变化,游戏的复杂度的提升,终端的日益多样化,对游戏RTC技术发展提出新的挑战,如何保证大动态场景的帧率稳定,如何将游戏操控延时控制在100ms以内,如何在网络抖动下降低卡顿,如何在配置高低不一的终端设备上保证良好体验。面对这些来自于用户的真实挑战,海马云从网络架构,传输算法,带宽预测,编码算法,性能消耗做了深入的探索,取得了较好的进展,本次分享会就这些方面和与会嘉宾交流探讨,也会阐述我们对未来云游戏技术发展方向的一些看法。
演讲提纲:
1. 海马云游戏平台架构介绍
2. 影响云游戏体验的关键指标
3. 海马云RTC优化的进展
4. 云游戏RTC技术趋势展望
10:45-11:20 serverless赋能面向未来的高并发应用架构 郑予彬 亚马逊云科技布道师
随着互联网应用的快速发展,对高并发、弹性扩展的需求日益增长。本次分享将从微服务和 Serverless 两大架构视角,探讨如何利用它们的特性来构建高并发,弹性业务。从剖析影响业务并发和弹性的各种因素,以及传统单体应用在弹性方面的局限性出发。通过具体的实时互动应用实践案例,分享微服务与 Serverless 在应对高并发需求和提升业务弹性方面的实践经验。同时展望微服务与 Serverless 的未来发展方向,以及对业务弹性的深远影响。
演讲提纲:
1. 如何面对高并发业务以及影响业务弹性的各种挑战,如流量波动、依赖服务故障等。
2. 通过实时互动应用实践案例剖析微服务架构的主要特征和优势,如服务拆分、高内聚低耦合。
3. 分析如何利用微服务提高业务弹性。
4. 全栈式Serverless如何应对高并发带来的挑战以及帮助业务实现弹性扩展。
5. 通过实时互动应用实践案例,分析微服务和serverless如何提高业务的弹性,解决高并发带来的挑战。
11:20-12:00 圆桌:出海背后的技术挑战 主持人:吴毅挺 声网技术VP、后端技术负责人/嘉宾:包研 LiveVideoStack联合创始人/陈永立 边无际Edgenesis 创始人&CEO/蔡峰 携程高级云原生研发总监
随着5G、AI、RTC等技术的发展,万物互联成为物联网的主旋律,尤其是实时音视频在物联网各场景内的渗透,让人与设备、人与场景有了更高质量的互联互通,本场论坛,将邀请不同行业的物联网大咖,围绕家、车、人与实时互动结合后将产生哪些化学反应?
9:00-9:45 基于 Vite 优化 Electron 构建及开发体验 王佳旺 Electron 成员,Electron Forge 维护者
作为目前用量最大的跨平台框架 Electron 和目前最火的构建工具 Vite,如何把它们连接在一起为桌面端开发者提供更丝滑的开发体验是本次分享的核心。通过本次分享,你可以了解更为底层的细节和原理。
演讲提纲:
1. 最新版本 Electron Forge 如何与 Vite 结合
2. Vite 如何构建 Electron, Node.js 应用
3. C/C++ 模块踩坑与最佳实践
4. 如何做到热重启、热重载、热更新
9:45-10:30 搭建RTC新技术和应用开发之间的桥梁 陈雨果 声网资深客户端研发工程师
RTC技术是提升泛娱乐app玩法和体验的重要技术,如何在开发app的时候更好的运用RTC技术,如何从业务角度提升复杂功能和RTC能力的易用性、可复用性、可拓展性是这次分享的核心。
演讲提纲:
1. RTC新技术在泛娱乐方向的需求及挑战
2. 传统应用开发者使用RTC技术的方式和痛点
3. 如何设计一套可扩展、可复用、开发者体验好的业务API
4. 案例两则
10:30-11:15 探索 Unity 实时云渲染:分布式渲染技术助力提升渲染性能 顾申华 Unity中国技术总监
我们将深入探讨 Unity 分布式渲染的实现途径及其在云渲染领域的应用。Unity为开发者提供了实时云渲染解决方案,通过这项技术,开发者可以在云端实时生成高质量的画面,并将其传输到用户的设备上,从而实现更加流畅、高画质的实时体验。分布式渲染技术是该解决方案当中的一个核心部分,它将渲染任务分配给多个服务器,充分利用了云端的计算能力,有效提升了渲染效率。
演讲提纲:
1.Unity 实时云渲染介绍
1.1 开发者如何快速接入
2.分布式渲染技术详解
2.1 基本架构
2.2 网络同步方案
2.3 分屏、分时处理方式
2.4 编解码合成技术
3.案例分享与应用
11:15-12:00 Rokid AR空间计算平台的关键技术以及应用落地 杨剑 Rokid AR软件研发负责人
重点介绍Rokid AR空间计算平台的系统架构,使用到的AR关键技术以及应用落地。支持这一整套空间交互的背后,是自研的操作系统YodaOS-Master,其中有两个空间计算的核心算法:SLAM和裸手手势,一个用来精准感知物理空间,一个用来和虚拟内容交互。Rokid为开发者提供了丰富的AR开发工具包,开发者基于提供的能力和SDK,可快速的做出丰富多彩的互动应用,结合混合现实录制技术,从第三方视角来分享AR互动内容,让没有带头显的用户,也能一起参与,增加了互动性,提升用户体验和粘度。
演讲提纲:
1. Rokid AR空间计算平台介绍
1.1 系统架构
1.2 浅谈透视技术 VST vs OST
2. AR关键技术
2.1 感知物理世界-SLAM算法
2.2 空间虚拟交互-裸手手势
2.3 AR开发工具包 - UXR
3. 深入介绍混合现实录制技术(MRC)
3.1 MRC架构
3.2 整体流程
3.3 视频流方案
3.4 应用接入和示例
实时互动作为高交互、高沉浸感的底层技术,其与AI、内容、营销等上下游能力的融合将带来前所未有的创新,生态场将介绍开放、共赢的RTE生态如何为行业增长注入新的动力。
9:00-9:15 第三届 RTE 创新大赛决赛三强 Demo Show
9:15-9:35 虚实结合互动开场 杨慧 声网生态运营中心负责人
9:35-9:50 无限可能:RTE生态的落地实践 曹璐 声网合伙人兼生态运营VP
9:50-10:05 社交应用进入游戏化互动时代 刘婷 忽然科技市场 VP
10:05-10:20 音乐版权在泛娱乐场景的合规应用 周亚平,中国音像著作权集体管理协会 总干事
10:20-10:50 圆桌:娱乐新玩法:当音乐版权遇上实时互动 主持人:邢天颖 声网生态合作总监 /嘉宾:周亚平 中国音像著作权集体管理协会 总干事/吴昌夏 敖拜文化CEO/董鹏 ACRCloud 联合创始人 /杨帆 声网音频娱乐产品负责人
10:35-10:50 音乐版权在泛娱乐场景的合规应用 周亚平 中国音像著作权集体管理协会 总干事
10:50-11:05 携手JBP,赋能企业出海 张文超. 谷歌大中华区用户增长策略团队 高级客户经理
11:05-11:35 圆桌:出海企业的挑战与机遇 主持人:杨慧 声网生态运营中心负责人/嘉宾:谢鹏 甲骨文公司副总裁及中国区CTO/陈鹏 PingPong 首席科学家/张文超 谷歌大中华区用户增长策略团队 高级客户经理/曹思璐 Founders Lair 联合创始人
在数字化浪潮下,企业为了追赶数字化的脚步,纷纷推出OA系统、会议系统、直播系统等。但这些系统之间的数据并未打通,在没有充分连接与协同的情况下,就形成了信息孤岛。要想解决这一问题,就需要把这些系统连接起来,并进行 资源的统一管理,发挥其更大的价值。建立音视频统一管理底座,也是声网在数字化领域一直践行的目标,我们将邀请来自不同行业的专家,一起探讨如何构建一套一体化、标准化的数字底座。
14:00-14:25 音视频统一管理底座赋能千行百业数字化转型 声网数字化产品负责人刘翔
14:25-14:50 音视频底座赋能政企数字化 华为云媒体服务资深产品经理 卢志航
14:50-15:15 商业银行数字化运营专题 信雅达智能运营解决方案部总经理 胡润杰
15:15-15:40 RTC+AI 构建数字安防新形态 (拟) 阿启视创始人&董事长 陆隽
15:40-16:25 AIGC时代,企业数字化转型怎么走? 主持人:声网副总裁、数字化转型负责人 何挺/嘉宾: 小冰B端业务工程技术负责人 申成磊/ 金山办公高级总监 黎志宇/ 51WORLD集团副总裁兼生态总经理 李振
更多嘉宾加入中......
在5G、互联网、RTE等技术的推动下,在线教育经历了从PC端到移动端,1V1线上教学到多元化场景教学的多轮演变,未来结合实时音视频技术,教育行业会产生哪些新的教育模式,来提升教育质量和体验。本期论坛,邀请了来自于职业教育、素质教育、教育出海等各赛道的教育企业,共同探索在实时互动技术下的新教育模式。
14:00-14:30 资本紧缩下,教育创新的新趋势和新挑战 张葛建 沙利文大中华区合伙人兼董事总经理
14:30-15:00 RTE+AIGC,教育场景该如何创新 钱奋 声网教育行业负责人
15:00-15:30 AI 2.0 影响下的教育技术发展 秦曾昌博士 童程童美首席人工智能教育专家
15:30-16:00 创新驱动,AI焕发有声在线教育新活力 江敏 喜马拉雅喜播教育副总经理
16:00-16:40 AIGC时代,教育企业如何拥抱AI变革? 主持人:朱超华 声网产品市场负责人 /嘉宾:钱奋 声网教育行业负责人 / 秦曾昌 童程童美首席人工智能教育专家 /江敏 喜马拉雅喜播教育副总经理
随着人工智能技术的飞速发展,大模型已成为推动行业变革的核心力量。大模型重塑了软件开发的传统模式,软件开发正在变得更加智能化、自动化。从代码生成、自动化测试到持续集成和部署等,大模型为开发者提供了强大的工具和框架,极大地提高了开发效率和质量。本次会议将探讨如何利用大模型技术推动开发者提效,以及这种技术如何影响软件开发的自动化进程。
14:00-14:35 大模型重塑软件开发,从Copilot到AutoPilot 揭光发 腾讯智能创作与内容平台部技术专家
大模型正在无差别地席卷全行业,我清楚地看到软件应用开发的格局也将被大模型重塑一次。
ChatGPT出来后,常听说“前端不存在了!开发不存在了?“,而真相是,过去的形态可能都将不存在,我们要换一种方式存在。
本主题将带大家了解:
1. 大模型对开发的变革进行时,AIGCode和AIGAction如何加速个体开发者和增强现有软件的能力。
2. 大模型将给产品交互形态带来怎样的冲击和变革,Copilot everywhere, 『软件』正在消失?
3. 多Agent协同的开发Auto pilot已来,开发将不复存在?当AGI降临,这一切仍将被洗牌!
4. 作为开发者,我们又当如何置身事内呢?
14:35-15:10 开启AIGC时代:程序员的角色转变与技能升级 七七 DatAI产品经理社区主理人
在本次演讲中,将聚焦于AIGC(人工智能,物联网,大数据,云计算)时代下,程序员角色的转变与技能升级。共同探讨AIGC时代下的程序员发展路径。
第一:首先,探讨AIGC的概念及其在当前市场的重要性和未来发展趋势。接下来,详述AIGC产品的设计流程,包括从产品想法的构想,到设计与开发,再到测试优化和产品上市的全过程。在此过程中,我们将特别强调程序员在其中的关键角色和需要的技能。
第二:分析AIGC在各行业中的应用,展示程序员所能参与的广阔领域。
第三:我们将讨论如何在AIGC时代下,程序员如何通过技术创新,精准把握市场定位和提升用户体验等方式,使自己的技能得到升级,以应对未来的挑战。
演讲提纲:
1. AIGC产品设计的方法论
2. AIGC产品设计与传统互联网产品的区别
3. 从0到1构建你的AIGC产品
4. AIGC时代,新的产品基座
15:10-15:45 CodeGeeX:从代码生成模型到AI编程助手 薛宇飞 智谱 AI 大模型事业部副总裁 CodeGeeX 产品负责人
随着LLM技术的发展,代码生成作为LLM在垂直领域的应用也受到越来越多的关注,各种代码生成模型层出不穷。而基于代码生成模型研发的辅助编程应用也开始被广泛地使用。本报告将以CodeGeeX为例,介绍代码生成模型的训练、评测、微调,以及基于模型研发的CodeGeeX插件所能实现的智能化特性以及最新进展。
演讲摘要:
1. 代码生成模型及AI编程辅助工具的相关背景
2. CodeGeeX代码生成模型介绍
3. CodeGeeX编程辅助工具的功能介绍及使用案例
15:45-16:20 大模型时代 AI First 的创业机会 宜博 宜创AI创始人&CEO
通过介绍GPT时代的底层逻辑,讲述LLM时代6层开发范式核心和AI First 5个第一性特性,介绍了过去两个月宜创AI基于LLMFarm中间层框架开发的近20个各行业案例。最后来讲述对 GPT 时代的未来发展的一些思考和讨论。
演讲提纲:
1.了解GPT时代的底层逻辑
2.熟悉LLM时代开发范式核心原理
3.AI First 第一性原理
4.中间层框架开发案例
5.如何迎接这一次变革
16:20-16:55 开发协作新范式:智能体的挑战与发展趋势 吴承霖 深度赋智创始人&CEO
我们将探索基于LLM的智能体在软件开发中的角色。单一智能体需具备高效规划、记忆和学习能力;而多智能体则重在协作和集体反馈。MetaGPT框架因其轻量、高效和元编程特性而受到关注。软件开发的Agent形态正在引发行业变革,尤其在编程范式和协作流程上。我们将深入探讨多体场景、自动化流程和代码质量的提升。面对挑战,我们提出整合常用工具和增强智能体学习的策略。最后,我们预见LLM-based智能体在大规模工具使用和专业内容输出方面的未来发展。
演讲提纲:
1.LLM-based的智能体的需求和概念定义
2.LLM-based的智能体的能力要求
3.LLM-based的智能体框架(MetaGPT)应运而生
4.AgentStore的产品形态
5.Agent形态在软件开发行业带来的变革
6.LLM-based的智能体目前的挑战和未来的发展趋势
实时互动(RTE)是链接数字世界和物理世界的重要基础,RTE与AI的结合一直是业界探索重点。近期,大模型等人工智能技术取得突破性进展,对于RTE智能化升级以及应用拓展,带来了新的机遇和广阔的发展空间。本专场将分享 AI 领域的前沿进展以及在 RTE 场景中的实践探索。
14:00-14:35 重塑RTC未来:大模型浪潮下的技术变革与展望 宋利 上海交通大学教授&图像所副所长
近年来实时通信技术飞速发展,RTC正在深刻改变人们的生活和工作方式。大模型浪潮下,新兴媒体应用展现出新的特点,RTC技术也必将迎来新一轮变革。本次演讲主要以RTC1.0时代的实时通信技术为基本脉络,介绍AI初步赋能后的RTC2.0系统优化技术演进,介绍我们基于强化学习、感知模型、超分模型等提升用户体验的最新进展。进一步地,展望在大模型未来中RTC与新兴技术的融合趋势,提出新容器、新架构、新目标,完善更为丰富、高效、智能的RTC3.0布局。
演讲提纲:
1.实时通信RTC关键技术
2.结合AI技术的RTC进阶
2.1 强化学习赋能
2.2 跨层联合优化
2.3 全链路联合优化
2.4 端云结合的边缘架构
3.RTC3.0技术变革展望
3.1 基于云端代理的新型实时交互
3.2 适配AIGC的控制中心新升级
3.3 面向多模态内容的新一代媒体容器
14:35-15:10 AIGC技术支持人设对话场景 李忻玮 声网AIGC算法工程师
本次分享我们将介绍声网在特定场景下,基于大语言模型实现的AI虚拟人对话场景的相关实践。内容涉及数据集构建、大模型微调技术、提示工程的设计等。
演讲提纲:
1. 大语言模型简述
2. 使用商业大模型来实现人设对话的要素:人格、记忆、能力
3. 微调开源模型来支持人设对话场景:数据与算法
4. 大模型使用场景中的风险
15:10-15:45 星火大模型技术解析与应用案例 刘坤 科大讯飞AI工程院副院长
ChatGPT表现出的智能涌现,在全球掀起了通用人工智能技术研究、产品应用的热潮,该技术正在引发新一轮的产业变革。本次演讲主要以认知大模型为主,介绍认知大模型的技术原理,以及支撑产品应用需要关注的主要技术方案,最后介绍讯飞在大模型方面的应用案例。
演讲提纲:
1. 大模型技术原理解读
2. 大模型应用技术方案
3. 大模型产品案例实践
15:45-16:20 互动数字人:AIGC技术与直播行业的融合创新 邢孝慈 商汤数字文娱首席架构师
传统直播间在前期准备上的投入成本较高,主播开播前的化妆、背稿,直播过程中的场控,长时间直播的疲劳和口误,高昂的人力成本和不稳定的转化等等,都是阻碍直播难以批量矩阵化运营的因素,数字人直播应运而生,在本地生活、文旅票券、房产销售等场景,一旦技术上实现了数字人从外形、声音、到智能交互的问题,便可以低成本高效率的方式进行数字人直播,为企业提供更多变现和营销方式。
演讲提纲:
1.数字人相比传统直播的优势
2.直播感的数字人取决于TTS生成的音色自然程度
3.数字人直播实现互动的方式
4.大模型赋予数字人比肩真人的应变能力
16:20-16:55 从信号处理的声音变调到神经网络学习的AI变声 凌天格 大饼ai创始人
演讲提纲:
1. 你所理解的“变声”可能已经过时了
1.1 基于DSP的传统变声方案的优劣势
1.2 基于ASR+TTS的变声方案的优劣势
2. AIGC时代Streaming Voice Conversion变声方案
2.1 AI 级别的VC变声原理
2.2 VC区别于传统语音发声方案之处
2.3 AI变声带来的新机会和商业模式
3.用户玩的6才是真的6
3.1 看用户和KOL如何玩转AI变声
4. VC不止于变声而已
4.1 口音消除和口音增强的神奇功能
4.2 更小,更轻,更自动化后,世界变大了
4.3 VC与TTS的深度结合
5. 新技术下的新未来
5.1 新数据与新模型为更多客户赋能
5.2 新场景的一些遐想
16:55-17:35 圆桌:智能化RTE发展要素及趋势 主持人:刘硕 中国信息通信研究院云计算与大数据研究所内容科技部副主任/嘉宾:钟声 声网首席科学家、CTO/呼娜英 中国信息通信研究院云计算与大数据研究所内容科技部高级业务主管/周博立 小红书直播业务移动端技术负责人
环信作为国内即时通讯云领域的开创者一直引领着行业创新,本专题围绕即时通讯行业开发者重点关注的全球实时网络技术、国内和海外数据安全合规、最新IM技术架构及特性、出海解决方案、信创和政企私有化,以及IM结合AI的场景探索等领域开展,希望能沉淀一些最佳实践,输出相关经验,实现业务赋能。
14:00-14:30 未来已来:IM与硅基新生命共舞 环信CEO 赵贵斌
14:30-15:00 国内即时通信行业发展观察 中国信息通信研究院泰尔终端实验室高级工程师 李玮
15:00-15:50 环信IM 6.0暨产品技术白皮书发布 环信CTO 徐正礼
15:50-16:20 《社交泛娱乐出海最佳实践》白皮书 暨IM出海一站式服务发布 环信即时通讯产品总监 王璨
16:20-16:50 百度文心大模型赋能IM场景探索 百度智能云泛科技行业解决方案总监 栗伟
16:20-17:20 即时通讯统一平台赋能企业数字化转型实践 环信政企事业部总经理 程旭文
17:20-17:50 AIGC如何助力企业效率提升 中科创达物联网事业群副总裁 杨新辉
17:50-18:00 环信开发者扶持计划 & “IM+AI”编程挑战赛发布 环信市场VP 唐欢