海天瑞声董事长贺琳:为大模型“火箭”加燃料
■相关公司:海天瑞声(SH688787 ,火箭股价89.26元,海天市值53.85亿元)■核心竞争力 :具备标准化数据集产品规模化生产能力,瑞声燃料累计完成超过1300个自有知识产权的董事大模训练数据标准化产品的建设 ,在全球企业中稳居前列;较早地布局并建立了多语种能力 。长贺■机构眼中的型加公司:国内AI训练数据龙头提供商,自动驾驶业务打开成长空间■所属概念:数据服务 人工智能 AIGC每经记者 可杨 每经编辑 董兴生11.2公里/秒
,火箭是海天火箭能够成功摆脱地球引力束缚,飞离地球的瑞声燃料速度。而瞬间的董事大模燃料燃烧所提供的推动力
,是长贺帮助火箭一次又一次加速直至进入外太空的助力
。在与《每日经济新闻》记者交流时,型加海天瑞声董事长贺琳觉得,火箭作为一切人工智能技术最上游的海天数据 ,就是瑞声燃料人工智能这艘火箭的“燃料”。海天瑞声正是一家生成“燃料”的公司。海天瑞声是国内最早投入AI训练数据的专业服务商之一,2023年
,不断翻涌的大模型浪潮将这家公司推至资本市场的聚光灯下
。而身处潮水之中,贺琳对未来的思考依旧谨慎 。大模型狂热:初印象非常惊艳
,但对预期“审慎乐观”2023年初 ,贺琳在海天瑞声公司年会上的发言稿 ,80%由ChatGPT完成。“非常的惊艳,有点不(敢)相信。”这是贺琳对ChatGPT的初印象
,“当然
,也有不尽如人意的地方,我觉得这才是我们要努力的方向。”ChatGPT的出现
,让这家数据公司突然站到了资本市场舞台中央
。2023年开年以来 ,海天瑞声股价一路走高
,3月一度涨至191.96元/股,较其2021年8月上市时翻了一番 。而海天瑞声方面 ,则已多次在投资者互动平台发布提示
,称公司与OpenAI没有合作,也尚不能预期大模型业务将带来多少收入。“年初 ,我们还在仔细观察、论证这个技术到底对数据有什么样的需求。”贺琳认为,合适的入局时机应该是当这项技术能够真正在行业中落地的时候 ,这意味着其有真正的应用场景,而非伪场景。“我们要确定这个需求是真的 ,且有人会为这个需求买单 ,这才是一个正常的商业逻辑。”同时 ,当行业落地时刻到来
,数据的需求量也会迎来大规模提升。“这给公司带来的上升空间 ,我认为是非常乐观的,(目前)我们还是抱着乐观审慎的态度去看,去跟踪,去研究这项技术 。”“判断一个行业 ,我们会更深刻地去想这个行业到底需要什么样的数据,只有想清楚这件事
,我们才会走过去 ,我们当初对自动驾驶领域的布局就遵循了这个逻辑。”贺琳介绍。布局自动驾驶行业是海天瑞声在2021年定下的战略方向,在贺琳看来,自动驾驶赛道已经符合这个判断逻辑 。从L2到L4 ,自动驾驶已经有相当多的应用落地
,同时,自动驾驶的数据需求量十分巨大
。她判断 ,自动驾驶是一个人命关天、对安全要求非常高的技术 ,它需要大量数据来打磨,去覆盖各个不常见的场景来保证安全性,因为任何极端天气或极端场景都可能导致误判
。“怎么避免?就需要大量的数据去训练,让模型接触到更多长尾的场景来提高它的安全性
。”今年4月18日,海天瑞声正式推出其专为自动驾驶场景设计的全栈式数据标注平台“DOTS-AD自动驾驶标注平台” 。数据需求增加背后:系统性差距依旧存在贺琳曾就职于中国科学院声学研究所,从事语音识别、语音合成、汉语语言理解、语音心理测试等方面的研究工作。成立于2005年的海天瑞声 ,最初诞生于贺琳在这份工作中捕捉到的行业痛点。“我们当时在课题组其实也会遇到(缺少)数据的问题,解决办法就是工作人员 ,加上研究生 、博士生,自己来做数据。”尽管彼时实验室的数据量相对较少,但也已经算是一项繁琐的工作 。随着技术的发展,智能语音从实验室走向大规模应用阶段
,更多场景的覆盖需求 ,意味着数据需求随之大规模增加
。与此同时
,在与一些就职于大型企业或研究机构的前同事交流时
,贺琳发现,大家都在关注数据的问题
。“(大家)认为数据是一个非常大的瓶颈 ,阻碍他们技术的落地。所以我就在想,那是不是可以由我出来做这件事情,帮助大家解决这个困难
。”时至今日,贺琳觉得
,彼时促使她创业的瓶颈依旧存在。在她看来
,数据的需求是跟着技术的发展而变化的
,随着技术在各个行业中落地,就会有更多的数据需求爆发。“像现在大模型起来,很多人都认为 ,数据差距是一个造成系统性差距的非常重要的原因,所以大家认为数据还是很重要的要素 ,这个瓶颈依然存在。”不同的是,贺琳创业之初
,国内竞争对手少,海天瑞声得以在市场快速突围。而如今
,国内已经出现一批新的数据公司
,先发优势成为当下数据公司核心竞争力的基础
。“其实,这个行业有很多的技术壁垒和‘know-how’ ,也是需要不断打磨项目,才能去沉淀自己的技术 、学会各类‘knowhow’的,这是靠项目积累出来的,而不是短期能很快积累起来的
。”海量数据如何最终成功支撑起庞大参数的大模型运行
?需要首选了解一个概念——数据集 。贺琳介绍,数据集的产生是一个非常复杂的过程
,其中包括设计阶段
、采集阶段 、处理阶段以及最后的质检阶段。在设计环节,需要先去了解数据集是为了解决哪个问题 ,这个问题需要什么样的数据,需要多大的量,需要什么样的场景,以及采集的样本、规模、内容,包括采集的设备、标注的规范等;采集环节则是按照设计的方案,到大千世界采集 ,有可能是声音
,有可能是图像 、图片,又或是手写的字
、道路的场景 。采集完成后则需要进入清洗、标注环节
。最后生产出的数据集需要通过双层的质检流程 ,最终才能生产出一个合格的数据集。这其中,清洗规则的好坏、标注的准确性都会极大地影响数据集的质量,进而影响模型的效果。贺琳举例说 ,海天瑞声的大模型数据清洗率是5%,即清洗出来正确的数据仅仅占原数据的5%,这也印证了数据清洗环节的重要性
。而标注的流程则主要是解决准确性和一致性问题,“我们通常说95%、98%或者是99%,不同的准确率对模型训练的结果有非常大的影响”。“数据的清洗和标注流程对于模型的质量至关重要,它们可以提高数据的质量和准确性 ,帮助模型更好地去学习,也为模型的评估奠定了一个很好的基础。”贺琳表示。贺琳认为 ,高质量的数据包括了数据的丰富度
,场景的丰富度 ,数据的准确性、一致性等
,这都是衡量高质量数据的标准。她也认同 ,高质量数据的提供,需要高质量人工的支持。“有一些高质量的数据,尤其是行业数据
,确实需要更高层次的人去处理。因为我们也了解到,像OpenAI这样的公司,它背后也有一个很强大的数据处理团队
,他们要把对行业的‘know-how’或者是更高层的一些知识灌输到数据里
。”她表示 。浪潮的下一步
:离开人工
,实现智能“有多少智能,就有多少人工。”这句话依旧得到大部分人的认同。在海天瑞声这家“燃料”制造商
,优质“燃料”的诞生,同样需要最了解“火箭”的人来把控。贺琳介绍,海天瑞声的管理层除拥有比较好的学术背景外 ,也都有在外企或大厂等机构的工作、管理经验。“他们以前是数据的使用者,加入公司以后 ,他们非常知道数据的使用者需要什么样的数据
,这可以让他们更快速地对市场有预判
,也会更好地跟业界交流。”她同时坦言 ,为不同行业提供的数据,需要具备不同行业专业知识的人来处理
。“但把规则定下后,可能通过一些训练,让基础的人员能具备这样的训练能力
。”在贺琳看来
,“有多少智能就有多少人工”是一个误解。“确实,这个行业有很多的人力,但人力是在技术的支撑下做这些事 ,没有技术支撑,可能人力需要现在的10倍都不止。所以
,我们这种综合性的数据服务商一直都在追求用更自动、更智能的方式来完成数据的任务 ,不断解放人力
。”贺琳希望,能一步步减少人工对人工智能的参与
,大模型的浪潮
,正在加速实现这个目标。“让计算机自动处理数据
,永远都是我们的追求。”据她介绍,公司也在探讨未来的两大工作方向,一个是打造一批针对通用领域 、垂直领域,且具备单模态和多模态属性的、供给大模型使用的数据集产品 。另外
,海天瑞声也在计划启动数据生产垂直大模型的研发项目 ,希望用大模型技术来支撑数据的生产。“大家都说大模型将给众多垂直行业带来重大积极影响 ,其实数据处理本身也是一个垂直行业
,我们希望用大模型的能力来更自动化地把数据处理这件事情做好。”“人工智能的背后是人工”也是有可能发生改变的。“现在背后依然确实需要很多的人工,但是我们一直在尽量想办法减少人工。包括加入很多算法 ,提高对数据做预标注的准确率,准确率越高
,人工参与的程度越低
。”但贺琳也坦言 ,这件事并不容易。“其实,如果真的把这个事都做成了,人工智能就完成了。因为不需要人的介入,相当于它处理的东西都跟人想的是一样的。”但另一方面,当技术达到一定突破后,伦理
、法规 、安全等问题就会出现
,如何解决这些问题
,也是今后整个人工智能行业面临的难题
。新的变革契机
:多模态需求将推高行业门槛每一次的火箭升空 ,都需要大量的燃料助推 。贺琳认为
,当人工智能技术迎来新的变革时
,对数据提供商来说就是一次契机。“我觉得可能也是根据一些需求,比如像苹果手机的siri出来以后
,大家就会认为在语音上有一些突破
,这些数据的需求就会暴增
。”贺琳觉得,在整个人工智能行业 ,数据就像人类学习知识时使用的教科书,“你的教科书越全面,信息越准确
,学习的结果就会越好,其实机器也是一样的” 。她认为,数据集本质上就是人类把自己对大千世界
、万事万物的一些认知和判断方法加载到数据上,然后让机器去学习
,使机器得出来的对事物的判断结果更加趋近于人类。在她看来,这就是数据公司的价值。而在大模型的热潮之下,多模态的能力成为一个关键词
。贺琳表示,多模态数据是未来的一个方向 。“多模态的数据里蕴含了更多更丰富的信息,对机器做判断也会提供更多的信息来源,但多模态的数据(获取)的难度也非常大。”她进一步介绍,首先 ,多模态数据要求的量很大 ,合规取得这些数据的难度就会更大;其次
,多模态数据采集的设备也非常昂贵,对数据公司的财务能力是一种考量。此外
,多模态数据对齐的问题、对齐的标准等,都是多模态数据的难点。贺琳认同一点
,多模态能力会导致数据公司的入门门槛提高 。“包括我们可能还要去做一些数据生成技术,用我们的一些单一形态的数据来合成多模态的数据,这都要求公司有更高维度的研发能力。”目前,贺琳依旧认为,数据这个方向是海天瑞声未来的定位,因为这个领域要做的事情太多了。“随着技术的发展进入千行百业
,每一个行业都需要认真地去了解这个行业的‘knowhow’是什么、如何解决这个行业的一些关键痛点 。那么多行业呢,我们有足够大的空间去拓展
。”而深入行业 ,则需要公司本身有一定的研发能力,同时,在进入行业时
,需要有行业专家的参与
,通过真实的项目打磨,进而逐渐积累
。“这不是个一蹴而就的事情,需要一个长期持续的过程 。”她表示 。贺琳相信,通用人工智能终将有一天会实现,但这也需要一个过程 ,即便技术达到了
,还有伦理的问题、安全的问题 、合规的问题。这些都解决了之后,如何解决行业的问题 ,也有很长的一段路要走。而在这条路上 ,她认为
,数据公司将会扮演越来越重要的角色。在这个过程中 ,算法可能会相对趋于稳定,但仍需大量的、类型迥异的数据对算法进行训练,才能解决行业的问题。翻译搜索复制每日经济新闻
(责任编辑:休闲)
推荐文章
-
CBA最新积分榜,北京升第五,福建第12,山东第15,山西7连胜终结
CBA联赛常规赛第13轮全部战罢,在今晚进行的三场比赛中,吉伦沃特28分8篮板,高诗岩23分11篮板,福斯特23分,山东高速主场116:95大胜江苏肯帝亚,积分榜排名第15位,江苏队遭遇四连败。基恩2 ...[详细]
-
克日,据驰名记者罗马诺的新闻,拜仁已经与乌尔赖希就续约告竣协议。乌尔赖希当初的条约将在明年6月到期,拜仁愿望与这位35岁的门将续约,罗马诺指出,拜仁与乌尔赖希就续约告竣协议,新条约期限到2025年6月 ...[详细]
-
狂轰54+17+9!双状元齐爆发,森林狼西部第一,76人惨遭3连败杨振宁的长寿秘诀:运动、饮水都靠边站,这5点值得我们学习
76人客战森林狼经历了休赛期的运作之后,联盟当中的夺冠热门,相继都完成了阵容的升级。有人说,菲尼克斯太阳,会是西部最有希望夺冠的队伍;也有人说,丹佛掘金会成功卫冕冠军;还有人说,新奥尔良的鹈鹕,在迎来 ...[详细]
-
拒逆转!勇士五虎97+26,申京30+13+5,新纪录诞生,西部第七易主
标题:勇士队精彩逆转,火箭队虽抵抗但难阻败局导语:各位篮球迷朋友们,昨晚的NBA大战可谓是激情四溢!我们的金州勇士在一场紧张刺激的对决中以一波惊人的逆转战胜了休斯顿火箭。这场比赛不仅展现了球员们的技巧 ...[详细]
-
勇士2.1亿豪赌梦碎?汤神围巾下滑 库里进攻变孤星唱功烂得像混子,《声生不息3》一群神仙里掺个关系户,真招人厌
勇士在这个赛季的薪资总额又一次领跑联盟,飙升到了2.1亿美金,但是球队并没有展现预期的战斗力。汤普森和维金斯的下滑,成为勇士再次冲冠的障碍。 又一次被逆转,勇士曾经是最擅长逆转对手的球队之一,如 ...[详细]
-
11月29日讯 NBA季中锦标赛西部C组怯夫对于阵国王的角逐正在妨碍中。半场角逐,怯夫72-55争先国王。国王球员福克斯半场9中3,患上到9分4篮板3助攻2抢断;小萨6中2,患上到7分2篮板7助攻。源 ...[详细]
-
原创 湖人暗度陈仓!密谋和东部豪门交易,詹姆斯组3巨头欣喜若狂
原标题:湖人暗度陈仓!密谋和东部豪门交易,詹姆斯组3巨头欣喜若狂 在NBA这个充满激情与竞争的赛场上,交易流言满天飞,而最近公牛与湖人两队的交易谈判则成为了焦点中的焦点!公牛队,一度被誉为拥有强 ...[详细]
-
NBA季中赛:独行侠拒绝火箭逆转鹈鹕晋级八强 欧东68+14申京31+9小白篮球2023-11-29 12:18四川小白篮球2023-11-29 12:18四川
北京时间11月29日,NBA季中赛,独行侠以121-115击败火箭。首节独行侠领先7分,半场还领先4分,三节打完火箭反超4分,末节火箭很快被独行侠反超,决胜时刻东契奇与欧文连续命中锁定胜局。此役后火箭 ...[详细]
-
随着12月10日9点58分,一枚长征2号丁火箭成功将遥感39号卫星发射升空,长征系列火箭完成了1970年以来的第500次发射。也就是1970年4月24日,长征一号火箭成功发射我国第一颗人造地球卫星东方 ...[详细]
-
11月30日欧冠联赛:皇家社会VS萨尔茨堡 加拉塔萨雷VS曼彻斯特联
欧冠:皇家社会VS萨尔茨堡时间:2023-11-30 4:00场地:阿诺埃塔球场皇家社会是一支西甲联赛的知名劲旅,他们常年能够拿到欧战资格。上赛季,皇家社会表现出色,最终排名联赛第4位,顺利获得欧冠小 ...[详细]
热点阅读
- 战德国妖星降世!细数尤文图斯队内俊杰,将靠青年军,挑战国米身体哪些部位不能乱亲?医生提醒:3个亲密“禁区”,切勿轻忽
- 不敌灰熊快船遭五连败,哈登正负值最低居然投出三不沾,威少赢了英国男子脸部畸形,靠才华迎娶美女大学生,孩子出生后笑不出来了
- 原创 数据不说谎|西部大乱!森林狼领跑雷霆第三 谁才是真正的搅局者?
- 警号043940由舍身夷易近警女儿重启:呵护安定的路上,不断有人不断前行!
- 原创 辟谣!考辛斯加盟广东受阻,朱芳雨:他在CBA跑两个回合就喘了
- NBA“星”球 篇六:盘点2023-2024赛季闪耀NBA赛场的国产球鞋!(安踏篇)红薯是“抗癌之王”,能杀死98%的癌细胞,还能降血糖?答案来了
- NBA常规赛:黄蜂121-118加时逆转绿军,鲍尔36+9+8,塔图姆45+13+6
- 原创 塔图姆空砍45+13布朗仅13分 三球36分黄蜂加时力克绿军
- 原创 G12战报:客场轻取奇才
- NBA常规赛:森林狼117-100终结尼克斯三连胜,爱德华兹23+10+5,布伦森25+6
随机内容
长春亚泰VS山东泰山:泰山全力争三分,为争冠做最后努力非洲女孩巴特曼因有巨臀,一生被赤身裸体展览,死后还被做成标本
NBA|东部强强对话 凯尔特人8人出场7人得分上双女性过安检时,安检员为何会尴尬,屏幕上到底能看到啥?
- 马竞3-1费耶诺德取3连胜,埃尔莫索破门30年前那位渴望上学的“大眼睛女孩”,国家重点培养,现咋样了
- 商汤遭海外做空机构指责人为夸大收入 回应称“不实、误读”财联社2023-11-28 14:33财联社2023-11-28 14:33
- 灰熊又出手!做空目标直指AI巨头商汤 商汤午间紧急回应为什么酒店退房时几乎不查房了?内部工作人员说出真相,长知识了
- 马刺惨遭12连败西部垫底,“放养”的文班亚马跑不动了?
- “刻入”基因的图形们:为何孩子天生爱画小太阳?
- 23分大逆转!利拉德手刃旧主,字母哥轰33+16+6,雄鹿喜提三连胜滑天下之大稽!河南滑县五个人在家聚餐要办证,女执法员已被停职
- LG电子下一代SoC接管芯原矢量图形GPU