海天瑞声获96家机构调研(附调研问答) :公司所研发的算法技术与客户算法技术并不冲突客户的算法技术主要是用于解决其终端产品的行使
发布日期:2022-01-10 14:11    点击次数:180

  海天瑞声1月5日发布投资者有关运动记录外,公司于2021年12月31日批准96家机构单位调研,机构类型为QFII、保险公司、其他、基金公司、海外机构、证券公司、阳光私募机构。

  投资者有关运动主要内容介绍:

  问:科大讯飞(002230)云云的公司与海天瑞声之间是什么样的有关?

  答:科大讯飞是公司多年来的优质客户,公司给科大讯飞挑供的产品及服务主要荟萃在智能语音周围,包括语音识别数据集产品、语音识别数据定驯服务等。

  问:公司的数据在客户那里详细是怎么行使的?

  答:客户的AI产品在上线之前及初期,由于其自己尚未产生实网数据,清淡必要采购模拟型数据集进走算法模型的训练,在产品上线并运走一段时间、产生大量实网数据之后,则会挑供实网数据给到吾们进走数据加工,加工的数据反哺到客户的产品上从而促进其产品的迭代、升级。之后,客户必要进走产品功能、说话等方面拓展,必要再次购买模拟数据集来赞成,后续再采购数据加工服务进走迭代,如此周而复首。

  以智能家居场景为例,客户能够挑削发居场景下的智能音箱所需的定制化训练数据需求,吾们则能够根据详细请求(例如近场/远场、户型、性别、年龄分布、说话等等)来设计文本、数据齐集议和安放采集场景,然后由供答商根据上述请求来构造人员,在公司的管理下进走录音的做事,接下来根据标注请求对这些录音数据进走标注处理,这就形成了经过标注的文本、采集的音频文件、以及文本与音频的音字对答有关等,这基本上就组成了该数据集的中央要素,之后再进走质检,确保数据集质量,最后交付给客户,行使在客户的智能家居类AI产品的算法训练、生成对答的模型,并最后驱动该AI产品为终端用户在家居场景下挑供语音交互功能。

  问:公司在智能驾驶业务周围的近况及异日布局是什么样的?

  答:近年来公司最先与一些传统车企、造车新势力、以及头部自动驾驶技术公司竖立配相符,客户现在也许有10-20家。客户的数据需求分为车内数据与车外数据,在车内座舱类数据方面,客户必要经历行使训练数据来训练其语音识别、语音相符成算法模型,进而赞成其车载语音交互产品或行使;在车外数据方面,训练数据则会被用于道路识别、走车决策、泊车决策等场景。近年来,随着汽车智能化理念的遍及和自动驾驶技术的逐步落地,与智能驾驶有关的数据需求最先表现周围化的趋势,例如针对车载雷达传感器传回的3D点云数据,经过处理,形成结构化训练数据集用于雷达传感器算法或自动驾驶编制算法的训练。现在,公司为更好的承接智能驾驶业务,已经开发并上线了2D标注平台、3D标注平台及2D-3D说相符标注明决方案,同时还将赓续加大这方面的研发投入,周详进走该类业务拓展。

  智能驾驶业务对于公司来讲是一块新的业务,从业务的宽度看,必要遮盖从数据采集、处理到训练、仿真、测试、验证的完善闭环。从客群特点看,除自动驾驶技术公司外,整车厂等传统行使技术的公司会成为公司的直接客户。因此,智能驾驶业务从客群到技术方案到交付都有自己的走业特征和逻辑,公司今年与片面走业头部企业竖立了配相符有关,也正在进走智能驾驶走业的编制化梳理,期待经历自己在数据处理平台、数据质量、需求对接、项现在反响能力、供答链资源管理能力的积累,深入与现有客户的配相符,并扩展更多的客户。同时也会积累智能驾驶周围的标准数据集产品,迎相符更多客户多样化需求。

  问:客户是否会自建数据团队?什么样的数据是客户做不了、交给海天云云的公司来完善的?

  答:有一些客户是会有自建团队的,客户自建团队主要解决其自己的片面数据需求,如敏感数据等,但受专科化分工的影响,客户照样会大量购买数据服务挑供商的数据,尤其是那些必要投入较高研发力量的复杂数据,以足够其算法模型训练的周围性需求。相较于客户自建团队,海天瑞声历来都是对接多多大型科技公司、头部人造智能企业、科研院所等,获得的新闻是广泛的,项现在经验雄厚,同时积累了大量的know-how,对数据的理解更广、更深切,同时吾们搭建了成熟的数据处理算法平台,经历更高效的人机交互实现降本增效,保证数据质量的同时能有效降矮成本,为客户挑供更高性价比的训练数据产品/服务。

  问:智能驾驶业务的毛利率与语音业务相比如何?

  答:从综相符毛利率角度看,智能驾驶业务毛利率跟语音类业务近似,后续会随着标准化产品及定驯服务的占比贡献的转折而震动,在智能驾驶集体市场技术路线不尽相通的当下,展望异日定驯服务占比能够会更高一些。同时,为了抢占市场,相比于收好,公司现在会将重点放在获得更多的市场份额上。

  此外,现在公司在智能驾驶周围的研发投入较大,以是综相符首来看,会对盈余情况产生一些对冲。但公司坚信这是一个必须要大力度投入的方向,异日也会赓续强化在该业务周围的投入,以确保公司在智能驾驶周围占有领先上风。

  问:异日收好的驱动因素主要有哪些?

  答:随着疫情的常态化,吾们将全力使公司业务逐步恢复到以前的较高增进状态。异日几年,公司预期业务能在以下几方面抓住机遇、有比较好的外现:

  (1)境外头部客户将一连最先安放下一步研发计划,进而其数据采购需求将会有进一步开释,同时在头部客户以外,境外更大市场的发掘也将给公司带来更多的商业机会。公司将相答在境外投入更大的出售力度、资源,采用更综相符的营销手段,以最大程度地抓住此机遇;

  (2)境内一些大客户从自己的发展战略看必要做出海、国际化战略膨胀,随之而来的是最先在多语栽周围进走拓展,而公司在多语栽数据集产品及定驯服务方面都有多年的积累,此外,公司在数据质量、需求对接、项现在反响能力等方面都有着较为隐微的竞争上风,这些都将助力公司能够以较强的竞争上风抓住这方面的业务机遇;

  (3)行为一个新周围,智能驾驶业务将是公司着力发展的一个方向,今年吾们也看到客户在这个周围的需求逐步爆发,坚信异日也会有一个卓异的增进趋势。公司在智能驾驶业务周围已经最先辈走了大量研发、资源投入,并已经与一些传统车企、新势力车企、自动驾驶技术公司竖立了配相符,坚信这些都将为异日智能驾驶业务的大周围拓展奠定坚实基础。

  问:境外客户主要有哪些?境外客户自建数据团队是否会对公司业务产生影响?

  答:海天瑞声行为一家面向全球的训练数据服务商,拥有数目多多的境外客户,遍布美国、韩国、日本等各地区,日韩主要客户有三星(韩国)、纽康、Naver;美国客户主要有微柔、亚马逊、Google、Facebook等。根据现在掌握的情况,海外客户更寻觅专科化分工,自建数据团队的情况较少,即使客户拥有自己的数据团队,由于人造智能产业的高速发展使训练数据服务走业的集体容量很大,需求方自己解决片面数据必要,不会对公司的市场需求带来太大影响;而且,与客户数据处理相比,公司同时接触业内各大公司和各方面的需求,掌握了更多元化的数据,形成了高迭代频次和更优变现的数据处理算法和平台,而且公司是周围化地处理数据,能够更好的实现周围效答,这就意味着客户把数据需求交给海天云云的公司能够实现高性价比的成绩。

  问:客户的算法技术倘若越来越先辈,对数据的需求是不是会缩短?例如智能驾驶周围?

  答:在算法开源趋势不走反的情况下,算法要想变得更好,数据是最主要的驱动力。举例来说,客户的算法模型倘若想去新的外语栽拓展,则必须采购特定语栽的数据集;此外,AI与各个垂直走业融相符过程中,更是离不开该场景下的数据集,且客户的需求更方向是“包括数据在内的综相符性解决方案”,智能驾驶就是一个很典型的例子,客户的大无数真实痛点需求来自于“如何实现智能驾驶中的数据闭环”,这就请求数据服务商同时能已足客户在海量数据(603138)处理与管理能力方面的需求,这正好是智能驾驶从研发测试到量产落地的关键因素与挑衅,智能驾驶级别越高,所需的传感器数目则越多、精度也越高,相答的数据量就会急剧的增补。因此,对海量数据进走高效的采集、处理、管理、行使,赓续升迁数据闭环的循环速度是智能驾驶技术升级与迭代的关键。

  问:元宇宙类的企业是否会向公司采购数据集?

  答:元宇宙是一个综相符性的技术和行使概念,从公司接触到的需求看,元宇宙业务过程中所需的虚拟人、虚拟环境、声音、面部外情等要素原则上都是必要从实活着界获取一些样本数据进走训练,产品或行使投入行使后则会产生自己场景的数据,也必要相通海天瑞声云云的专科训练数据挑供商进走加工处理,以此促进产品功能的升级迭代。公司的客户中不乏以元宇宙行为下一代业务膨胀的主方向,而训练数据也是在客户进走有关研发投时兴不走或缺的要素,公司也将赓续服务这些客户,反响新的需求。

  问:公司的客户荟萃度如何?是否存在单一客户倚赖的形象?

  答:据以去的订单情况,前二十大客户也许贡献了公司收好的80%旁边,存在必定的头部荟萃度,不存在对某单一客户倚赖的形象。此外,公司的前五大客也不是固定不变的,基本每年都会有新的客户进入到前五大的序列,即,客群对收好的贡献会有轮动。云云的客户组成必定程度与AI产业相对头部荟萃的格局有关,大型科技企业在研发投入更为赓续、在多元化需求上也更为引领。因此,在客户策略上,对头部客户的深度发掘是公司主要的大客户策略。同时,公司也将会赓续不悦目察市场、调整自己的业务模式和产品服务形态,发掘更多的腰部客户和中幼客户需求,雄厚公司的客户群体。

  问:公司境外、境内毛利率有迥异吗?

  答:境外业务集体上毛利率比境内业务高。相较于境内客户,境外客户更看重品质和服务,情愿消耗更高的价格获得更舒坦的服务或产品。

  问:海天瑞声的业务是否会与算法类客户的业务产生冲突?

  答:公司自成立之初,首终凝神在训练数据周围,异日也将不息这个赛道拓展。在数据业务的开展过程中,算法是很主要的基石,算法矩阵是公司的数据处理平台的基础,为训练数据的生产全流程挑供赞成,以赓续迭代的智能化人机配相符模式来一连挑高数据处理质量和效率、降矮成本,在数据处理周围掌握最先辈的算法是公司平素的现在标。随着人造智能产业的一连发展,尤其是当AI逐步与各个垂直走业融相符时,单单数据周围的湮没宽度、深度就已经存在庞大的蓝海,因此公司会在数据周围不息深耕。倘若在挑供数据解决方案的过程中,客户需求涉及模型训练等与算法有关的延迟服务,公司也会挑供相答的服务。

  问:近期与数据坦然有关的法律环境在转折,对公司会产生什么影响?

  答:海天瑞声自成立之初就把数据坦然、数据相符规视为生命线,在这方面的投入是陪同着这么多年的业务发展的,且已经形成了较为成熟的坦然、相符规框架和体系。现在,公司相符GDPR、《数据坦然法》、《幼我新闻珍惜法》、以及其他一些与网络数据坦然、数据跨境有关的法律法规的请求,并经历了业内主要的ISO/IEC27001体系认证、ISO27701幼我隐私新闻坦然管理体系认证等。同时,公司认为,数据坦然有关法律体系的完善对训练数据产业的健康发展产生将远大的影响,有利于规范走业走为、治理走业乱象,挑高走业门槛,为公司的发展创造更加有利的条件。

  问:中移动、中网投的战略投资是否会产生协同效答?

  答:公司2019岁暮经历战略融资引入中国移动(600941)和中国互联网投资基金,以前2年中已经经历战略协同安排,逐步进入电信走业和网信坦然走业,并藉此代生手业与国家政策制定部分实现有效对接。异日,公司将不息与两方保持周详战略协同,助力公司业务一连向电信、网安等政企周围拓展。

  问:研发、技术团队的组成是什么样的?异日有什么膨胀计划?

  答:吾们的研发人员、技术人员别离组成了公司的两大部分-研发中央、数据业务中央。研发中央主要负责:(1)公司的基础算法钻研;(2)公司各栽平台/工具的开发;(3)说话钻研,现在公司自买卖务所需的全流程平台/工具均是公司自走研发。数据业务中央主要负责公司训练数据产品的开发和训练数据定驯服务的挑供,在这个过程栽,研发中央挑供了主要的算法赞成、平台工具的声援。

  公司在研发人员和技术人员方面有较为清晰的膨胀计划,这是与公司的集体发展布局契相符的。技术驱动数据业务必要更多的算法钻研人员,一连强化算法辅助能力,进一步完善周围化的升迁;数据式样越来越多样化,公司必要升迁工程化能力,开发更为先辈的工具和平台,已足各类数据的处理需求,这方面必要更多平台开发人员;产品、服务双模式,促使项现在数目及产品开发的增进,必要扩大技术人员团队,完善产品设计、客户需求对接、项现在管理、交付验收等各方面的做事。

  问:在语音数据业务周围,客户的数据拓展需求详细表现在什么方面?

  答:语音业务周围的训练数据需求包括语音识别、语音相符成、语音转写等,客户在语音数据业务周围的拓展需求是五花八门的:一方面,人造智能技术逐步发展落地,向各走各业一连排泄,智能语音数据的适用场景将随之扩展;另一方面,公司服务的客户数目一连增补,客户群体在智能语音周围的数据需求日好多元化,区域化拓展的趋势也很清晰。因而,公司原有的数据齐集构必要一连地升级和优化,以已足上述多样化的市场需求,例如:将智能语音训练数据拓展至更多语栽、更多垂直场景、更多AI设备、更多音色类型等。

  问:公司在智能驾驶周围详细有什么样的工具平台?在数据处理过程中,算法详细扮演了什么样的角色?

  答:近年来公司在智能驾驶专项周围加大了贮备,逐步竖立了车载环境采集麦克风阵列、2D点云标注平台、3D点云标注平台、2D-3D说相符标注平台等。算法平台上处理过多大周围的数据、这些处理过的数据的多样性和复杂程度如何、算法引擎投票机制如何竖立、置信区间如何竖立、算法在平台中如何行使、数据流转的工程化竖立等等,这些因素都决定了平台的适配性和能力如何,也将对算法自动处理的终局产生内心性影响,并最后决定了数据处理的质量、效率、成本。在智能驾驶分歧类型的数据上,一连升迁自动化标注率和预识别加速率会促进数据迭代的速度,同时,公司也必要以保障数据质量为第一优先级,进走自动与人造的均衡。

  问:定制数据逐步积累,是否能够转化为自有的数据产品?

  答:客户定驯服务涉及的训练数据在交付给客户并完善验收后,一切权十足迁移给客户,海天瑞声是不及用于自己产品建设的,这一点是公司首终遵命的知识产权请求。

  在定制数据集的生产过程中,积累下来的经验、know-how会协助公司各方面能力的升迁,例如工具平台由于处理了大量的定制数据集,使平台完善性有很大的增好,强化了公司的数据处理能力;再如,在一些情况下,公司在生产定制数据集时,也会根据对走业需求的判定,在保障数据权属划分清亮的前挑下,行使团队管理、资源获取的便利性,同步安排额外的设计、采集和标注做事,完善产品数据集的开发。

  问:公司在数据集产品、算法、智能驾驶周围进走了大量研发投入,请示研发投入规划及挺进如何?

  答:在数据集产品方面,据公司晓畅,一些国内头部客户有清晰的出海拓展计划,为实现以上方针,这些客户必要完善其AI产品的多语栽拓展,基于此,吾们前瞻性地新增研发了200余个自有知识产权数据集产品,其中一半以上是多语栽数据集,更包括多栽稀缺说话,如一些东南亚、非洲地区的稀疏幼语栽等;在新技术方向,吾们也进走了此方面的研发,如走车类道路识别数据集、手语数据集、行为与面部外情捕捉数据集等,从而已足新的技术方向及场景需求。在产品研发方面,今、明年都会是重投入的趋势。

  在基础研发方面,公司现在已有19大平台与技术工具,如多语栽文本标注平台、OCR标注平台、2D标注平台、3D点云标注平台等。吾们的现在标是经历赓续的算法投入,寻求最佳人机配相符,在保证数据质量的同时,赓续实现降本增效。现在在一些说话的算法辅助效率上都有清晰遮盖和挑高,降矮人员参与程度。算法投入也将赓续投入在资源调度、做事分配、自动化匹配、终局分析等全流程的诸多环节,这些都使得人员的参与度逐步降矮、资源配置变得更高效、数据处理效率赓续升迁。

  在智能驾驶周围,公司计划进走较大周围的研发投入、并将坚定地不息下去。相较于传统语音业务,智能驾驶业务的数据处理量更大、数据处理需求的迭代频次更高,例如,有些客户的数据需求不是根据传统的批次概念进走挑交,而是必要数据服务商把数据解决方案与客户编制对接,进走实时的数据采集标注、训练和安放的整个闭环运转。要实现以上功能,则对于数据服务商的数据处理平台及其底层算法请求很高,海天瑞声已经最先挑前布局、投入,异日会在该周围赓续加大研发力度,为客户挑供更好的全栈式数据解决方案,已足客户的各类数据需求。

  问:境外疫情对公司收好的影响如何?展望何时能懈弛?若境外疫情常态化,公司将要如何答对?

  答:现在看境外疫情常态化已经是确定性事件了,境外疫情对于公司存在必定的影响:生产环节,(1)在语音周围,由于录音采集对于设备和场景的请求较高,很难经历纯长途手段进走,因此即便在疫情期间也必要进走现场采集,项现在实走方案由以去的荟萃采集变成松散采集,降矮单点防疫政策的影响,这也就请求全球化的供答链编制必要更强化盛、遮盖国家/地区更多,公司今年已经最先加大了这方面的投入;(2)在一些数据特征比较浅易的周围(CV、文本),吾们计划扩大线上采集周围,比如经历多包模式实现长途采集。在营销端,以去公司都是经历参加全球周围内的各类主流学术会议、展会来与客户进走交流疏导、实现出售现在标的达成,疫情最先后这些线下会议、展会大多作废,因此吾们已经最先建设更大周围的出售团队,升迁直接触达境外客户的能力,来对冲上述影响,并藉此在不息深挖现有头部客户需求的同时,更大周围地拓展其他新周围、新客户。

  问:智能驾驶周围,是否面临新闻坦然及法律相符规题目?

  答:近年来,《网络坦然法》、《数据坦然法》、《幼我新闻珍惜法》、《汽车数据坦然管理若干规定(试走)》等主流法律法规已经落地实走,吾们能够清亮地感受到国家在这方面的法律环境是在迅速趋厉的,数据坦然有关法律体系的完善对训练数据产业的健康发展将产生远大的影响,有利于规范走业走为、治理走业乱象,挑高走业门槛,为走业以及海天瑞声的发展创造更加有利的条件。

  海天瑞声自成立之初就把数据坦然、数据相符规视为生命线,在这方面的投入是陪同着这么多年的业务发展的,且已经形成了较为成熟的坦然、相符规框架和体系。现在,公司相符上述法律法规、GDPR、以及其他一些与数据坦然、数据相符规有关的法律法规请求,并经历了业内主要的ISO/IEC27001体系认证、ISO27701幼我隐私新闻坦然管理体系认证等。异日,公司将赓续周详跟踪法律环境转折,赓续在数据坦然、数据相符规方面进走投入,确保公司业务首终在健康、相符规的环境下开展,并将自己在这方面的积累转化为竞争上风。

  问:辅助标注、数据生成技术对公司是否有影响?

  答:其实,数据辅助标注技术、数据生成技术一向都是存在的。实现最佳的人机配相符模式下的辅助标注,是海天瑞声一向在探索和全力的方向,经历赓续算法投入,逐步升迁数据的自动化处理程度,在保证数据质量的前挑下,挑高数据处理效率,缩短人力参与程度、进而降矮成本。

  数据生成技术能够行为数据采集的有效辅助,但也存在较强的限制性,降矮实活着界各类特征的训练成绩,因此现在仅可行为数据采集的一栽辅助手段。

  公司在本走业深耕多年,一向在赓续周详关注各类技术的转折、演进,吾们会选择最适用的技术来助力业务现在标的实现,并将经历一连的研发投入,确保自己在技术周围的赓续领先性。

  问:语音数据业务异日增进空间如何?垂直走业异日是否要重点发展?

  答:语音业务周围的训练数据需求包括语音识别采集、语音识别转写、语音相符成等方向,客户在语音数据业务周围的需求是五花八门的,陪同语音技术进一步发展落地、并向各走各业和更多垂直场景一连排泄,以及中国企业出海、国际化战略的实走,客户对语音类数据的需求将拓展至更多语栽、更多垂直行使场景、更多AI设备、更多音色类型等,这些都将成为公司语音数据业务新的增进点。

  公司认为垂直走业(例如智能驾驶、金融等)和政企周围是训练数据下一阶段行使的主要周围,是尚未估量的新增蓝海市场,由于每一个垂直走业内部均有诸多细分,因此市场容量特意可不悦目。现在,智能驾驶周围的数据需求增进趋势较为清晰,公司已经最先在智能驾驶周围进走投入,异日会赓续加大在该周围的研发、资源、商务、交付等方面的投入,确保自己能够牢牢抓住新一轮的需求爆发所带来的机会。

  问:计算机视觉业务收好占比挑高,是否代外公司发展重心从语音业务向视觉类业务迁移?

  答:公司认为,不论是语音业务照样计算机视觉业务,异日都将赓续扩大周围,成为公司主要的收好来源:语音业务在异日是一个赓续增进的趋势,一方面是智能语音行使周围的拓展不会停留,不论是偏通用型的基础数据照样带有走业属性特征的走业数据,数据之于AI的主要性都使得语音类的训练数据需求会进一步增进;另一方面受到下游行使在多语栽维度上赓续拓展的趋势促进,尤其是国内企业出海需求、国外企业区域拓展需求两方面的赞成,使得多语栽语音业务会赓续增进;计算机视觉业务是公司拓展赛道的主要布局,尤其针对智能驾驶和OCR周围,公司将经历一连地在算法钻研、工程化工具平台开发迭代、供答链资源体系建设、商务及交付团队升迁等方面进走赓续投入,力争获得与自己在语音周围相通的领先上风。

  问:定制业务毛利率情况如何?如何看待定制化业务对公司的意义?

  答:随着人造智能技术在某一周围行使逐步广泛化、周围化,定制业务毛利率清淡会表现消极趋势,除了组成公司主要收好来源外,定制业务对公司有偏壮大意义:在定制数据集的生产过程中,积累下来的经验会协助公司各方面能力的升迁,例如工具平台由于处理了大量的定制数据集,使平台完善性都有很大的增好,强化了公司的数据处理能力;在一些情况下,公司在生产定制数据集时,也会根据对走业需求的判定,在保障数据权属划分清亮的前挑下,行使团队管理、资源获取的便利性,同步安排额外的设计、采集和标注做事,完善产品的开发。此外,公司加大技术投入,采用更为相符理的人机协同比例完善数据处理义务,降矮人员投入,挑高处理效率,降矮成本,从而挑高毛利率程度。

  问:训练数据走业集体市场空间如何?

  答:人造智能的发展已经进入了“数据+知识”双轮驱动的新一代,数据要素的市场地位被高度认同,市场空间汜博:

  (1)训练数据需求与下游人造智能行使技术研发投入有关,清淡情况下,下游客户的研发投入会有10%-15%旁边的比例预留给训练数据,这个比例会随着数据之于AI行使技术研发的作用的升迁、以及AI赋能百业的深入而挑高。

  (2)根据艾瑞、IDC等第三方机构对AI训练数据走业的钻研,中国市场周围展望在2025年达到100+亿,复相符增进率20%旁边;海天瑞声超过30%旁边的业务来源于海外,因此全球市场空间也是公司重点关注的,根据集体AI产业的数字比例,全球市场周围大约是中国市场的5-8倍旁边,因此,2025年全球训练数据市场周围答该在500亿以上。

  (3)除以上统计的市场空间外,公司认为垂直走业(例如智能驾驶、金融等)和政企周围是训练数据下一阶段行使的主要周围,是尚未估量的新增市场,且每一个垂直走业内部均有诸多细分,因此市场容量特意可不悦目。

  问:走业现在的竞争格局如何?海天瑞声处于怎样的竞争地位?

  答:国内的主要竞争对手是一些品牌数据挑供商,如慧听、标贝,以及一些新兴公司;国外的主要竞争对手是Appen。

  与竞争对手相比,海天瑞声在多年的发展历程中积累了必定的竞争上风和壁垒,主要表现在以下方面:

  (1)技术平台能力:公司历来偏重技术的研发,近年来更是加大研发投入的力度,周详升迁公司的算法能力、工程化能力,加深算法辅助能力与人造做事的结相符,达到更佳的人机协同效率,云云能够做大周围、升迁效率、降矮成本。

  (2)供答链资源管理能力:公司拥有成熟的数据处理平台,解决了数据周围化过程中对产能、质量、成本几方面均衡的难题,同时经历永远建设的供答链体系,保障资源的获取,异日,公司会进一步加大供答链资源平台的建设,使人员管理、采标资源分配、质量检验、长途做事等各方面的能力得到隐微升迁,为垂直走业客户和当局客户的客群拓展挑供赞成。

  (3)数据坦然能力:随着近期包括《数据坦然法》、《幼我新闻珍惜法》等主流法律法规的落地、发布征求偏见,数据走业的法律环境在迅速趋厉,这对整个走业的健康发展及海天瑞声自己都是一个利好。法律体系的完善有利于规范走业走为,挑高走业门槛,从而促进走业的健康发展,从公司角度而言,这与公司历年来在数据相符规建设方面的全力是相反的,将使得公司处于更加有利竞争地位。

  (4)去垂直走业拓展的能力:公司认为,垂直走业延迟是异日训练数据走业发展的方向,公司在平台研发和安放能力、数据坦然能力、供答链资源能力、走业口碑和声看等方面都有较强的竞争力,为公司在走业周围的拓展上挑供了先发上风。公司正在积极尝试去包括智能驾驶在内的更多周围拓展,开发新的业务增进点。

  问:公司的算法技术是否与客户算法技术有冲突?异日发展趋势如何?

  答:公司所研发的算法技术与客户算法技术并不冲突,客户的算法技术主要是用于解决其终端产品的行使,更多是面对其终端消耗者;而海天瑞声的算法行使场景是数据处理这个场景,在这个场景下,算法是很主要的基石,算法矩阵是数据处理平台的基础,为训练数据的生产全流程挑供赞成,以赓续迭代的智能化人机配相符模式来一连挑高数据处理质量和效率、降矮成本,在数据处理周围掌握最先辈的算法是公司平素的现在标。随着人造智能产业的一连发展,尤其深入到各个垂直走业,单单数据周围的湮没宽度、深度就已经存在庞大的蓝海,公司会在数据周围不息深耕。倘若在挑供数据解决方案的过程中,客户需求涉及模型训练等与算法有关的延迟服务,公司也会挑供相答的服务。

  问:客户对数据的需求是否具有赓续性?大型科技公司的数据需求有什么特点?

  答:客户对训练数据自己的需求是会永远赓续的。客户的AI产品在上线之前及初期,由于其自己尚未产生实网数据,清淡必要采购模拟型数据集进走算法模型的训练,在产品上线并运走一段时间、产生大量实网数据之后,则会挑供实网数据给到吾们进走数据加工,加工的数据反哺到客户的产品上从而促进其产品的迭代、升级。之后,客户必要进走产品功能的拓展,再次必要购买模拟数据集来赞成,后续再采购数据加工服务进走迭代,如此周而复首。因此,客户对训练数据的需求是赓续的,且随着行使AI技术的场景、说话栽类越来越多,各栽场景、各类说话的数据集需求会崛首,带来的是训练数据的需求会越来越大。

  大型科技公司客户自己的研发能力较强,而且预算相对优裕,遮盖的数据类型更加雄厚,需求也更为前沿。此外,大型科技公司客户对数据的需求更安详、更综相符、增进实在定性更强。

  近期根据与客户的交流和市场的调研,客户进走全球性布局带来的多语栽数据需求、客户新的技术布局带来的多模态数据需求、垂直走业行使升级带来的走业数据增量需求等都组成公司异日业务增进的主要驱动力。

  问:像GPT-3云云的大模型的行使,对公司的数据业务是否有冲击?

  答:大模型最近成为了一些钻研机构较为倡导的AI研发方向,吾们也关注到,学术界已经展现了一些更具前瞻性的不悦目点,即:超大数据+超大算力+超大模型将如“电网”清淡,成为变革性产业基础设施与驱动产业行使发展的中央动力。从内心上来讲,大模型的发展仍将遵命“算法+数据=模型”这个基础逻辑,每一个大模型产生的背后,必要的是大量的训练数据做“质料”,且而当大模型去万千的垂直走业行使时,对于垂直走业数据的需求仍将是庞大的。海天瑞声今年就已经与国内某著名AI钻研机构达成战略配相符,异日将围绕其主导研发的大模型研发在面向分歧垂直行使场景方面开展数据配相符,因此,AI大模型的发展趋势对公司不光不会产生负面冲击,而将会对公司业务发展产生积极促进作用。

  异日走业内如展现进一步的技术变迁,对数据业态产生影响,公司行为走业内的头部公司,也将保持较高的敏感度,一连调整自己的业务模式,反响云云的转折。

  问:公司的客户群体异日会发生什么转折?

  答:公司现在的主要客户群体是科技周围中的头部公司,掌握人造智能有关的前沿技术,熟知训练数据的行使手段和场景。异日公司的客户群体会延迟至两个周围:(1)头部科技公司延迟至腰部及长尾客户。随着深度神经网络算法技术的遍及,更多具有专项特点的技术公司涌现,同时随着公司训练数据开发成本的优化,能够将产能开释至腰部及长尾客户;(2)通用技术客户向垂直走业延迟是异日训练数据走业发展的主要方向之一,这些垂直走业的传统企业、以及答运而生的有关行使企业逐步将会成为公司的客户,这些新增客户与公司在基础数据周围所服务的传统客户群体会有所分歧,如智能驾驶场景下,智能驾驶技术类企业、乃至主机厂(传统车企、新势力等)都会或已经成为公司的客户;再如金融走业场景下,同理,技术类企业、以及银走、保险公司都会或已经成为公司的客户;此外,还有医院、公检法等机构也将会或者已经成为公司的客户。集体来看,在AI赋能百业的进程中,那些新闻化程度高、AI研发能力比较领先的机构都是公司的新增湮没客户群体。

  问:标品化的产品数据集业务与定制化服务业务的区别是什么?客户会如何选择?异日的发展趋势如何?

  答:产品数据集是先于客户需求形成的模拟数据,是公司区别于其他竞争对手的一大特色,基于公司对市场的判定和通用化需求的挑取能力,其属于是一次性投入、异日重复授权出售,对于公司的营收、毛利有偏主要作用;而定制业务的需求来源是客户的定向化需求,有些定制业务的原首数据来源是客户挑供的实网数据,公司挑供纯加工的服务。

  客户的AI产品在上线之前及初期,由于其自己尚未产生实网数据,清淡必要采购模拟型数据集进走算法模型的训练,在产品上线并运走一段时间、产生大量实网数据之后,则会挑供实网数据给到吾们进走数据加工,加工的数据反哺到客户的产品上从而促进其产品的迭代、升级。之后,客户必要进走产品功能或语栽的拓展,再次必要购买模拟数据集来赞成,后续再采购数据加工服务进走迭代。

  产品+服务的组相符一向是公司向市场挑供的综相符解决方案,是一个集体,服务于分歧客户的分歧研发阶段需求,其收好贡献比例在各年间也表现较为相反的趋势。而产品+服务带来的数据积累,也教养了公司的数据处理平台和有关算法一连升迁,全力达到数据处理场景下的走业最优。

  异日,倘若把垂直走业数据这个大周围放进来考虑,那么先期,更高请求的定制化服务业务的占比能够会逐步上升,以智能驾驶为例,客户对于数据服务商的主流需求其实是一体化、闭环式的数据解决方案,这就必要相通于海天瑞声云云的数据服务商有能力为客户挑供从数据采集、处理到训练、仿真、测试、验证的完善闭环服务,以已足客户的数据处理量更大、数据处理的迭代频次更高等需求特点。但在定制化服务挑供过程中,公司将发挥在语音周围相通的特点,挑取标准化需求,在垂直走业周围也构建建设自己产品体系的能力,形成有价值的走业数据集。

  问:数据集产品价格趋势如何?

  答:清淡来讲,数据集产品在生产出来后,为了保证数据集自己的均衡程度,清淡不会做大周围的更新、拓展,而是在标注类型方面做一些完善或者进走幼周围的扩建调整。倘若判定有新的市场趋势,公司会研发新的数据集去遮盖。因此,每个数据集都是有生命周期的,在这个周期之内,价格清淡会随时间推移而表现消极的趋势,而在这个过程中,那些竞争力较强的数据集会在相等长的时间保持价格的竞争力,其价格消极趋势会较为缓慢、甚至在一准时间内几乎不消极。例如,对于市场上比较稀缺的说话而言,对答的数据集产品价格就能够保持相对坚挺。

  总之,数据集产品价格是根据数据集的前瞻性、稀缺性、市场供需有关等各方面因素综相符决定的。

  问:公司的平台、工具的竞争上风表现在哪些方面?

  答:最先,公司是一个综相符性的数据解决方案挑供商,因此竞争上风是表现在多方面的,如雄厚的产品积累、成熟的数据处理技术和平台、全球化的供答链管理能力等等。

  详细到平台、工具周围,算法在数据处理环节的嵌入能够协助标注人员升迁效率,云云会降矮对人员的倚赖(既有人员数目的降矮、也有对人员标注能力请求的降矮)。集体上来看,算法平台上处理过多大周围的数据、这些处理过的数据的多样性和复杂程度如何、算法引擎投票机制如何竖立、置信区间如何竖立、算法在平台中如何行使、数据流转的工程化竖立等等,这些因素都决定了平台的适配性和能力如何,也将对算法自动处理的终局产生内心性影响,并最后决定了数据处理的质量、效率、成本。

  公司在平台工具方面能够取得领先走业的地位,一方面是基于公司赓续且一连加大的研发团队建设和研发投入,另一方面是基于公司在训练数据周围多年积累下大量、多样化数据以及数据行使经验,经历云云的积累,赓续迭代平台工具的适用性,并赓续训练底层算法,形成适配性和功能性都更优的模型,能够做到幼批数据注入->算法训练->标注员反馈->模型生成->处理大量数据的自闭环体系,在数据处理这个场景下,实现最佳的算法和平台能力。

  问:公司不是仅仅挑供数据标注服务,而是挑供集体训练数据解决方案,那么在解决方案中的各个环节的技术难度如何?

  答:最先,训练数据集的设计和质料数据采集环节是存在相等的技术难度的,比如语音类数据,文本设计是否贴相符实际场景、如何实现最幼集且确保场景遮盖雄厚度等因素均是设计和采集环节必要考虑息争决的;在视觉类采集方面,复杂的人像采集、物体影像采集,同样具有如何设计相符理的数据浓度达到最幼成本最高训练成绩,倘若是垂直走业数据集的采集,例如智能驾驶周围,则存在准入资质、技术难度(包括但不限于对于交通场景、车辆传感器等要素的综相符理解和实走能力)等方面的门槛。

  数据标注环节的难度在于面对大量的数据标注需求,如何迅速的找到优裕的资源,而且经历算法平台一连升迁机器的辅助标注参与度,在人机配相符过程中,寻觅效率与质量的最佳均衡,在升迁数据标注效率、保证数据质量的同时降矮成本。

  公司在今年已经最先了大周围的研发投入、且该战略将会永远赓续,以周详升迁公司的算法能力、工程化能力、资源管理能力,坚持技术+资源的双轮驱动方针,保持和升迁公司的竞争力。

  问:智能驾驶类数据业务现在近况如何?客户对于数据的需求有什么样的特点?

  答:从几年前公司已经最先为一些客户的座舱数据(包括车载语音数据、舱内DMS以及OMS数据等)需求挑供服务或产品,经过几年发展,服务周围也已经拓展至车外数据,现在公司已经与传统车企、造车新势力、以及一些头部自动驾驶技术公司竖立了配相符,客户现在也许有10-20家,换言之,只要是有智能驾驶算法钻研部分的公司客不悦目上都存在训练数据需求。如车内座舱类数据,客户必要经历行使训练数据来训练其语音识别、语音相符成算法模型,进而赞成其车载语音交互产品或行使;车外数据,则会被用于道路识别、走车决策、泊车决策等场景。订单周围与客户自己的需求有关,从十几万到几百万不等。

  从今年最先,随着汽车智能化理念的遍及和智能驾驶技术的逐步量产化落地,与智能驾驶有关的数据需求最先表现周围化的趋势,该类需求最先表现在了训练数据采集、标注方面,例如针对车载雷达传感器传回的3D点云数据,经过处理、形成结构化训练数据集用于雷达传感器算法或ADAS智能驾驶编制算法的训练。现在,公司为更好的承接智能驾驶业务,已经开发并上线了2D标注平台、3D标注平台及2D-3D说相符标注明决方案,同时将招募更多的专科人士特意从事该类业务的开展。

  智能驾驶业务对于公司来讲是一块较新周围,从业务的宽度看,必要遮盖从数据采集、处理到训练、仿真、测试、验证的完善闭环,从客群特点看,除智能驾驶技术公司外,整车厂等传统行使技术的公司也将会或已经成为公司的直接客户。因此,智能驾驶业务从客群到技术方案到交付都有其自己的走业特征和逻辑,公司今年与片面走业头部企业竖立了新的配相符有关,也正在进走智能驾驶走业的编制化梳理,期待经历自己在数据处理平台、质量管控、需求对接、项现在反响能力、供答链资源管理能力等方面的积累,深入与现有客户的配相符,并扩展更多的客户。同时也会积累智能驾驶周围的标准化数据集产品,迎相符更多客户的多样化需求。

  问:公司的头部客户对于收好的贡献会如何?

  答:根据以去的订单情况,前二十大客户也许贡献了公司收好的80%旁边,存在必定的头部荟萃度,但不存在对某单一客户倚赖的形象。此外,公司的前五大客也不是固定不变的,基本每年都会有新的客户进入到前五大的序列,即,客群对收好的贡献会有轮动。云云的客户组成必定程度与AI产业相对头部荟萃的格局有关,大型科技企业在研发投入更为赓续、在多元化需求上也更为引领。因此,在客户策略上,对头部客户的深度发掘是公司主要的大客户策略。同时,公司也将会赓续不悦目察市场、调整自己的业务模式和产品服务形态,发掘更多的腰部客户和中幼客户需求,雄厚公司的客户群体。

  问:从拿到订单到交付,清淡周期多久?

  答:公司的项现在实走周期能够分为以下2个类别:

  (1)产品类数据库的周期:由于其在出售时已经是制品状态,清淡1-2个月能实现收好确认;

  (2)定制类服务的项现在周期:根据项现在实际,生产过程能够涵盖设计、采集、处理、质检等环节,平均周期在6个月旁边。倘若仅为数据加工服务,则根据客户挑供的数据量和难度,周期在3-9个月不等。

  问:产品数据集生产出来后,后续会更新吗?详细会做什么样的更新?

  答:产品数据集的完善、更新主要针对加工层面会进走必定的改良,片面数据集会做必定的扩建,但考虑到数据集的集体均衡性,单一数据集产品的完善和更新的需求不会太多。从集体产品体系上看,公司会根据分歧的维度,例如周围、说话、设备、场景等,结相符技术趋势和市场需求,对产品体系进走一连的完善和扩建。

  问:产品数据集的生命周期多长?

  答:就现在训练数据产品的出售情况看,平均生命周期也许在5年旁边,有片面产品生命周期可达8-10年之久,比如公司从前建成的一个中文语音识别数据集,现在仍在出售,而且售卖周围很广,基本遮盖了现在市场上绝大无数主流的语音识别引擎;

  北京海天瑞声科技股份有限公司的主买卖务为训练数据的研发设计、生产及出售业务。公司的主要产品有数据资源定驯服务、数据库产品、数据资源有关的行使服务;公司自2007年至今不息荣获“国家高新技术企业”及“中关村高新技术企业”称号,2018年被评为国家规划布局内重点柔件企业。公司是“中国人造智能产业发展联盟”、“中国语音产业联盟”的理事单位,参与了走业标准的首草做事,在人造智能数据库架构设计、开发标准、质检评测等周围,以专科性和创新性获得了走业的广泛认可。公司近年来获得了2017年中国新闻协会、新闻化不悦目察网评选的“年度人造智能数据服务周围领军企业”;2018年中国说话产业联盟颁发的“智能语音创新大赛走业前卫奖”;2018年中国新闻协会、新闻化和柔件服务网颁发的“2018年人造智能走业最佳产品”等多项国内外人造智能周围奖项。

  调研参与机构细目如下:

参与单位名称参与单位类别参与人员姓名万家基金管理有限公司基金公司刘洋上银基金管理有限公司基金公司卢扬东海基金管理有限义务公司基金公司杨红中融基金管理有限公司基金公司甘传琦、蔡萧洒中邮基金基金公司周楠中银基金管理有限公司基金公司王寒信诚基金管理有限公司基金公司邹伟兴业基金基金公司姚明昊兴业基金管理有限公司基金公司刘方旭农银汇理基金管理有限公司基金公司刘攀华宝基金管理有限公司基金公司张金涛华富基金管理有限公司基金公司傅晟博时基金管理有限公司基金公司金斌嘉实基金基金公司尚广豪、张泓、李欣、王鑫晨、谢泽林国寿安保基金公司张标国投瑞银基金管理有限公司基金公司朴虹睿国泰基金管理有限公司基金公司饶玉涵富国基金基金公司易智泉工银瑞信基金公司黄丙延坦然基金基金公司李辻恒越基金管理有限公司基金公司冯浚瑒易方达基金公司何以铖金元顺安基金管理有限公司基金公司罗天宇银河基金基金公司田萌银河基金管理有限公司基金公司方伟长安基金管理有限公司基金公司崔甲子鹏扬基金管理有限公司基金公司李沁万联证券资产管理部证券公司匡荣彪中信证券证券公司刘雯蜀中泰证券证券公司何柄谕中银国际证券有限义务公司证券公司宋方云中银国际证券股份有限公司证券公司张岩松国信证券证券公司朱松国盛证券证券公司陈泽青天风证券证券公司张睿晓、陈矣骄广东博多证券投资询问有限公司证券公司刘家俊、吴志辉、孙亚文、宋文皓、黄伟增开源证券证券公司刘闲逸招商资管证券公司吴彤西南证券证券公司孙心虹、曹艳萍银河证券证券公司王子路上海保银投资管理有限公司阳光私募机构张煊上海恒复投资管理阳光私募机构宋杨湾上海景领投资管理有限公司阳光私募机构江昕上海汐泰投资管理有限公司阳光私募机构陈梦笔上海沃珑港资产管理有限公司阳光私募机构宋正元上海沣杨资产管理公司阳光私募机构吴亮上海龙全投资管理有限公司阳光私募机构邢增岛广州瑞民投资管理有限公司阳光私募机构冯福来康曼德资本阳光私募机构毛闻宇景泰利丰资产管理有限公司阳光私募机构邹因素朱雀基金阳光私募机构刘庆、焦美美焦、郭涛、黄昊沣杨资产阳光私募机构赵高尚浙江国恬资产管理有限公司阳光私募机构卫申鹏深圳市景泰利丰投资发展有限公司阳光私募机构吕伟志禾永投资阳光私募机构焦云西藏相符多易晟投资管理有限义务公司阳光私募机构张友彬阿杏投资阳光私募机构程千里中国人保资产管理有限公司保险公司冯骏、田垒人寿资产保险公司刘军伟光大永明保险公司刘奇华夏久盈保险公司赵子豪坦然养老保险公司邵进明长城人寿保险股份有限公司保险公司沈志斌LyGH Capital海外机构KeerWangPicea Investment Management Ltd海外机构张子钊New Silk RoadQFII冯昕中欧基金管理有限公司QFII高松群好投信QFII洪玉婷JocerlyFree beat--SophieLuoPrudence/周围基金--董丰侨上海乾惕投资管理有限公司其他王洲上海隐约投资有限公司其他邵伟中睿相符银其他董佳男中融鼎(深圳)投资有限公司--岳聪光大证券资产管理部其他李走杰北拓资本其他王浩华泰期货其他郭涛台灣國泰投信有限公司其他Albert相符丰资本其他何世权祥和汇一其他章溢漫国信证券机构客户--林若国信证券私走客户--黄星顺国元计算机其他耿军军国盛计算机其他杨烨彬元资本其他徐方舟拾贝投资其他杨立拾贝投资管理有限公司其他杨立杭州红骅投资管理有限公司其他陈杰棕桐湾投资有限公司其他巩显峰正谊资产管理有限公司其他吴树熙泰康&泰康资产--倪辰晖、宋焱、游涓洋、程翔、金伟大溪牛投资管理(北京)有限公司--何欣、王法瑞民投资管理有限公司其他李权兵盘京投资其他王震谢诺投资其他郭笑颖进门财经其他劳少坤