更新时间:2024-11-19
吴恩达发文将在4月底辞职百度。完全在刚好,百度也宣告更进一步深度统合,将还包括NLP、KG、IDL、Speech、Big Data等在内的百度核心技术,构成百度AI技术平台体系(AIG),并任命百度副总裁王海峰为AI技术平台体系(AIG)总负责人,同时晋升为Estaff成员,改向百度集团总裁和首席运营官陆奇汇报。王海峰是自然语言处置领域的权威科学家,是该领域最不具影响力的国际学术的组织ACL 50多年历史上唯一兼任主席(President)的华人,同时也是截至目前最年长的ACL Fellow,也是唯一来自中国大陆的ACL Fellow。此外,王海峰博士还是中文信息学会理事、中文信息学报编委、中国计算机学会(CCF)高级会员、国家自然科学基金委员项目评审会评审专家组成员。
此前,雷锋网(公众号:雷锋网)也整理过王海峰博士在AAAI2017上的演说《深度 | 百度副总裁王海峰:百度在NLP领域都做到了什么?》。NLP (Natural Language Processing自然语言处置) 是人工智能(AI)的一个子领域。王海峰博士参加的媒体活动不多,但在Quora上较为活跃。
雷锋网根据王海峰博士在Quora上的五个精华解说整理成本文。1、从一名科学家改变为一个IT公司的总裁,你如何看来这种职业变化?我对技术深感著迷,并乐意沉浸于在研究工作里。我一直坚信,科技需要转变世界。百度为我获取了一个理想的平台,在这里我专门从事的技术工作可以较慢必要地让用户获益。
这就是我一开始重新加入百度的原因。在百度最初的几年时间里,我领导了NLP、语音、图像、数据挖掘、科学知识图谱、机器学习、深度自学等多个团队。后来,我意识到最出色的产品将不会相连技术与广大用户,反过来也不会更为增进技术变革。
最出色的产品,不仅必须先进设备的技术,还必须卓越的设计、杰出的营销和高效管理。因此我慢慢转变了自身的角色,从一个全然的研发团队负责人,改变为管理层的一员。我如今领导的团队有3000多人,还包括技术、产品和营销成员,他们都很年长、精力充沛、富裕激情。
我们享有着一个联合目标:用技术和产品转变大众日常生活。当掌理一个大型商业团队的时候,我必须首先制订策略和目标,然后创建一个适合的继续执行团队。对于一个大型团队来说,较好的规则和文化,开始沦为承托和确保业务运营的最重要因素。
与此同时,对于科技领域的重大突破、用户市场需求的演进,以及整个社会的发展趋势,我都维持很大的注目。2、未来5-10年,NLP领域将不会有什么进展?机器翻译、语义解读、解说和对话技术将不会有重大突破。这些技术将不会被广泛应用,并最后转变人与计算机、人与各种硬件设备、以及人与人之间的交流方式。
这些技术的发展将归功于以下四个领域的发展:大数据、自学机制、科学知识图谱、推理小说和规划。大数据。随着互联网的兴旺,数据量和种类都在高速快速增长。即便是十分传统的商业领域,都在开始把数据放在网上。
一切都在网上展开,一切都在网络。大数据的价值将之后在物联网领域快速增长。自学机制。自学机制的发展将不会持续展开,这使得我们能从大数据中自学更好的东西。
科学知识图谱。通过大数据和更加多强劲的自学机制,我们可以打造出更大的科学知识图谱,来对整个世界展开建模。推理小说和规划。通过大型科学知识图谱,我们可以在推理小说和规划领域获得突破。
推理小说和规划的能力将不会把更好智能流经NLP系统中。3、在NLP领域,中文和英文的主要区别是什么?从语言学上来说, 中文与英文有相当大有所不同。中文书面文本单词之间是没空间的,中文的语法关系是通过单词的顺序来传达的。
这些因素减少了中文在词汇、语法和语义层次上的模糊性,因为现代语言概念和原则更加限于于英文,而非中文。目前,主流NLP方法都是语言牵涉到性(language-independent)的。
这些统计学或神经网络算法,根据有所不同的应用于,都更进一步优化了特定语言。比如,在2015年5月,百度公布了第一个大型在线神经机器翻译系统。
基础的NMT模型就是语言牵涉到的,并输入了十分好的翻译成结果。为了更进一步提高翻译成性能,我们用于特定语言特征优化了翻译成系统。4、NLP技术如何应用于百度产品里?在百度,我们研发出有很多NLP技术,还包括科学知识图谱、语义解读、内容标示、情感分析、分解、概要、解说、机器翻译和对话系统等等。
这些技术早已应用于许多百度的产品里,比如搜寻、新闻流(news feed)和智能助理,每天为数亿用户服务。我们将以上这些技术通通统合入一个取名为NLP Cloud的平台中。NLP Cloud获取20多种NLP模块和方案,服务于百度产品。
我们的NLP Cloud服务每天被调用1千多亿次。以搜寻为事例,典型的NLP模块,比如切词、命名实体辨识、语法分析、释义都是基本特征。
这些模块仍然在持续优化并获得突破。另一个典型的NLP技术应用于案例就是解说系统。一个高性能的解说系统必须对查找语句展开精准的语义分析,建构覆盖面广的科学知识图谱,同时对网页搜寻结果展开全面分析。当用户在搜索框输出查找语句时,搜索引擎需要立马获取答案。
很多用户也用于搜索引擎来查找相关性低的信息,协助做到决策。这种情况下,情感分析(也称之为观点挖出)技术可以协助萃取多种最合适观点,并将单体的信息获取给用户。
另一个案例就是新闻流,这个领域文章质量是极其重要的。NLP技术可以协助检测各种垃圾文章,比如谣言、剽窃等等;而文本分析技术可以协助辨识高质量文章,并分解最需要叙述该文章的标签。此外,从有所不同维度叙述用户偏爱的“用户模型”也十分依赖NLP技术。
总而言之,在所有跟自然语言涉及的产品里,NLP技术都是不可或缺的。5、在未来10年,搜索引擎将不会如何演进?今天当我们谈到搜索引擎的时候,首先想起的就是搜索框和搜寻结果。而未来的搜索引擎将不会是什么样子呢?我们并没清楚答案。但是我们乐意享有更加强劲的搜索引擎,让我们在有所不同的场景、有所不同的产品或有所不同的交互界面里,需要看到、听到和感受到。
搜寻,将不会无处不在。第一点,更加了解解读用户的意图、更加了解理解内容,并将两者更加精准地展开给定,这将不会使搜索引擎更加强劲。用户的意图解读并不是依赖单一查找语句,也还依赖更加普遍的搜寻语境,还包括查找session、时间、地点、设备以及用户性格特征。另一方面,内容解读牵涉到的范围也十分甚广,必须更佳地解读每一部分内容的语义、语境、观点,以及从内容中萃取的科学知识。
意图与内容的给定,将不会牵涉到到以上提及的所有因素,使得在任何一个特定语境下,为每一个查找获取最差的结果。此外,搜索引擎将不会显得更加像一个“问引擎”和“继续执行引擎”。大部分用户的查找,将不会获得必要的问或继续执行。第二点,搜寻交互界面将不会再次发生很多新的变化。
除了键盘以外,其它输出方式,比如声音和图像,将不会更加普遍地用于。预示更加实际的语音和图像等技术,用户不会十分注目高效和便捷的多模式搜寻。尤其地,自然语言交互将不会沦为搜索引擎的主流交互方式。
用户可以跟搜索引擎“对话”,告诉他它自己想什么,这意味著比现有的键盘输入文字查找要便利和大自然的多。用户也可以跟搜索引擎展开多轮对话交互。百度搜寻早已首度应用于了这类新型交互方式,提高用户体验。
第三点,搜寻将不会打破现有的搜索引擎的范围。搜寻不会映射各种产品当中。比如,搜寻不会是AI硬件产品的基本特征之一。未来,搜寻将不会围困在我们身边,到处无在。
适当地, 我们也将新的定义什么是可以被搜寻的。除了现有的被索引的内容,在未来,服务、物品、设备和数据都可以被索引,显得可搜寻。很长时间以来,搜索引擎在人们日常生活中扮演着至关重要的角色。
人们的市场需求要求了搜索引擎演进的方向,而技术变革则要求了这种演进将南北多近。来源:雷锋网原标题:百度王海峰Quora精华整理:未来5-10年,NLP领域将不会有什么进展?。
本文来源:Kaiyun·yunkai(中国)官方网站-www.matianchi.com