㈠ 知识图谱是什么有哪些应用价值
知识图谱 (Knowledge Graph) 是当前的研究热点。自从2012年Google推出自己第一版知识图谱以来,它在学术界和工业界掀起了一股热潮。各大互联网企业在之后的短短一年内纷纷推出了自己的知识图谱产品以作为回应。比如在国内,互联网巨头网络和搜狗分别推出”知心“和”知立方”来改进其搜索质量。那么与这些传统的互联网公司相比,对处于当今风口浪尖上的行业 - 互联网金融, 知识图谱可以有哪方面的应用呢?
目录
1. 什么是知识图谱?
2. 知识图谱的表示
3. 知识图谱的存储
4. 应用
5. 挑战
6. 结语
1. 什么是知识图谱?
知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。
知识推理
推理能力是人类智能的重要特征,使得我们可以从已有的知识中发现隐含的知识, 一般的推理往往需要一些规则的支持【3】。例如“朋友”的“朋友”,可以推理出“朋友”关系,“父亲”的“父亲”可以推理出“祖父”的关系。再比如张三的朋友很多也是李四的朋友,那我们可以推测张三和李四也很有可能是朋友关系。当然,这里会涉及到概率的问题。当信息量特别多的时候,怎么把这些信息(side information)有效地与推理算法结合在一起才是最关键的。常用的推理算法包括基于逻辑(Logic) 的推理和基于分布式表示方法(Distributed Representation)的推理。随着深度学习在人工智能领域的地位变得越来越重要,基于分布式表示方法的推理也成为目前研究的热点。如果有兴趣可以参考一下这方面目前的工作进展【4,5,6,7】。
大数据、小样本、构建有效的生态闭环是关键
虽然现在能获取的数据量非常庞大,我们仍然面临着小样本问题,也就是样本数量少。假设我们需要搭建一个基于机器学习的反欺诈评分系统,我们首先需要一些欺诈样本。但实际上,我们能拿到的欺诈样本数量不多,即便有几百万个贷款申请,最后被我们标记为欺诈的样本很可能也就几万个而已。这对机器学习的建模提出了更高的挑战。每一个欺诈样本我们都是以很高昂的“代价”得到的。随着时间的推移,我们必然会收集到更多的样本,但样本的增长空间还是有局限的。这有区别于传统的机器学习系统,比如图像识别,不难拿到好几十万甚至几百万的样本。
在这种小样本条件下,构建有效的生态闭环尤其的重要。所谓的生态闭环,指的是构建有效的自反馈系统使其能够实时地反馈给我们的模型,并使得模型不断地自优化从而提升准确率。为了搭建这种自学习系统,我们不仅要完善已有的数据流系统,而且要深入到各个业务线,并对相应的流程进行优化。这也是整个反欺诈环节必要的过程,我们要知道整个过程都充满着博弈。所以我们需要不断地通过反馈信号来调整我们的策略。
6. 结语
知识图谱在学术界和工业界受到越来越多的关注。除了本文中所提到的应用,知识图谱还可以应用在权限管理,人力资源管理等不同的领域。在后续的文章中会详细地讲到这方面的应用。
参考文献
【1】De Abreu, D., Flores, A., Palma, G., Pestana, V., Pinero, J., Queipo, J., ... & Vidal, M. E. (2013). Choosing Between Graph Databases and RDF Engines for Consuming and Mining Linked Data. In COLD.
【2】User Behavior Tutorial
【3】刘知远 知识图谱——机器大脑中的知识库 第二章 知识图谱——机器大脑中的知识库
【4】Nickel, M., Murphy, K., Tresp, V., & Gabrilovich, E. A Review of Relational Machine Learning for Knowledge Graphs.
【5】Socher, R., Chen, D., Manning, C. D., & Ng, A. (2013). Reasoning with neural tensor networks for knowledge base completion. In Advances in Neural Information Processing Systems (pp. 926-934).
【6】Bordes, A., Usunier, N., Garcia-Duran, A., Weston, J., & Yakhnenko, O. (2013). Translating embeddings for modeling multi-relational data. In Advances in Neural Information Processing Systems (pp. 2787-2795).
【7】Jenatton, R., Roux, N. L., Bordes, A., & Obozinski, G. R. (2012). A latent factor model for highly multi-relational data. In Advances in Neural Information Processing Systems(pp. 3167-3175).
㈡ 如何理解知识图谱中属性和关系的区别
如何理解握慧知识图谱中属段简答性和关系的区别?
我借 @SimmerChan 的 回答 评论里的例子延伸一下:
首先, 北京 作为 城市 这个类的实例,接下来考虑:
这两种表示方法到底会有什么区别?本质上二者都没有丢失信息,但是从应用上来讲在支持某些运算时会有性能/逻辑简洁性上的差异。
比如我想要查询:北京有哪些政府机构?那我可能需要同时知道 城市-行政区划 + 行政区划-政府机构 这两个mapping,这时第2种表达要拿到这两个mapping就会比第1种更容易,速度更快。
进一咐早步可以说,属性或关系,或者各位所说的内在和外在关联的划分,并不需要是一个绝对的、本体论上的划分,而是可以(其实是最好) 根据图谱的具体应用需求进行设计 的。
另:事实上表达之所以有多种,是因为面向应用的知识图谱在逻辑上分得还不够细。比如我们考虑:类-实例,类-属性,实例-属性值,属性-属性值之间其实都存在mapping。建模语言RDF中,实体和属性都是节点,而关系则分为实体-实体关系和实体-属性关系,这种设计下也就只有第2种表达了,表达能力更强的语言还有RDFS和OWL(这里有篇简介: 知识图谱技术体系总结 )。
㈢ 教育科技经济三者之间的关系
教育科技经济三者之间的关系如下:
教育培养人才,人才创造科技,科技推动经济发展,经济又促进教育的发展。
教育领域能够培养出各行业需要的人才,各行业的人才不断为科技发展创造条件,科技的突飞猛进不断推动经济向前发展,经济繁荣了,可以进一步完善教育的发展。
当前,中国三大产业所需最多的是技能型人才。技能型人才培养指的是是整个教育人才培养链条中处于体能型与智能型之间的亚人才培养,基础教育只是培养出了有普通知识的体能型人才。因此,对人口完成基础教育之后要毁告花开两枝,连接技能型人才和智能型人才培养。另一方面,教育资源要调整一部分用于婴幼儿早期智力开发,为未来的人才与培养开发积累丰富的资源。
四者关系中,最关键的是教育与经济的关系。教育是经济的发动机,是经济发展与转型的动力和支点。高等教育是教育体系的重要组成部分,是社会体系的一个子系统,它必然与社会经济发生千丝万缕的联系。
随着社会经济的发展,高等教育与经济之间的关系也不断地发展变化。现代经济社培亩会中经济对高等教育的影响越来越主动,起的作用也越来越大;高等教育也日益成为制约经济发展的关键因素。因此,高等教育与经济必然要求相互适应,这种适应是双向的非均衡的互动关系。
㈣ 怎样分析一个行业
向你介绍行业分析框架:
01宏观环境分析——顺势而为
海尔张瑞敏先生说过:“没有成功的企业,只有时代的企业。所谓成功的企业,只不过是因为踏准了时代的节拍。”
所谓时代,就是风口。每个风口都会催生优秀的企业:
PC时代:微软、Intel
互联网时代:BAT
移动互联网时代:TMD
新能源汽车:蔚来、理想、小鹏汽车...
每个行业都会受到“时代”的影响,具体来说就是宏观环境的影响。
可以通过经典的PEST分析框架来分析宏观环境。
例如,在线教育行业的宏观行业分析:
02有哪些细分赛道? ——找到切入点与机会
有的行业版图很大,可以进一步细分,绘制出行业图谱,然后从中找出切入点与新机会。
例如,在线教育的行业图谱:
03赛道多宽?——预判发展空间
赛道多宽是指市场规模有多大。
市场规模决定发展的上限,通过规模估算可以预判发展空间。
如果有权威塌岩机构的数据可以引用那最好了,
如果没有的话,则要进行预测。
最简单的算法是:市场规模 = 销量 x 单价
例如,艾媒咨询预测的在线教育用户规模:
艾媒咨询预测的在线教育市场规模:
04赛道多长?——预判发展趋势
这个行业处于哪个发展阶段?未来的发展走势如何?
这里向你分享行业成熟度M曲线,可以用于如下场景:
判断行业发展趋势
指导战略规划方向
辅助制定运营目标
从行业发展规律看,大多行业都会经历萌芽期、过热期、反思期、复苏期、成熟期、衰退期。
萌芽期:行业处于初始阶段,一个创新技术刚被研发出来,开始有创业公司基于创新技术做出第一代的创新产品,新奇特的产品吸引了创新者、早期接受者尝试,受到资本与媒体的高度关注。
过热期:随着媒体跟进炒作,大量厂商与投资方涌入,市场竞争越来越激烈。
反思期:由于产品不够成熟,开始有负面报道,供应商兼并、倒闭时有发生,资本退出,行业到了泡沫化的低谷期。
复苏期:创新技术在持续改进,第二代产品与服务逐渐得到认可,市场信心开始恢复,越来越多的大众用户开始接受产品。主流厂商开始加强市场推广,抢占市场领先位置。
成熟期:市场稳定增长,产品逐渐成熟,行业进入门槛提高,主流厂商开始盈利并成功IPO,产业链分工明确,行业进入成熟期。
衰退期:新一代的创新技术被研发出来,新一代创新产品的体验、性价比大大超越原来的老产品,导致大量用户迁移到新产品,行业进入衰退期,原来的一些厂商关停并转。
在线教育行业在疫情期间猛涨一波,进入高速成长的复苏期。
共享汽车行业已经度过了萌芽期和过热期,开始进入反思期,最近很多团旁御共享汽车公司经营遇到了困境。
05赛道多挤?——好赚钱吗?
赛道多挤,是分析这个赛道有多少玩家,进入这个赛道的话预计能拿下多少份额,好赚钱吗?
可以通过绘制产业链图,把这个行业的上游、中游、下游的参与者、参与方式呈现出来,可以一目了然地看出这个赛道有多少玩家,以及竞争格局如何。
例如,在线教育产业链:
把每个环节的参与玩家在产业链图上画出来(如下图),可以直观地看出产业链每个环节有哪些参与方,也就是说“赛道有多挤”。
赛道太挤的话意味着竞争激烈,赚钱不容易。
下图是新能源汽车的产业链,可以看出产业链已经挺成熟了,不过赛道也很拥挤。
在分析一个行业好不好赚钱时,有一个经典的工具:波特五力模型。(对,就是迈克尔·波特总结的)
波特五力模型说的是,一个行业有五种启态力量决定这个行业的利润水平:
1、现有同行间竞争
2、替代品威胁
3、新进入者威胁
4、供应商议价能力
5、客户议价能力(包括下游厂商的议价能力)
例如,下图是在线教育行业一个细分领域(手机点读APP)的波特五力模型。
06如何获取行业信息?
前面提供了一个行业分析框架,帮你在行业分析时理清思路、抓住重点。
有了分析框架之后,如何获取行业相关信息呢?
这里提供一些信息获取渠道供参考:
在利用搜索引擎找行业分析报告时,有个搜索小技巧:在搜索关键字后加上:filetype:pdf ,这样就可以专门找pdf报告,通常质量相对比较高。
㈤ 如何理解教育发展与社会发展的关系
答:教育与社会发展的相关性表现为多个方面,也可以表现为教育发展的社会制约性,具体包括如下几个方面:(0.5分)
(1)教育是社会发展的结果。从教育作为一种社会制度与整体的社会发展的角度来看,教育是社会发展的结果。(1.5分)
(2)教育是社会发展的条件。历史已经证明,人类社会从蒙昧野蛮走向进步文明,离不开教育这一重要条件。(1.5分)
(3)教育是社会发展的动力。教育不仅是社会发展的条件之一,还是社会发展的动力因素,特别是促进社会意识形态的变迁而成为推动社会发展的力量。(1.5分)
㈥ 行业知识图谱如何构建
知识图谱的基本组成三要素:实体、属性、关系。实体-关系-实体 三元组;实体-属性-属性值三元组。目前的知识图谱分为两类。一类是开放域的知识图谱,另一类是垂直领域的知识图谱。比如谷歌为搜索引擎所建立的知识图谱就属于开放域的。垂直领域的知芹竖仔识图谱,比如说金融的,电商的。
首先就是要先处理数据。互联网上的数据基本上都是结构化嫌汪的,非结构化的和半结构化的。结构数据一般就是公司的业务数据。这些数据都存储到数据库里,从库里面抽取出来做一些简单的预处理就可以拿来使用。半结构化数据和非结构化数据,比如对商品的描述,或是标题,可能是一段文本或是一张图片,这就是一些非结构化数据了。但它里面是存储了一些信息的,反映到的是知识图谱里的一些属性。所以需要对它里面进行一个抽取,这是构建知识图谱中比较费时费力的一个工作。
从数据里需要抽取的其实就是之前所提到的实体、属性、关系这些信息。对于实体的提取就是NLP里面的命名实体识别。这里相关的技术都比较成熟了,从之前传统的人工词典规则的方法,到现在机器学习的方法,还有深度学习的一些使用。比如说,从一段文本里面,我们提取出来比尔盖次这个实体以及微软这个实体,然后再进行一个关系提取。比尔盖次是微软的创始人,会有这么一个对应的关系。另外还有属性提取,比如比尔盖茨的国籍是美国。在这些提取完成之后都是一些比较零散的信息,然后在再加之前用结构化信息所拿到的东西以及从第三方知识库里面所拿到的信息做一个融合。
另外还需要做的是实体对齐和实体消歧。
关于实体对齐。举例来说,比尔盖茨这四个字是中文名称,Bill Gates是他的英文名称,但其实这两个指的是同一个人。由于文本的不一样,开始的时候导致这是两个实体。这就需要我们对它进行实体对齐,把它统一化。
另外是实体消歧。举例来说,苹果是一种水果,但是在某些上下文里面,它可能指的是苹果公司。这就是一个实体歧义,我们需要根据上下文对它进行实体消歧。
在完成了以上步骤之后,接下来就是本体抽取。比如之前提到的微软和苹果,它们的实体是公司。从文本里面可能无法直接提取出来,它们是公司。那么需要一些方法对他们进行抽取。然后搭建出本体库,比如说公司是一个机构,它是有这种上下流的关系的。对于平级的也需要计算一个他们的相识度,比如比尔盖茨和乔布斯在实体层面,他们是比较相似的。他们都属于人这个实体。他们跟公司的差别还是挺大的,所以需要一个相似度的计算。
在以上步骤完成之后需要对知识库进行质量评估,这是一个避免不了的人工步骤。在做完质量评估以后,最终形成知识图谱。形成知识图谱以后,有些关系可纤汪能是无法直接得到的,然后需要进行知识推理,这可以对知识图谱进行扩展。比如,猫是猫科动物。猫科动物是哺乳动物。这就可以推理出来,猫是哺乳动物。但是这个推理也不是随便就可以推出来的。比如,比尔盖茨是美国人,比尔盖茨创建了一个公司,但这个公司并不一定是美国的。
㈦ 知识图谱学习总结
知识图谱本质上是一种大型的语义网络,它旨在描述客观世界的实体/概念以及及其之间的关系。以实体/概念为节点,以关系为边,提供一种从关系的视角来看世界。
1960年,语义网络(Semantic Networks)作为知识表示的一种方法被提出,主要用于自言语言理解领域。它是一种用图来表示知识的结构化方式。在一个语义网络中,信息被表达为一组结点,结点通过一组带标记的有向直线彼此相连,用于表示结点间的关系。简而言之,语义网络可以比较容易地让我们理解语义和语义关系。
之前的语义网络受限于我们处理的方法,更多是依赖于专家的经验规则去构建,在规模方面受限于特定领域的数据。大规模网络,谷歌在2012年首先提出知识图谱的概念,在freebase的基础上扩展了大量来自互联网的实体数据和关系数据。据说目前实体的数据已经达到数十亿级,有达到千亿级的实例关系,规模是非常巨大的。
构成知识图谱的核心是三元组:实体(Entity)、属性(Attribute)和关系(Relation),可以表示为 <实体1,关系,实体2> 或 <实体1,属性1,属性值1>,例如:<Google,is-a,人工智能公司>;<人工智能公司,subclass,高料技公司>
基于已有的知识图谱三元组,可以推导出新的关系。例如:<翅膀 part-of 鸟>,<麻雀kind-of 鸟>,可以推导出<翅膀 part-of 麻雀>。
1.2 知识图谱的分类
通用知识图谱 实际上是谷歌或者网络这样的大型的互联网公司在构建的,它主最主要是用于它的搜索引擎,它面向的是通用领域,它的用户是全部的互联网的用户,它构建常识性的知识为主,包括结构化的网络知识,它强调的更多的是一种知识的广度,对知识的深度方面不做更多的要求,它的使用者也是普通的用户。
行业知识图谱 面向一个特定的领域,它的数据来源是来源于特定行业的语料,它是基于行业的数据来构建,而且要有一定的行业的深度,它强调的是更多的是深度,而不是广度,能够解决行业人员的问题,它的使用者也是这个行业内的从业人员,或是这个领域里面的专业人员来使用。
通用知识图谱和行业知识图谱,个并不是说完全互相独立的,是具有互相互补性的关系。一方面,通用知识图谱会不断的吸纳行业或者领域知识图谱的知识,来扩充它的知识面,然后增加它的知识的广度。同时,我们在构建一个行业知识图谱或者领域知识图谱的时候,实际上也并不是说只局限在这个领域的基本的数据,我们同时还要去通用知识图谱里面去吸纳更多的常识性的知识来作为补充,只有这样才能构成一个非常完整的行业知识图谱。