《人工智能及其应用》知识点整理(含主要考点)

LuanYu_ 2024-06-29 10:31:17 阅读 65

目录

第一章 绪论

第二章 知识表示方法

第三章 确定性推理

第四章 非经典推理

第五章 计算智能

第六章 机器学习

第七章 完结篇


这是我在学习人工智能及其应用这门课之后整理的知识点,分享给大家,希望对大家有帮助~

第一章 绪论

1、人工智能全称及缩写

(1)Artificial Intelligence,AI人工智能就是用人工的方法在机器(计算机)上实现的智能,或称机器智能、计算机智能。

(2)知识:人们通过体验、学习或联想而知晓的对客观世界规律性的认识,包括事实、条件、过程、规则、关系和规律等。

(3)智能:一种应用知识对一定环境或问题进行处理的能力或者进行抽象思考的能力。

(4)人工智能的核心问题是知识表示、知识推理和知识运用。

2、三个流派及其思想,不需特别精确

(1)符号主义:源于数理逻辑或逻辑推理,模拟人类认知系统所具备的功能,通过数学逻辑方法来实现人工智能。

(2)连接主义:源于仿生学,模拟人的生理神经网络结构,不同的结构表现出不同的功能和行为,认为功能、结构和智能行为是密不可分的。

(3)行为主义:源于控制论,采用行为模拟方法,也认为功能、结构和智能行为是不可分的。不同行为表现出不同功能和不同控制结构。

第二章 知识表示方法

1、状态空间

(1)描述问题,操作,算符,如何去定义。

(2)要知道解有哪些状态,从一个状态到另一个状态,操作符要知道,状态<->结点,操作符<->有向弧。从初始到目标找到一条路径.

(3)如传教士以及八数码,要知道怎么用语言去描述出这道题。

2、问题规约

(1)给定一个问题描述,将原始问题通过一系列变换或分解操作转化为一些子问题的集合,最终把初始问题规约为一个平凡的本原问题(可直接求解的问题)的集合,通过求解这些问题来求解原始问题。

(2)会画与图和或图,与的标志,同一个子节点不能又有与又有或,可以通过附加节点进行转化。

(3)经典是梵塔问题,上课讲了三圆盘-问题如何处理,考试可能会考四圆盘文图。要会画问题规约图,原理及画图方法需要掌握。

3、谓词逻辑

(1)谓词名用大写英文字母表示,个体用小写英文字母表示。

(2)连词的使用:非、合取、析取、如果那么、等价。

(3)量词的辖域:最接近原子公式的最先被应用、相同类型的量词位置可以被互换,不同类型的量词位置不可以被互换。

(4)真值表需要掌握,不允许对谓词符号或函数符号进行量化,等价的关系。

(5)给一句话用谓词逻辑进行表示,通常不会出类似于猴子摘香蕉的一整道题(但这种题要能看得懂)

(6)!说明:谓词的作用是描述对象的性质和关系,因此在定义谓词的时候不应当带有对象,对象应用变元的形式出现。对象之间的关系最好定义为谓词。

(7)连词量词的使用,量词的辖域,按需要打括号,真值表要掌握。

(8)谓词公式进行知识表示步骤如下

        a.定义为谓词及个体,确定其含义

        b.根据要表达的事物或概念,为每个谓词中的变元赋值。

        c.根据表达的知识的含义,用适当的连接符号将各个谓词连接起来,形成谓词公式。

4、语义网络表示

(1)只考合取不考析取,只考存在量词不考全称量词

(2)类属、属性、聚类(描述个体与其组成部分之间的关系)、推论、时间、位置、相近、一元、二元关系

(3)通过附加节点将多元关系转二元

(4)继承和匹配:值继承,if-need继承、缺省继承

(5)可能给一句话既用语义网络表示又用谓词逻辑表示。

(6)给一句中文可以用语义网络表示出来,尽量写is a这种

第三章 确定性推理

1、图搜索

(1)open表:记录还没有扩展的点,用于存放刚生成的结点

(2)closed表:记录已经扩展的点,用于存放已经扩展或将要扩展的结点。

(3)每个表示状态的结点结构中必须有指向父节点的指针。

2、盲目搜索(重点!)

(1)宽度优先BFS(重点!)

  a.逐层进行,FIFO

  b.把n的后继节点放到open表的末端

  c.具有完备性,只要存在解,就一定会被搜索到

  d.如果每步扩展的代价相同,宽度优先总能找到最优解。

(2)深度优先DFS(重点!)

  a.首先扩展最新产生的结点,深度相等的结点可以任意排列,先入后出。

  b.把n的后继节点放到open表的首端

  c.深度优先搜索不是总能找到最优解,既不是完备的也不是最优的。

  d.open和closed表会写变化过程,清晰流程,排序特点,DFS\BFS\UCS三者区别。

(4)搜索性能不考,深度界限不考

(5)等代价搜索UCS

  a.BFS的一种推广,不是沿着等长度路径断层进行扩展,而是沿着等代价路径断层进行扩展,f(n)=g(n)(起始到当前)

  b.扩展后的结点按照代价从小到大的顺序排进open表,g(j)=g(i)+c(i,j)

  c.如果问题有解,UCS一定可以求到解并且是最优解。

(6)画图的话要把最优路径画出来,其余的可以看作隐式图不去绘制。

(7)考试问法:画出从初始状态到目标状态搜索图,指明搜索方法,以及最优搜索路径

3、启发式搜索(重点!)

(1)估计函数:估算节点希望程度的量度f(n),f越小代表距离越近

(2)贪婪算法(有序搜索算法):每一步都是局部最优,考的可能性不大,不是总能找到最优解,特点是每次从OPEN表中选择一个f值最小的结点i。f(n)=h(n)(起始到目标)

(3)A算法(考的可能性小):不保证能找到最优解,f(n)=g(n)+h(n),f越小越排在open表前面。

(4)A*算法(重点!)

  a.f(x)=g(x)+h(x),要各部分代表什么,g(x)是从初始节点到节点x已付出的实际代价,h(x)是从节点x到目的节点的最佳路径的估计代价。

  b.g(x)>0,h(x)不大于x到目标的实际代价h*(x)即估算值小于等于实际值,h(x)为h*(x)下界,两者越接近越好,越近花费时间越少。有*是实际值,无*是估计值(如g是g*估计)

  c.流程与A算法基本相同,区别是对h(x)有限制范围了

  d.曼哈顿距离:两点之间水平距离和垂直距离之和仍满足估计函数的限制条件

  e.A*算法是可采纳的,即总能搜索到最短解答路径,具体搜索时间取决于启发信息找的是什么

  f.h(x)<h*(x)且差距较大时,OPEN表中节点排序误差较大,h(n)过弱,产生较大搜索图

    h(x)>h*(x)失去可采纳性,不能确保搜索到最短解答路径

    h(x)=h*(x)OPEN表中节点排序没有误差,能搜索到最短解答路径

(5)典型:八数码问题,练习八数码搜索树,会移动空格,会数错位棋子个数。

(6)在f(x)中,g(x)的比重越大,越倾问于宽度优先搜索,而h(x)的比重越大,表示启发性越强。g(x)的作用一般是不可忽略的,保持g(x)项就保持了搜索的宽度优先成分,这有利于搜索的完备性,但会影响搜索的效率。

第四章 非经典推理

1、不确定性推理

(1)表示问题:知识不确定性,证据不确定性。

(2)计算问题:不确定性的传递算法、结论不确定性的合成、组合证据的不确定性算法。

2、概率推理:条件概率及全概率,以及PPT上一些性质

3、主观贝叶斯方法(重点!)

(1)几率的公式,几率与概率关系,两者的相互关系,两者值域对应关系

(2)先验及后验概率

(3)LS、LN两者的特点是什么样的,两者关系;

(4)规则的表示方式IF E THEN (LS,LN) H,知道()里面代表什么,已知先验求后验,已知后验求先验。

(5)EH图及公式必须要掌握!!!几率组合。

(6)能读懂题,看得懂题目的前提下进行分析。流程一步步怎么解要掌握,必考一道大题。

第五章 计算智能

1、神经计算(重点)

(1)感知器

(2)线性阈值单元(TLU)

  a.线性划分

  b.与、或、非可通过单个TLU实现,但对异或问题,单层感知机无法通过一条线进行分割

  c.激活函数:硬限幅函数,线性函数,S函数

(3)监督学习

  a.有输入和期望输出

  b.通过比较误差调整网络权值

(4)非监督学习

  a.没有输出作为指导

  b.聚类

(5)神经学习

  a.人脑学习机理的两大学派:化学学派和突出修正学派。

(6)BP网络,推理过程

  a.有师学习,核心思想是将误差均摊给各层的所有单元

  b.信号正向传播 ,误差反向传播,属于前馈网络

  c.这部分的误差反向传播计算要清楚

  d.BP只能保证收敛到局部极值,不保证收敛到全局最小

2、进化计算

(1)遗传操作:生物通过个体间的(选择)、(交叉)、(变异)来适应大自然的环境。

(2)没有运行时间上限,不能保证最优解,不能保证解决方法的质量。

(3)交叉只能对现有基因池进行重组,变异可以生成新的基因

3、遗传算法

(1)属于考试内容,可能不出大题。

(2)但在一些已知条件的前提下能够补全缺少的步骤,例如轮盘赌,根据转出的结果选择样本,并且这些选出的样本在后续操作什么样子的

(3)编码或是译码,出一部分

(4)优点:使用方便、易于实现与测试、比较大的概率可以找到全局最优、适用于数值计算。

(5)二进制编码精度求解公式

(6)编码解码过程要掌握:在遗传算法进行编码和译码的过程中会出现精度下降

(7)适应度函数

  a.单值、连续、非负、最大化。

  b.计算量小。

  c.通用性强。

  d.适应度越大越好

  e.根据目标函数确定

(8)轮盘赌法:个体的选择问题

(9)锦标赛法

第六章 机器学习

1、泛化误差:模型在新样本集上的误差,越小越好。

2、经验误差:在训练集上的误差,不是越小越好。

3、评估方法

  a.留出法:保持数据分布一致性、多次重复划分、测试集不能太大或太小(20%-30%)

  b.交叉验证法:优点是训练多,效果可能好;缺点是计算量过大。

  c.自助法,又放回采样

4、验证集,测试集不参与训练;验证集是非必须的

  a.训练集:用于模型拟合的数据样本。

  b.验证集:是模型训练过程中单独留出的样本集,它可以用于调整模型的超参数和用于对模型的能力进行初步评估。(用来调整参数,可以重复使用)

  c.测试集:用来评估模最终模型的泛化能力。但不能作为调参、选择特征等算法相关的选择的依据。

5、性能度量

(1)查准率

(2)查全率

(3)TPR-FPR曲线即ROC曲线却靠近左上角越好

(4)PR曲线越靠近右上角越好

(5)第五条不是要硬性记住,要知道可以相互转换

5、决策树(重点!,有监督学习)

(1)决策树的层数希望越少越好

(2)决策树在构建过程中需重点解决2个问题:

  a.如何选择合适的属性作为决策树的节点去划分训练样本;

  b.如何在适当位置停止划分过程,从而得到大小合适的决策树。

(3)信息熵

  a.用来度量一个属性的信息量

  b.熵越小表示样本对目标属性的分布越纯,熵越大表示样本对目标属性分布越混乱。希望熵小。

  c.Entropy(S)=Entropy(p1,p2…,pm)=-pi*log(2)pi求和——注意此处是以2为底数的指数

(4)信息增益

  a.谁的信息增益大谁就作为根节点

  b.是划分前样本数据集的不纯程度(熵)和划分后样本数据集的不纯程度(熵)的差值。

  c.(自)信息量:是概率空间中的单一事件或离散随机变量的值相关的信息的量度。事件发生的几率越低,在事件真的发生时,接收到的信息中,包含的自信息越大。

  d.自信息I(w)的公式

  c.熵值计算公式H(Y),H(Y|X)

  f.增益计算公式Gain(Y,X)

(5)决策树的算法以2为底

6、聚类(重点!,无监督学习)

(1)欧氏距离:它是一个纯数值。

(2)曼哈顿距离:不能走斜线。

(3)数据的标准化:是将数据按比例缩放,使之落入一个小的特定区间。记住公式,经处理后,点x的坐标便会统一映射到[0,1]区间,类似于归一。

(4)优点:

  a.原理比较简单,实现也是很容易,收敛速度快。

  b.聚类效果较优。

  c.算法的可解释度比较强。

  d.主要需要调参的参数仅仅是簇数k。

(5)缺点:

  a.K值的选取不好把握。

  b,初始聚类中心的选择

  c.采用迭代方法,得到的结果不一定是全局最优解。

  d.对噪音和异常点比较的敏感等

7、机器学习其他内容可能会出小题,不以大题形式呈现,欠拟合,过拟合,怎么判断这个程序结束了还是是否最优

第七章 完结篇

祝大家取得优异的成绩!!!



声明

本文内容仅代表作者观点,或转载于其他网站,本站不以此文作为商业用途
如有涉及侵权,请联系本站进行删除
转载本站原创文章,请注明来源及作者。