吐血整理!!人工智能面试必看的面试题合集,不看后悔一辈子

上马定江山 2024-10-08 11:01:02 阅读 88

前言

各位小伙伴们大家好啊,今天给大家带来的是关于人工智能方向的面试题,如果还没有找到工作或者是正在准备面试的小伙伴可以仔细看看噢,其他小伙伴也可以借此对自己的知识点查缺补漏一下。

1.防止过拟合的方法有哪些?

过拟合的原因是算法的学习能力过强;一些假设条件(如样本独立同分布)可能是不成立的;

训练样本过少不能对整个空间进行分布估计。

处理方法有:

a. 早停止,如在训练中多次迭代后发现模型性能没有显著提高就停止训练 ;

b. 数据集扩增,原有数据增加、原有数据加随机噪声、重采样;

c. 正则化 d.交叉验证 e.特征选择/特征降维

2.LR和SVM的联系与区别是什么?

联系:

1)都是分类算法

2)如果不考虑核函数,LR和SVM都是线性分类算法,也就是说他们的分类决策面都是线性的

3)LR和SVM都是监督学习算法

区别

1)LR和SVM的损失函数不同

2)SVM只考虑局部的边界线附近的点 ,LR考虑全局,远离的点对边界线的确定也起作用

3.在k-means或kNN,我们是用欧氏距离来计算最近的邻居之间的距离。为什么不用曼哈顿距离?

曼哈顿距离只计算水平或垂直距离,有维度的限制,而欧氏距离可用于任何空间的距离计算问题。

4.什么时候正则化在机器学习中是有必要的?

模型过度拟合或者欠拟合的时候,正则化是有必要的。这个技术引入了一个成 本项,用于带来目标函数的更多特征。因此,正则化是将许多变量的系数推向零, 由此而降低成本项。这有助于降低模型的复杂度,使该模型可以在预测上(泛化) 变得更好。

5.什么叫做不平衡数据集,有什么应对方案?

不平衡数据集数据集中,每个类别下的样本数目相差很大。解决不平衡分类问题的策略可以分为两大类 ,一类是从训练集入手 , 通过改变训练集样本分布 ,降低不平衡程度 .另一类是从学习算法入手 , 根据算法在解决不平衡问题时的缺陷 , 适当地修改算法使之适应不平衡分类问题 。平衡训练集的方法主要有训练集重采样 (re-sampling)方法和训练集划分方法 。学习算法层面的策略包括分类器集成 、代价敏感学习和特征选择方法等。

6.什么是 K-fold 交叉验证?

K-fold 交叉验证就是把原始数据随机分成 K 个部分,在这 K 个部分中选择一个作为测试数据,剩余的 K-1 个作为训练数据。交叉验证的过程实际上是将实验重复做 K 次,每次实验都从 K 个部分中选择一个不同的部分作为测试数据,剩余的数据作为训练数据进行实验,最后把得到的 K 个实验结果平均,用于评价模型的泛化能力,从而进行模型选择。

7.传统图像处理提取的sift特征是什么意思?

sift指的是scale invarient feature transform,即尺度不变特征变换。sift特征是一种对缩放、旋转、光照变化等不敏感的局部图像特征,其提取过程是先生成图像的尺度空间,然后在尺度空间中检测极值点作为关键点,最后利用关键点邻域的梯度信息生成特征描述符。

8.现在深度学习在nlp领域有哪些应用? 请具体说明

1)机器翻译,or神经机器翻译(NMT)在翻译中提供了统计方式之外的另一种方式,同时也更加简便。

2)知识问答,问答机器人,可以用深度学习模型,从语料中学习获得一些问题的答案。

3)自然语言生成,能够根据一些关键信息及其在机器内部的表达形式,经过一个规划过程,来自动生成一段高质量的自然语言文本。

9.你意识到你的模型受到低偏差和高方差问题的困扰。那么,应该使用哪种算法来解决问题呢?为什么?

可以使用bagging算法(如随机森林)。因为,低偏差意味着模型的预测值接近实际值,换句话说,该模型有足够的灵活性,以模仿训练数据的分布。这样貌似很好,但是别忘了,一个灵活的模型没有泛化能力,意味着当这个模型用在对一个未曾见过的数据集进行测试的时候,它会令人很失望。在这种情况下,我们可以使用bagging算法(如随机森林),以解决高方差问题。bagging算法把数据集分成重复随机取样形成的子集。然后,这些样本利用单个学习算法生成一组模型。接着,利用投票(分类)或平均(回归)把模型预测结合在一起。另外,为了应对大方差,我们可以使用正则化技术,惩罚更高的模型系数,从而降低了模型的复杂性,另外还可以使用可变重要性图表中的前n个特征。可以用于当一个算法在数据集中的所有变量里很难寻找到有意义信号的时候。

10.给你一个数据集,这个数据集有缺失值,且这些缺失值分布在离中值有1个标准偏差的范围内。百分之多少的数据不会受到影响?为什么?

约有32%的数据将不受缺失值的影响。因为数据分布在中位数附近,让我们先假设这是一个正态分布。我们知道,在一个正态分布中,约有68%的数据位于跟平均数(或众数、中位数)1个标准差范围内,那么剩下的约32%的数据是不受影响的。因此,约有32%的数据将不受缺失值的影响。

篇幅有限,没有办法一次性分享给大家,盘点了面试实用攻略,每一章节都是站在企业考察思维出发,作为招聘者角度回答。从考察问题延展到考察知识点,再到如何优雅回答一面俱全,可以说是求职面试的必备宝典。

由于文章篇幅有限,没法将完整面试题+答案解析展示出来,有需要完整面试题的朋友,可以扫描下方二维码领取!!!

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

完整面试题领取方式:扫描下方二维码即可



声明

本文内容仅代表作者观点,或转载于其他网站,本站不以此文作为商业用途
如有涉及侵权,请联系本站进行删除
转载本站原创文章,请注明来源及作者。