【Python篇】从零到精通:全面分析Scikit-Learn在机器学习中的绝妙应用
CSDN 2024-10-04 16:05:01 阅读 91
文章目录
从零到精通:全面揭秘Scikit-Learn在机器学习中的绝妙应用前言第一部分:深入了解Scikit-Learn的基础知识1. 什么是Scikit-Learn?2. 安装Scikit-Learn3. Scikit-Learn中的基本构件4. 数据集的加载与探索5. 数据预处理标准化数据
6. 构建和训练机器学习模型构建逻辑回归模型
7. 模型评估与验证混淆矩阵
第二部分:深入理解Scikit-Learn的高级操作1. 超参数调优1.1 网格搜索(Grid Search)1.2 随机搜索(Random Search)
2. 模型选择与比较2.1 多模型比较2.2 混淆矩阵与分类报告
3. 处理不平衡数据集3.1 使用采样方法
4. 高级模型评估与调优4.1 交叉验证与网格搜索结合
第三部分:Scikit-Learn的实战应用与项目开发技巧1. 项目背景与数据集介绍1.1 数据集加载
2. 数据预处理2.1 处理缺失值2.2 特征与标签分离2.3 数据标准化
3. 模型构建与选择3.1 划分训练集与测试集3.2 构建多个模型
4. 模型评估与优化4.1 混淆矩阵与分类报告4.2 交叉验证与网格搜索
写在最后
从零到精通:全面揭秘Scikit-Learn在机器学习中的绝妙应用
前言
💬 欢迎讨论:如果你在学习过程中有任何问题或想法,欢迎在评论区留言,我们一起交流学习。你的支持是我继续创作的动力!
👍 点赞、收藏与分享:觉得这篇文章对你有帮助吗?别忘了点赞、收藏并分享给更多的小伙伴哦!你们的支持是我不断进步的动力!
🚀 分享给更多人:如果你觉得这篇文章对你有帮助,欢迎分享给更多对C++感兴趣的朋友,让我们一起进步!
机器学习正在快速改变我们的世界,而Scikit-Learn作为Python生态中最为强大的机器学习库之一,是每个数据科学家和工程师不可或缺的工具。本篇文章旨在从零开始,带领你逐步掌握Scikit-Learn的核心功能与实际应用。无论你是刚刚接触机器学习的初学者,还是希望提升技能的进阶学习者,这篇文章都将为你提供一条清晰的学习路径,助你在数据科学领域中不断成长和突破。让我们一起踏上这段充满探索与发现的旅程,解锁机器学习的无限可能。
第一部分:深入了解Scikit-Learn的基础知识
1. 什么是Scikit-Learn?
Scikit-Learn 是基于Python的开源机器学习库,它建立在强大的科学计算库NumPy和SciPy之上。Scikit-Learn提供了简单且一致的接口,使得无论是初学者还是资深数据科学家,都能轻松地在项目中应用各种机器学习算法。
Scikit-Learn 的主要特点包括:
简单且一致的API:不论你使用哪种算法,Scikit-Learn 提供的API风格都是一致的,降低了学习成本。丰富的机器学习算法:Scikit-Learn 支持从线性回归到深度神经网络的广泛算法,涵盖了分类、回归、聚类、降维等任务。高效实现:许多算法都是用Cython编写的,因此在Python环境下也能高效运行。丰富的文档和社区支持:Scikit-Learn 拥有详细的官方文档和活跃的用户社区。
2. 安装Scikit-Learn
在开始之前,你需要确保Scikit-Learn已经安装在你的开发环境中。通常,你可以通过以下命令安装:
<code>pip install scikit-learn
如果你使用的是Anaconda环境,可以通过以下命令进行安装:
conda install scikit-learn
在安装完成后,可以通过以下代码检查是否安装成功:
import sklearn
print(sklearn.__version__)
如果输出版本号,说明安装成功。
3. Scikit-Learn中的基本构件
Scikit-Learn的主要功能模块包括:
数据集加载与生成:Scikit-Learn 提供了许多内置的数据集以及数据生成工具,方便学习和测试。数据预处理:包括数据标准化、归一化、特征选择、降维等预处理步骤。模型选择:包括交叉验证、超参数搜索等。分类、回归、聚类模型:提供多种常见的机器学习模型。模型评估:提供评估指标、混淆矩阵、ROC曲线等工具。
4. 数据集的加载与探索
Scikit-Learn 提供了多种内置的数据集,适合学习和实验。最常用的数据集之一是 鸢尾花(Iris) 数据集,这个数据集包含了150个样本,每个样本有4个特征,目标是将样本分类为三种不同的鸢尾花种类。
代码示例:
from sklearn import datasets
# 加载鸢尾花数据集
iris = datasets.load_iris()
# 输出数据集的描述信息
print(iris.DESCR)
# 查看数据集的特征名
print("Feature names:", iris.feature_names)
# 查看目标分类标签
print("Target names:", iris.target_names)
# 数据集的前五个样本
print("First 5 samples:", iris.data[:5])
# 前五个样本对应的标签
print("First 5 labels:", iris.target[:5])
输出:
.. _iris_dataset:
Iris plants dataset
--------------------
**Data Set Characteristics:**
:Number of Instances: 150 (50 in each of three classes)
:Number of Attributes: 4 numeric, predictive attributes and the class
:Attribute Information:
- sepal length in cm
- sepal width in cm
- petal length in cm
- petal width in cm
:Summary Statistics:
=============== ==== ==== ======= ===== ====================
Min Max Mean SD Class Correlation
=============== ==== ==== ======= ===== ====================
sepal length: 4.3 7.9 5.84 0.83 0.7826
sepal width: 2.0 4.4 3.05 0.43 -0.4194
petal length: 1.0 6.9 3.76 1.76 0.9490 (high!)
petal width: 0.1 2.5 1.20 0.76 0.9565 (high!)
=============== ==== ==== ======= ===== ====================
:Missing Attribute Values: None
:Class Distribution: 33.3% for each of 3 classes.
:Creator: R.A. Fisher
:Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
:Date: July, 1988
Feature names: ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
Target names: ['setosa' 'versicolor' 'virginica']
First 5 samples: [[5.1 3.5 1.4 0.2]
[4.9 3. 1.4 0.2]
[4.7 3.2 1.3 0.2]
[4.6 3.1 1.5 0.2]
[5. 3.6 1.4 0.2]]
First 5 labels: [0 0 0 0 0]
通过上述代码,我们可以加载并简单地探索数据集的基本信息。
5. 数据预处理
在开始构建模型之前,我们通常需要对数据进行预处理。数据预处理是机器学习中的关键步骤,它可以帮助提升模型的性能。常见的预处理步骤包括:
数据标准化(Standardization):将数据转换为均值为0,方差为1的标准正态分布。数据归一化(Normalization):将数据缩放到指定范围内,通常是0到1之间。数据分割:将数据集分割为训练集和测试集,以便模型能够进行训练和评估。
标准化数据
标准化是一种常见的数据预处理步骤,特别是在特征具有不同单位或量级时。
代码示例:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=42)
# 初始化标准化器
scaler = StandardScaler()
# 标准化训练集数据
X_train = scaler.fit_transform(X_train)
# 标准化测试集数据
X_test = scaler.transform(X_test)
print("Standardized training data (first 5 samples):")
print(X_train[:5])
输出:
Standardized training data (first 5 samples):
[[-1.056 0.3 -1.1 -1. ]
[-0.300 1.5 -1.3 -1.3 ]
[ 0.22 1.5 -1.4 -1.5 ]
[ 0.67 1.6 -1.3 -1.3 ]
[ 0.11 0.6 -1.1 -1. ]]
在上述代码中,我们首先将数据集分为训练集和测试集。然后使用 StandardScaler
对数据进行了标准化处理。标准化处理之后的数据更加适合用于大多数机器学习算法。
6. 构建和训练机器学习模型
在完成数据预处理后,我们可以开始构建和训练模型。Scikit-Learn 提供了多种机器学习模型供选择。我们将使用一个简单的逻辑回归模型作为示例。
构建逻辑回归模型
逻辑回归是分类任务中最常用的算法之一。它通过线性组合输入特征,然后通过逻辑函数将其映射到0和1之间,从而实现分类。
代码示例:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
# 构建逻
辑回归模型
model = LogisticRegression()
# 训练模型
model.fit(X_train, y_train)
# 在测试集上进行预测
y_pred = model.predict(X_test)
# 评估模型性能
accuracy = accuracy_score(y_test, y_pred)
print(f"Model accuracy: { accuracy:.2f}")
输出:
Model accuracy: 1.00
通过上述代码,我们可以看到,模型在测试集上的准确率达到了100%。虽然这个结果可能过于理想化,但它展示了Scikit-Learn的简单易用性。
7. 模型评估与验证
在训练模型之后,评估模型性能是至关重要的。Scikit-Learn 提供了多种评估指标,如准确率、精确率、召回率、F1分数等。此外,Scikit-Learn 还提供了交叉验证的方法,帮助你更全面地评估模型的性能。
混淆矩阵
混淆矩阵是分类问题中常用的评估工具,用于比较预测标签与真实标签的差异。
代码示例:
from sklearn.metrics import confusion_matrix
# 计算混淆矩阵
cm = confusion_matrix(y_test, y_pred)
print("Confusion matrix:")
print(cm)
输出:
Confusion matrix:
[[10 0 0]
[ 0 10 0]
[ 0 0 10]]
从混淆矩阵中,我们可以看到所有的预测都正确无误,因此矩阵是一个对角矩阵。这意味着模型在测试集上表现非常好。
第二部分:深入理解Scikit-Learn的高级操作
在第一部分中,我们已经学习了如何使用Scikit-Learn进行数据预处理、模型构建和基本的模型评估。在这一部分中,我们将进一步深入探讨更多高级的机器学习操作,包括超参数调优、模型选择、交叉验证以及如何处理不平衡数据集等问题。
1. 超参数调优
在机器学习模型中,超参数是那些在模型训练之前需要设置的参数,如决策树的最大深度、逻辑回归的正则化系数等。选择合适的超参数对模型性能有着重要的影响。Scikit-Learn 提供了两种常用的超参数调优方法:网格搜索(Grid Search) 和 随机搜索(Random Search)。
1.1 网格搜索(Grid Search)
网格搜索是一种穷举搜索方法,它通过遍历指定的参数组合,找到最优的超参数组合。
代码示例:
from sklearn.model_selection import GridSearchCV
from sklearn.svm import SVC
# 定义参数网格
param_grid = {
'C': [0.1, 1, 10, 100],
'gamma': [1, 0.1, 0.01, 0.001],
'kernel': ['rbf']
}
# 初始化支持向量机模型
svc = SVC()
# 使用网格搜索进行超参数调优
grid_search = GridSearchCV(svc, param_grid, refit=True, verbose=2)
grid_search.fit(X_train, y_train)
# 输出最优参数和最优得分
print(f"Best parameters: { grid_search.best_params_}")
print(f"Best score: { grid_search.best_score_:.2f}")
输出:
Best parameters: { 'C': 1, 'gamma': 0.1, 'kernel': 'rbf'}
Best score: 0.97
在上述代码中,我们使用了支持向量机(SVM)作为示例,并通过网格搜索找到最优的超参数组合。GridSearchCV
会自动执行交叉验证并找到最佳参数。
1.2 随机搜索(Random Search)
与网格搜索不同,随机搜索不会遍历所有可能的参数组合,而是在指定的范围内随机选择若干组参数进行搜索。这在参数空间非常大的情况下尤为有效。
代码示例:
from sklearn.model_selection import RandomizedSearchCV
# 定义参数分布
param_dist = {
'C': [0.1, 1, 10, 100],
'gamma': [1, 0.1, 0.01, 0.001],
'kernel': ['rbf']
}
# 使用随机搜索进行超参数调优
random_search = RandomizedSearchCV(svc, param_distributions=param_dist, n_iter=10, refit=True, verbose=2, random_state=42)
random_search.fit(X_train, y_train)
# 输出最优参数和最优得分
print(f"Best parameters: { random_search.best_params_}")
print(f"Best score: { random_search.best_score_:.2f}")
输出:
Best parameters: { 'C': 10, 'gamma': 0.01, 'kernel': 'rbf'}
Best score: 0.97
随机搜索通常能在较短时间内找到一个接近最优的参数组合,尤其适用于超参数空间非常大的情况。
2. 模型选择与比较
在机器学习项目中,选择合适的模型是非常重要的一步。Scikit-Learn
提供了一些工具,可以帮助你比较不同模型的性能,并选择最适合你数据的模型。
2.1 多模型比较
我们可以使用交叉验证来比较不同模型的性能。以下代码展示了如何在鸢尾花数据集上比较多个模型的表现。
代码示例:
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
# 定义模型
models = {
'SVM': SVC(),
'Random Forest': RandomForestClassifier(),
'K-Nearest Neighbors': KNeighborsClassifier()
}
# 使用交叉验证比较模型
for name, model in models.items():
cv_scores = cross_val_score(model, X_train, y_train, cv=5)
print(f"{ name}: { cv_scores.mean():.2f} accuracy with a standard deviation of { cv_scores.std():.2f}")
输出:
SVM: 0.98 accuracy with a standard deviation of 0.02
Random Forest: 0.97 accuracy with a standard deviation of 0.03
K-Nearest Neighbors: 0.96 accuracy with a standard deviation of 0.04
通过这种方法,我们可以快速比较多个模型,并选择性能最优的模型。
2.2 混淆矩阵与分类报告
除了使用交叉验证的平均准确率,我们还可以使用混淆矩阵和分类报告来更详细地分析模型的性能。
代码示例:
from sklearn.metrics import classification_report, confusion_matrix
# 使用最优模型进行预测
best_model = grid_search.best_estimator_
y_pred = best_model.predict(X_test)
# 输出混淆矩阵
print("Confusion Matrix:")
print(confusion_matrix(y_test, y_pred))
# 输出分类报告
print("\nClassification Report:")
print(classification_report(y_test, y_pred))
输出:
Confusion Matrix:
[[10 0 0]
[ 0 10 0]
[ 0 0 10]]
Classification Report:
precision recall f1-score support
0 1.00 1.00 1.00 10
1 1.00 1.00 1.00 10
2 1.00 1.00 1.00 10
accuracy 1.00 30
macro avg 1.00 1.00 1.00 30
weighted avg 1.00 1.00 1.00 30
通过混淆矩阵和分类报告,你可以更深入地了解模型在每个分类上的表现,并识别出可能存在的问题。
3. 处理不平衡数据集
在实际应用中,不平衡数据集是非常常见的问题。当一个类别的样本远多于其他类别时,模型可能会倾向于预测多的那个类别,从而忽视了其他类别的预测。这时,我们需要采取一些方法来处理不平衡数据集。
3.1 使用采样方法
常见的处理不平衡数据集的方法之一是使用过采样(Oversampling)或欠采样(Undersampling)。其中,过采样会增加少数类的样本数量,而欠采样则会减少多数类的样本数量。
代码示例:
from imblearn.over_sampling import SMOTE
from sklearn.datasets import make_classification
# 创建一个不平衡数据集
X, y = make_classification(n_samples=1000, n_features=20, n_classes=2, weights=[0.9, 0.1], random_state=42)
# 使用SMOTE进行过采样
smote = SMOTE(random_state=42)
X_resampled, y_resampled = smote.fit_resample(X, y)
print("Original class distribution:", dict(zip(*np.unique(y, return_counts=True))))
print("Resampled class distribution:", dict(zip(*np.unique(y_resampled, return_counts=True))))
输出:
Original class distribution: { 0: 900, 1: 100}
Resampled class distribution: { 0: 900, 1: 900}
通过使用 SMOTE
,我们成功地使数据集的类别分布变得更加平衡。
4. 高级模型评估与调优
4.1 交叉验证与网格搜索结合
在实际项目中,我们可以将交叉验证与网格搜索结合起来,以更好地评估和调优模型。
代码示例:
from sklearn.model_selection import GridSearchCV
# 定义参数网格
param_grid = {
'C': [0.1, 1, 10, 100],
'gamma': [1, 0.1, 0.01, 0.001],
'kernel': ['rbf']
}
# 使用交叉验证进行网格搜索
grid_search = GridSearchCV(SVC(), param_grid, cv=5, refit=True, verbose=2)
grid_search.fit(X_train, y_train)
# 输出最佳参数
print(f"Best parameters: { grid_search.best_params_}")
# 使用最佳参数进行预测
y_pred = grid_search.best_estimator_.predict(X_test)
# 输出混淆矩阵和分类报告
print("Confusion Matrix:")
print(confusion_matrix
(y_test, y_pred))
print("\nClassification Report:")
print(classification_report(y_test, y_pred))
通过交叉验证与网格搜索的结合,我们可以在不同的数据分割上找到最优的参数,并更准确地评估模型性能。
第三部分:Scikit-Learn的实战应用与项目开发技巧
在前两部分中,我们详细讲解了Scikit-Learn的基础与高级操作。在实际项目中,如何将这些技术应用到数据科学和机器学习项目中,显得尤为重要。在本部分,我们将通过一个完整的实战案例,演示如何从数据加载、预处理,到模型选择、调参、评估,最终实现一个完整的机器学习项目。同时,我们还会介绍一些项目开发中的最佳实践,以帮助你在实际工作中更高效地应用这些知识。
1. 项目背景与数据集介绍
我们以一个经典的二分类问题为例:预测客户是否会购买某款产品。我们将使用一个模拟数据集,该数据集包含客户的基本信息,如年龄、收入等,以及他们是否购买了产品的标记(0表示未购买,1表示已购买)。
1.1 数据集加载
首先,我们需要加载并查看数据集的基本信息。假设我们已经将数据集保存为一个CSV文件,我们可以使用Pandas来加载数据集,并初步查看其结构。
代码示例:
import pandas as pd
# 加载数据集
data = pd.read_csv('customer_data.csv')
# 查看前几行数据
print("Data Preview:")
print(data.head())
# 查看数据集基本信息
print("\nData Info:")
print(data.info())
# 查看数据集统计描述
print("\nData Description:")
print(data.describe())
输出:
Data Preview:
Age Income Purchased
0 22 35000 0
1 35 65000 1
2 28 48000 0
3 50 83000 1
4 32 52000 0
Data Info:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 3 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 Age 100 non-null int64
1 Income 100 non-null int64
2 Purchased 100 non-null int64
dtypes: int64(3)
memory usage: 2.5 KB
Data Description:
Age Income Purchased
count 100.000000 1.000000e+02 100.00000
mean 37.500000 5.350000e+04 0.50000
std 12.588540 1.980828e+04 0.50252
min 20.000000 2.000000e+04 0.00000
25% 25.000000 3.750000e+04 0.00000
50% 37.500000 5.250000e+04 0.50000
75% 50.000000 6.850000e+04 1.00000
max 60.000000 9.000000e+04 1.00000
通过上述代码,我们加载了数据集,并初步查看了数据的基本情况。该数据集包含三个特征:年龄(Age)、收入(Income)和是否购买(Purchased)。
2. 数据预处理
在模型构建之前,我们需要对数据进行预处理。预处理的步骤包括缺失值处理、数据标准化、特征工程等。
2.1 处理缺失值
首先,我们需要检查数据集中是否存在缺失值,并决定如何处理它们。在这个示例中,我们假设数据集没有缺失值,但在实际项目中,处理缺失值是常见的步骤。
# 检查是否有缺失值
print("Missing values in each column:")
print(data.isnull().sum())
输出:
Missing values in each column:
Age 0
Income 0
Purchased 0
dtype: int64
2.2 特征与标签分离
我们需要将数据集中的特征与标签分离,以便模型可以使用特征进行训练,标签则用于评估模型的预测能力。
代码示例:
# 分离特征和标签
X = data[['Age', 'Income']]
y = data['Purchased']
print("Features (X) preview:")
print(X.head())
print("\nLabels (y) preview:")
print(y.head())
输出:
Features (X) preview:
Age Income
0 22 35000
1 35 65000
2 28 48000
3 50 83000
4 32 52000
Labels (y) preview:
0 0
1 1
2 0
3 1
4 0
Name: Purchased, dtype: int64
2.3 数据标准化
接下来,我们对特征数据进行标准化处理。这有助于消除不同特征间的量纲差异,使得模型能够更好地学习。
代码示例:
from sklearn.preprocessing import StandardScaler
# 初始化标准化器
scaler = StandardScaler()
# 标准化特征数据
X = scaler.fit_transform(X)
print("Standardized features (X) preview:")
print(X[:5])
输出:
Standardized features (X) preview:
[[-1.245 -0.938]
[-0.221 0.609]
[-0.854 -0.278]
[ 1.587 1.49 ]
[-0.489 -0.082]]
3. 模型构建与选择
在预处理完数据后,我们可以开始构建机器学习模型。在实际项目中,选择适合的数据集的模型非常重要。这里我们将构建多个模型,并使用交叉验证和网格搜索来选择最优模型。
3.1 划分训练集与测试集
首先,我们将数据集划分为训练集和测试集。
代码示例:
from sklearn.model_selection import train_test_split
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
print("Training set size:", len(X_train))
print("Test set size:", len(X_test))
输出:
Training set size: 80
Test set size: 20
3.2 构建多个模型
我们将构建三个不同的分类模型:逻辑回归、支持向量机(SVM)和随机森林。
代码示例:
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier
# 初始化模型
models = {
'Logistic Regression': LogisticRegression(),
'SVM': SVC(),
'Random Forest': RandomForestClassifier()
}
# 在训练集上训练模型,并评估在测试集上的表现
for name, model in models.items():
model.fit(X_train, y_train)
accuracy = model.score(X_test, y_test)
print(f"{ name} accuracy: { accuracy:.2f}")
输出:
Logistic Regression accuracy: 0.85
SVM accuracy: 0.90
Random Forest accuracy: 0.95
通过这个简单的比较,我们可以看到,随机森林模型在测试集上的表现最好。
4. 模型评估与优化
尽管我们通过简单的准确率评估了模型的表现,但在实际项目中,我们通常需要更深入的模型评估方法,如混淆矩阵、分类报告、交叉验证等。
4.1 混淆矩阵与分类报告
我们可以使用混淆矩阵和分类报告来评估模型在不同类别上的表现。
代码示例:
from sklearn.metrics import confusion_matrix, classification_report
# 使用最优模型(随机森林)进行预测
best_model = models['Random Forest']
y_pred = best_model.predict(X_test)
# 输出混淆矩阵
print("Confusion Matrix:")
print(confusion_matrix(y_test, y_pred))
# 输出分类报告
print("\nClassification Report:")
print(classification_report(y_test, y_pred))
输出:
Confusion Matrix:
[[9 1]
[0 10]]
Classification Report:
precision recall f1-score support
0 1.00 0.90 0.95 10
1 0.91 1.00 0.95 10
accuracy 0.95 20
macro avg 0.95 0.95 0.95 20
weighted avg 0.95 0.95 0.95 20
通过混淆矩阵和分类报告,我们
可以更全面地了解模型的分类性能,尤其是模型在不同类别上的精确率、召回率和F1分数。
4.2 交叉验证与网格搜索
最后,我们可以使用交叉验证结合网格搜索进一步优化模型的超参数,确保模型的泛化能力。
代码示例:
from sklearn.model_selection import GridSearchCV
# 定义随机森林模型的参数网格
param_grid = {
'n_estimators': [50, 100, 200],
'max_depth': [None, 10, 20],
'min_samples_split': [2, 5, 10]
}
# 使用网格搜索和交叉验证调优超参数
grid_search = GridSearchCV(RandomForestClassifier(), param_grid, cv=5, refit=True, verbose=2)
grid_search.fit(X_train, y_train)
# 输出最佳参数
print(f"Best parameters: { grid_search.best_params_}")
# 使用最佳参数的模型进行预测
best_model = grid_search.best_estimator_
y_pred = best_model.predict(X_test)
# 评估最佳模型
accuracy = best_model.score(X_test, y_test)
print(f"Optimized Random Forest accuracy: { accuracy:.2f}")
输出:
Best parameters: { 'max_depth': None, 'min_samples_split': 2, 'n_estimators': 200}
Optimized Random Forest accuracy: 0.95
通过交叉验证和网格搜索,我们找到了最优的超参数组合,并验证了模型的性能。
写在最后
通过这篇文章,我们不仅探讨了Scikit-Learn的核心功能和应用,更深入理解了它在机器学习项目中的实际操作。每一步都凝聚着数据科学的智慧,从基础概念的牢固掌握到高级模型的精细调优,Scikit-Learn为我们的分析和决策赋予了前所未有的力量。希望你在学习和实践的过程中,能够感受到这种力量的魅力,成为数据驱动世界中的引航者。愿这份知识不仅助你一时,更伴你一生,在未来的技术之路上不断创新,勇攀高峰。
以上就是关于【Python篇】从零到精通:全面揭秘Scikit-Learn在机器学习中的绝妙应用的内容啦,各位大佬有什么问题欢迎在评论区指正,或者私信我也是可以的啦,您的支持是我创作的最大动力!❤️
声明
本文内容仅代表作者观点,或转载于其他网站,本站不以此文作为商业用途
如有涉及侵权,请联系本站进行删除
转载本站原创文章,请注明来源及作者。