Datawhale AI 夏令营——task01代码解析
shf10 2024-07-24 17:31:01 阅读 89
Datawhale AI 夏令营——task01代码解析
赛题说明题目讲解数据说明评测规则
Baseline代码解析
赛题说明
题目讲解
本场以“电力需求预测”为赛题的数据算法挑战赛。选手需要根据历史数据构建有效的模型,能够准确的预测未来电力需求。
给定多个房屋对应电力消耗历史N天的相关序列数据等信息,预测房屋对应电力的消耗。
数据说明
赛题数据由训练集和测试集组成,为了保证比赛的公平性,将每日日期进行脱敏,用1-N进行标识,即1为数据集最近一天,其中1-10为测试集数据。数据集由字段id(房屋id)、 dt(日标识)、type(房屋类型)、target(实际电力消耗)组成。
id | dt | type | target |
---|---|---|---|
房屋id | 日标识 | 房屋类型 | 实际电力消耗/预测目标 |
实际特征只有 dt 和 type
评测规则
l
o
s
s
=
1
n
∑
i
=
1
n
(
y
i
−
y
^
i
)
2
loss = \frac{1}{n} \sum_{i=1}^n( y_i - \hat y_i)^2
loss=n1∑i=1n(yi−y^i)2
loss越小,预测值越接近真实值,预测越准确
Baseline代码解析
导入数据科学常用包 —— pandas, numpy
<code># 1. 导入需要用到的相关库
# 导入 pandas 库,用于数据处理和分析
import pandas as pd
# 导入 numpy 库,用于科学计算和多维数组操作
import numpy as np
数据探索性分析
发现 train set 中含 id dt type target 四属性。 test set 含 id dt type 三属性,需自行预测 targettrain set中 dt 由10开始递增;test set中
# 2. 读取训练集和测试集
# 使用 read_csv() 函数从文件中读取训练集数据,文件名为 'train.csv'
train = pd.read_csv('./train.csv')
# 使用 read_csv() 函数从文件中读取测试集数据,文件名为 'train.csv'
test = pd.read_csv('./test.csv')
train[:12]
id | dt | type | target | |
---|---|---|---|---|
0 | 00037f39cf | 11 | 2 | 44.050 |
1 | 00037f39cf | 12 | 2 | 50.672 |
2 | 00037f39cf | 13 | 2 | 39.042 |
3 | 00037f39cf | 14 | 2 | 35.900 |
4 | 00037f39cf | 15 | 2 | 53.888 |
5 | 00037f39cf | 16 | 2 | 35.534 |
6 | 00037f39cf | 17 | 2 | 41.280 |
7 | 00037f39cf | 18 | 2 | 26.114 |
8 | 00037f39cf | 19 | 2 | 25.612 |
9 | 00037f39cf | 20 | 2 | 44.451 |
10 | 00037f39cf | 21 | 2 | 50.395 |
11 | 00037f39cf | 22 | 2 | 34.662 |
<code>test[:12]
id | dt | type | |
---|---|---|---|
0 | 00037f39cf | 1 | 2 |
1 | 00037f39cf | 2 | 2 |
2 | 00037f39cf | 3 | 2 |
3 | 00037f39cf | 4 | 2 |
4 | 00037f39cf | 5 | 2 |
5 | 00037f39cf | 6 | 2 |
6 | 00037f39cf | 7 | 2 |
7 | 00037f39cf | 8 | 2 |
8 | 00037f39cf | 9 | 2 |
9 | 00037f39cf | 10 | 2 |
10 | 00039a1517 | 1 | 4 |
11 | 00039a1517 | 2 | 4 |
声明
本文内容仅代表作者观点,或转载于其他网站,本站不以此文作为商业用途
如有涉及侵权,请联系本站进行删除
转载本站原创文章,请注明来源及作者。