2020年新年大赛！

Question

user16357289

Asked:2022-08-11 20:38:54 +0000 UTC2022-08-11 20:38:54 +0000 UTC 2022-08-11 20:38:54 +0000 UTC

机器学习模型的准确性

772

使用 5 折交叉验证，最后一次拆分时的回归准确度（确定系数 r^2）较低。

这是什么意思？在对整个数据集进行训练时，训练质量会下降吗？还是没关系？

值：0.29、0.05、0.36、0.18、-1.31
平均值：-0.08346647029663619 这些是工资上限输出列的值（那里的数据不如下限，因为它经常被省略) 在下限 r2 约为 48%，这非常适合我。

是否值得用这样的值进行训练，以便进一步使用不是在整个数据集上，而是在数据集的第 1 部分和第 3 部分上，准确率更高的地方？

数据集 - hh.ru 的职位空缺。目标是工资预测。

37,000条记录，29列：经验、关键技能、职位、雇主、上下限薪、专业、专业领域（这些字段用标签编码进行编码）；城市（基洛夫、莫斯科、圣彼得堡）、日程安排和就业类型以一种热编码方式编码。

数据未缩放，因为梯度提升对缩放不敏感。模型的复杂度应该足够了，在训练数据集上，准确率在 70-80% 左右。如果我理解正确，模型会被重新训练。

数据集链接：https ://drive.google.com/file/d/1QJZAYyXIXcrMgzet8SUC31MzV5dHODcv/view?usp=sharing

1 个回答

Voted

CrazyElf · Answer 1 · 2022-08-14T21:32:46Z

好吧，顺便说一句，如果您对目标中的异常值有疑问。有一定数量的数据，其上界与下界之比过大（2倍、10倍甚至50倍）。如果你扔掉一定数量的这些排放物，那么情况就会变得更好。为剪辑选择什么具体比率取决于您。我为示例选择了 3 的比率，从它和上面这大约是您数据的 2.5%，在我看来，这是一个很小的牺牲。

print((df.salary_to/df.salary_from < 3).value_counts(normalize=True))
df_selected = df[df.salary_to/df.salary_from < 3]
X = df_selected[feature_columns]
y = df_selected.salary_to
model.fit(X, y)
print(r2_score(y, model.predict(X)))
print(cross_val_score(model, X, y, scoring='r2'))

结论：

True     0.975505
False    0.024495
dtype: float64
0.9147364058539751
[0.35825282 0.45682105 0.43133096 0.41867005 0.44403997]

我有一个模型RandomForestRegressor，但没关系，根据您的初始数据，它显示的折叠图片与您的模型大致相同。

PS 另一种选择，你甚至不需要从数据中抛出任何东西，就是取目标的对数。但与此同时，我不太确定如何快速解释。我们不能忘记在整个过程结束时从预测中取指数。

X = df[feature_columns]
y = np.log(df.salary_to)
model.fit(X, y)
print(r2_score(y, model.predict(X)))
print(cross_val_score(model, X, y, scoring='r2'))

结论：

0.9205070404891004
[0.45175607 0.46596345 0.48481266 0.4853811  0.4781465 ]

机器学习模型的准确性

我看不懂措辞

请求的模块“del”不提供名为“default”的导出

"!+tab" 在 HTML 的 vs 代码中不起作用

我正在尝试解决“猜词”的问题。Python

可以使用哪些命令将当前指针移动到指定的提交而不更改工作目录中的文件？

Python解析野莓

问题：“警告：检查最新版本的 pip 时出错。”

帮助编写一个用值填充变量的循环。解决这个问题

尽管依赖数组为空，但在渲染上调用了 2 次 useEffect

数据不通过 Telegram.WebApp.sendData 发送

机器学习模型的准确性

1 个回答

相关问题