RError.com

RError.com Logo RError.com Logo

RError.com Navigation

  • 主页

Mobile menu

Close
  • 主页
  • 系统&网络
    • 热门问题
    • 最新问题
    • 标签
  • Ubuntu
    • 热门问题
    • 最新问题
    • 标签
  • 帮助
主页 / 问题 / 1419240
Accepted
user16357289
user16357289
Asked:2022-08-11 20:38:54 +0000 UTC2022-08-11 20:38:54 +0000 UTC 2022-08-11 20:38:54 +0000 UTC

机器学习模型的准确性

  • 772
关闭 这个问题是题外话。目前不接受回复。

寻求调试帮助的问题(“为什么这段代码不起作用? ”)应该包括期望的行为、具体的问题或错误,以及在问题中重现它的最少代码。没有明确描述问题的问题对其他访问者毫无用处。请参阅如何创建一个最小的、独立的和可重现的示例。

3 个月前关闭。

改进问题

使用 5 折交叉验证,最后一次拆分时的回归准确度(确定系数 r^2)较低。

这是什么意思?在对整个数据集进行训练时,训练质量会下降吗?还是没关系?

值:0.29、0.05、0.36、0.18、-1.31
平均值:-0.08346647029663619 这些是工资上限输出列的值(那里的数据不如下限,因为它经常被省略) 在下限 r2 约为 48%,这非常适合我。

是否值得用这样的值进行训练,以便进一步使用不是在整个数据集上,而是在数据集的第 1 部分和第 3 部分上,准确率更高的地方?

数据集 - hh.ru 的职位空缺。目标是工资预测。

37,000条记录,29列:经验、关键技能、职位、雇主、上下限薪、专业、专业领域(这些字段用标签编码进行编码);城市(基洛夫、莫斯科、圣彼得堡)、日程安排和就业类型以一种热编码方式编码。

数据未缩放,因为梯度提升对缩放不敏感。模型的复杂度应该足够了,在训练数据集上,准确率在 70-80% 左右。如果我理解正确,模型会被重新训练。

数据集链接:https ://drive.google.com/file/d/1QJZAYyXIXcrMgzet8SUC31MzV5dHODcv/view?usp=sharing

python машинное-обучение
  • 1 1 个回答
  • 66 Views

1 个回答

  • Voted
  1. Best Answer
    CrazyElf
    2022-08-14T21:32:46Z2022-08-14T21:32:46Z

    好吧,顺便说一句,如果您对目标中的异常值有疑问。有一定数量的数据,其上界与下界之比过大(2倍、10倍甚至50倍)。如果你扔掉一定数量的这些排放物,那么情况就会变得更好。为剪辑选择什么具体比率取决于您。我为示例选择了 3 的比率,从它和上面这大约是您数据的 2.5%,在我看来,这是一个很小的牺牲。

    print((df.salary_to/df.salary_from < 3).value_counts(normalize=True))
    df_selected = df[df.salary_to/df.salary_from < 3]
    X = df_selected[feature_columns]
    y = df_selected.salary_to
    model.fit(X, y)
    print(r2_score(y, model.predict(X)))
    print(cross_val_score(model, X, y, scoring='r2'))
    

    结论:

    True     0.975505
    False    0.024495
    dtype: float64
    0.9147364058539751
    [0.35825282 0.45682105 0.43133096 0.41867005 0.44403997]
    

    我有一个模型RandomForestRegressor,但没关系,根据您的初始数据,它显示的折叠图片与您的模型大致相同。

    PS 另一种选择,你甚至不需要从数据中抛出任何东西,就是取目标的对数。但与此同时,我不太确定如何快速解释。我们不能忘记在整个过程结束时从预测中取指数。

    X = df[feature_columns]
    y = np.log(df.salary_to)
    model.fit(X, y)
    print(r2_score(y, model.predict(X)))
    print(cross_val_score(model, X, y, scoring='r2'))
    

    结论:

    0.9205070404891004
    [0.45175607 0.46596345 0.48481266 0.4853811  0.4781465 ]
    

    在此处输入图像描述

    在此处输入图像描述

    • 1

相关问题

Sidebar

Stats

  • 问题 10021
  • Answers 30001
  • 最佳答案 8000
  • 用户 6900
  • 常问
  • 回答
  • Marko Smith

    我看不懂措辞

    • 1 个回答
  • Marko Smith

    请求的模块“del”不提供名为“default”的导出

    • 3 个回答
  • Marko Smith

    "!+tab" 在 HTML 的 vs 代码中不起作用

    • 5 个回答
  • Marko Smith

    我正在尝试解决“猜词”的问题。Python

    • 2 个回答
  • Marko Smith

    可以使用哪些命令将当前指针移动到指定的提交而不更改工作目录中的文件?

    • 1 个回答
  • Marko Smith

    Python解析野莓

    • 1 个回答
  • Marko Smith

    问题:“警告:检查最新版本的 pip 时出错。”

    • 2 个回答
  • Marko Smith

    帮助编写一个用值填充变量的循环。解决这个问题

    • 2 个回答
  • Marko Smith

    尽管依赖数组为空,但在渲染上调用了 2 次 useEffect

    • 2 个回答
  • Marko Smith

    数据不通过 Telegram.WebApp.sendData 发送

    • 1 个回答
  • Martin Hope
    Alexandr_TT 2020年新年大赛! 2020-12-20 18:20:21 +0000 UTC
  • Martin Hope
    Alexandr_TT 圣诞树动画 2020-12-23 00:38:08 +0000 UTC
  • Martin Hope
    Air 究竟是什么标识了网站访问者? 2020-11-03 15:49:20 +0000 UTC
  • Martin Hope
    Qwertiy 号码显示 9223372036854775807 2020-07-11 18:16:49 +0000 UTC
  • Martin Hope
    user216109 如何为黑客设下陷阱,或充分击退攻击? 2020-05-10 02:22:52 +0000 UTC
  • Martin Hope
    Qwertiy 并变成3个无穷大 2020-11-06 07:15:57 +0000 UTC
  • Martin Hope
    koks_rs 什么是样板代码? 2020-10-27 15:43:19 +0000 UTC
  • Martin Hope
    Sirop4ik 向 git 提交发布的正确方法是什么? 2020-10-05 00:02:00 +0000 UTC
  • Martin Hope
    faoxis 为什么在这么多示例中函数都称为 foo? 2020-08-15 04:42:49 +0000 UTC
  • Martin Hope
    Pavel Mayorov 如何从事件或回调函数中返回值?或者至少等他们完成。 2020-08-11 16:49:28 +0000 UTC

热门标签

javascript python java php c# c++ html android jquery mysql

Explore

  • 主页
  • 问题
    • 热门问题
    • 最新问题
  • 标签
  • 帮助

Footer

RError.com

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

帮助

© 2023 RError.com All Rights Reserve   沪ICP备12040472号-5