原创投稿 行业报告 AI展会 数据标注
投稿发布
您的当前位置:首页 > 下载中心 > 商业数据 > 正文

红酒质量数据

发布:可思数据 时间:2020-05-31
数据类型:文本语料 热度

文件类型:.zip              文件大小:99 KB

授权方式:公共开源     发布时间:2020-05-31

数据来源:UCI             数据语言:英文

数据介绍:

红酒质量

简单干净的实践数据集,用于回归或分类建模

这两个数据集与葡萄牙“ Vinho Verde”葡萄酒的红色和白色变体有关。有关更多详细信息,请参考参考文献[Cortez等,2009]。由于隐私和物流问题,仅物理化学(输入)和感官(输出)变量可用(例如,没有有关葡萄类型,葡萄酒品牌,葡萄酒售价等的数据)。

这些数据集可以视为分类或回归任务。这些课程是有序的,而不是均衡的(例如,普通葡萄酒比优质或劣等葡萄酒要多得多)。

内容

有关更多信息,请阅读[Cortez等,2009]。

输入变量(基于理化测试):

1-固定酸度

2-挥发性酸度

3-柠檬酸

4-残留糖

5-氯化物

6-游离二氧化硫

7-总二氧化硫

8-密度

9-pH

10-硫酸盐

11-醇

输出变量(基于感官数据):

12-质量(得分在0到10之间)

提示

除了使用回归建模之外,可能还有一件有趣的事情是为您的因变量(葡萄酒质量)设置一个任意的截止值,例如7或更高,被归类为“好/ 1”,其余归类为“不好”。 / 0'。
这使您可以在例如ROC曲线和AUC值的决策树算法上进行超参数调整。
无需进行任何类型的特征工程或过度拟合,您就应该能够获得0.88的AUC(甚至不使用随机森林算法)

KNIME是可用于此目的的出色工具(GUI)。

1-用于线性相关节点的文件读取器(用于csv)和用于基本EDA的交互式直方图。

2-将文件阅读器转到“规则引擎节点”以将10点刻度转换为dichtome变量(好酒和休息),放在规则引擎中的代码如下所示:

  • $ quality $> 6.5 =>“好”
  • TRUE =>“坏”

    3-规则引擎节点输出到“列过滤器”节点的输入以过滤掉原始的10点要素(这防止泄漏)

    4-列过滤节点的输出到“分区节点”的输入(您的标准训练/测试拆分,例如75%/ 25%,选择“随机”或“分层”)

    5-分区节点训练数据拆分输出到输入Train数据拆分输入到决策树学习者节点,以及

    6-分区节点测试数据拆分输出到输入决策树预测器节点

    7-决策树学习器节点输出到输入决策树节点输入

    8-决策树输出到输入ROC节点..(在这里您可以基于AUC值评估模型)
下载地址:

特别声明:

¤ 此数据集库仅供研究和教育用途,不得用于任何商业用途。
¤ 如果您在任何出版物或报告中使用该数据库,则必须添加引用本站来源。
¤ 版权归作者及所在组织所有。
¤ 如用于商业用途,请联系版权所有人。
¤ 本站数据来源于网络如有侵权请联系我们。
¤ 本站数据压缩包统一解压密码:www.sykv.com
人工智能权威社区
人工智能交流群扫码邀请

相关文章:

    无相关信息

相关推荐:

网友评论:

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

数据标注服务

Copyright©2005-2020 Sykv.com 可思数据 版权所有    京ICP备14056871号

关于我们   免责声明   广告合作   版权声明   联系我们   原创投稿   网站地图  

可思数据 数据标注行业联盟

人工智能资讯   人工智能资讯   人工智能资讯   人工智能资讯

扫码入群
咨询反馈
扫码关注

微信公众号

返回顶部
关闭