红酒质量
简单干净的实践数据集,用于回归或分类建模
这两个数据集与葡萄牙“ Vinho Verde”葡萄酒的红色和白色变体有关。有关更多详细信息,请参考参考文献[Cortez等,2009]。由于隐私和物流问题,仅物理化学(输入)和感官(输出)变量可用(例如,没有有关葡萄类型,葡萄酒品牌,葡萄酒售价等的数据)。
这些数据集可以视为分类或回归任务。这些课程是有序的,而不是均衡的(例如,普通葡萄酒比优质或劣等葡萄酒要多得多)。
内容
有关更多信息,请阅读[Cortez等,2009]。
输入变量(基于理化测试):
1-固定酸度
2-挥发性酸度
3-柠檬酸
4-残留糖
5-氯化物
6-游离二氧化硫
7-总二氧化硫
8-密度
9-pH
10-硫酸盐
11-醇
输出变量(基于感官数据):
12-质量(得分在0到10之间)
提示
除了使用回归建模之外,可能还有一件有趣的事情是为您的因变量(葡萄酒质量)设置一个任意的截止值,例如7或更高,被归类为“好/ 1”,其余归类为“不好”。 / 0'。
这使您可以在例如ROC曲线和AUC值的决策树算法上进行超参数调整。
无需进行任何类型的特征工程或过度拟合,您就应该能够获得0.88的AUC(甚至不使用随机森林算法)
KNIME是可用于此目的的出色工具(GUI)。
1-用于线性相关节点的文件读取器(用于csv)和用于基本EDA的交互式直方图。
2-将文件阅读器转到“规则引擎节点”以将10点刻度转换为dichtome变量(好酒和休息),放在规则引擎中的代码如下所示:
- $ quality $> 6.5 =>“好”
- TRUE =>“坏”
3-规则引擎节点输出到“列过滤器”节点的输入以过滤掉原始的10点要素(这防止泄漏)
4-列过滤节点的输出到“分区节点”的输入(您的标准训练/测试拆分,例如75%/ 25%,选择“随机”或“分层”)
5-分区节点训练数据拆分输出到输入Train数据拆分输入到决策树学习者节点,以及
6-分区节点测试数据拆分输出到输入决策树预测器节点
7-决策树学习器节点输出到输入决策树节点输入
8-决策树输出到输入ROC节点..(在这里您可以基于AUC值评估模型)