红酒质量

简单干净的实践数据集，用于回归或分类建模

这两个数据集与葡萄牙“ Vinho Verde”葡萄酒的红色和白色变体有关。有关更多详细信息，请参考参考文献[Cortez等，2009]。由于隐私和物流问题，仅物理化学（输入）和感官（输出）变量可用（例如，没有有关葡萄类型，葡萄酒品牌，葡萄酒售价等的数据）。

这些数据集可以视为分类或回归任务。这些课程是有序的，而不是均衡的（例如，普通葡萄酒比优质或劣等葡萄酒要多得多）。

内容

有关更多信息，请阅读[Cortez等，2009]。

输入变量（基于理化测试）：

1-固定酸度

2-挥发性酸度

3-柠檬酸

4-残留糖

5-氯化物

6-游离二氧化硫

7-总二氧化硫

8-密度

9-pH

10-硫酸盐

11-醇

输出变量（基于感官数据）：

12-质量（得分在0到10之间）

提示

除了使用回归建模之外，可能还有一件有趣的事情是为您的因变量（葡萄酒质量）设置一个任意的截止值，例如7或更高，被归类为“好/ 1”，其余归类为“不好”。 / 0'。
这使您可以在例如ROC曲线和AUC值的决策树算法上进行超参数调整。
无需进行任何类型的特征工程或过度拟合，您就应该能够获得0.88的AUC（甚至不使用随机森林算法）

KNIME是可用于此目的的出色工具（GUI）。

1-用于线性相关节点的文件读取器（用于csv）和用于基本EDA的交互式直方图。

2-将文件阅读器转到“规则引擎节点”以将10点刻度转换为dichtome变量（好酒和休息），放在规则引擎中的代码如下所示：

$ quality $> 6.5 =>“好”
TRUE =>“坏”

3-规则引擎节点输出到“列过滤器”节点的输入以过滤掉原始的10点要素（这防止泄漏）

4-列过滤节点的输出到“分区节点”的输入（您的标准训练/测试拆分，例如75％/ 25％，选择“随机”或“分层”）

5-分区节点训练数据拆分输出到输入Train数据拆分输入到决策树学习者节点，以及

6-分区节点测试数据拆分输出到输入决策树预测器节点

7-决策树学习器节点输出到输入决策树节点输入

8-决策树输出到输入ROC节点..（在这里您可以基于AUC值评估模型）