加州住房数据(1990年)加州房屋价格预测
数据基于1990年的加利福尼亚人口普查。
关于数据:
“此数据集是可从LuísTorgo的页面(波尔图大学)获得的California Housing数据集的修改版本。LuísTorgo从StatLib存储库(现已关闭)中获取了该数据集。该数据集也可以从StatLib镜像下载。
以下是该书作者的描述:
该数据集出现在1997年Pace,R.Kelley和Ronald Barry题为“稀疏空间自回归”的论文中,该论文发表在《统计和概率快报》杂志上。他们使用1990年加利福尼亚人口普查数据构建了该数据。每个普查区组包含一行。街区小组是美国人口普查局发布样本数据的最小地理单位(街区小组通常人口为600至3,000人)。
此目录中的数据集几乎与原始数据集相同,但有两个区别:
从“总卧室”列中随机删除了207个值,因此我们可以讨论如何处理丢失的数据。添加了一个称为海洋邻近性的附加类别属性,该属性(非常粗略地)指示每个块组是在海洋附近,在湾区附近,在内陆还是在岛上。这允许讨论如何处理分类数据。
请注意,在Jupyter笔记本中,块组被称为“区域”,仅是因为在某些情况下,“块组”的名称令人困惑。
“我们从1990年的人口普查中使用加利福尼亚的所有街区组收集了有关变量的信息。在此样本中,街区组平均包括1425.5个居住在地理区域内的个体。自然,所包含的地理区域与人口成反比密度,W e计算经纬度和经度测量的每个块组的质心之间的距离,W e排除了报告零个独立变量和因变量的所有块组,最终数据包含对9个变量的20,640个观测值。变量为ln(房屋中位价)。”
端到端ML项目步骤(本书第2章)
- 看大图
- 获取数据
- 发现和可视化数据以获取见解
- 为机器学习算法准备数据
- 选择一个模型并训练它
- 微调您的模型
- 介绍您的解决方案
- 启动,监视和维护系统
十步机器学习项目工作流程
- 定义业务对象
- 从高层次理解数据
- 数据类型(数字,文本,对象等)
- 连续/离散
- 使用箱线图的基本统计信息(最小值,最大值,标准,中位数等)
- 直方图频率
- 不同特征的尺度和分布
- 使用适当的抽样方法(例如随机抽样与分层抽样)创建过渡和测试集
- 相关分析(成对和属性组合)
- 数据清理(丢失数据,异常值,数据错误)
- 通过管道进行数据转换(使用一种热编码将分类文本转换为数字,通过归一化/标准化进行特征缩放,特征组合)
- 训练并交叉验证不同的模型,然后选择最有前途的模型(在本教程中尝试了线性回归,决策树和随机森林)
- 通过尝试使用不同的超参数组合来微调模型
- 使用测试集中的最佳估计量评估模型
- 启动,监视和刷新模型和系统