原创投稿 行业报告 AI展会 数据标注
投稿发布
您的当前位置:首页 > 下载中心 > 商业数据 > 正文

加州住房数据

发布:可思数据 时间:2020-06-08
数据类型:文本语料 热度

文件类型:.CSV              文件大小:1 MB

授权方式:公共开源     发布时间:2020-06-08

数据来源:Harry Wang             数据语言:英文

数据介绍:

加州住房数据(1990年)加州房屋价格预测

数据基于1990年的加利福尼亚人口普查。

关于数据:

“此数据集是可从LuísTorgo的页面(波尔图大学)获得的California Housing数据集的修改版本。LuísTorgo从StatLib存储库(现已关闭)中获取了该数据集。该数据集也可以从StatLib镜像下载。

以下是该书作者的描述:

该数据集出现在1997年Pace,R.Kelley和Ronald Barry题为“稀疏空间自回归”的论文中,该论文发表在《统计和概率快报》杂志上。他们使用1990年加利福尼亚人口普查数据构建了该数据。每个普查区组包含一行。街区小组是美国人口普查局发布样本数据的最小地理单位(街区小组通常人口为600至3,000人)。

此目录中的数据集几乎与原始数据集相同,但有两个区别:
从“总卧室”列中随机删除了207个值,因此我们可以讨论如何处理丢失的数据。添加了一个称为海洋邻近性的附加类别属性,该属性(非常粗略地)指示每个块组是在海洋附近,在湾区附近,在内陆还是在岛上。这允许讨论如何处理分类数据。
请注意,在Jupyter笔记本中,块组被称为“区域”,仅是因为在某些情况下,“块组”的名称令人困惑。

 

“我们从1990年的人口普查中使用加利福尼亚的所有街区组收集了有关变量的信息。在此样本中,街区组平均包括1425.5个居住在地理区域内的个体。自然,所包含的地理区域与人口成反比密度,W e计算经纬度和经度测量的每个块组的质心之间的距离,W e排除了报告零个独立变量和因变量的所有块组,最终数据包含对9个变量的20,640个观测值。变量为ln(房屋中位价)。”

端到端ML项目步骤(本书第2章)

  1. 看大图
  2. 获取数据
  3. 发现和可视化数据以获取见解
  4. 为机器学习算法准备数据
  5. 选择一个模型并训练它
  6. 微调您的模型
  7. 介绍您的解决方案
  8. 启动,监视和维护系统

十步机器学习项目工作流程

  1. 定义业务对象
  2. 从高层次理解数据
    • 数据类型(数字,文本,对象等)
    • 连续/离散
    • 使用箱线图的基本统计信息(最小值,最大值,标准,中位数等)
    • 直方图频率
    • 不同特征的尺度和分布
  3. 使用适当的抽样方法(例如随机抽样与分层抽样)创建过渡和测试集
  4. 相关分析(成对和属性组合)
  5. 数据清理(丢失数据,异常值,数据错误)
  6. 通过管道进行数据转换(使用一种热编码将分类文本转换为数字,通过归一化/标准化进行特征缩放,特征组合)
  7. 训练并交叉验证不同的模型,然后选择最有前途的模型(在本教程中尝试了线性回归,决策树和随机森林)
  8. 通过尝试使用不同的超参数组合来微调模型
  9. 使用测试集中的最佳估计量评估模型
  10. 启动,监视和刷新模型和系统
下载地址:

特别声明:

¤ 此数据集库仅供研究和教育用途,不得用于任何商业用途。
¤ 如果您在任何出版物或报告中使用该数据库,则必须添加引用本站来源。
¤ 版权归作者及所在组织所有。
¤ 如用于商业用途,请联系版权所有人。
¤ 本站数据来源于网络如有侵权请联系我们。
¤ 本站数据压缩包统一解压密码:www.sykv.com
人工智能权威社区
人工智能交流群扫码邀请

相关文章:

    无相关信息

相关推荐:

网友评论:

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

数据标注服务

Copyright©2005-2020 Sykv.com 可思数据 版权所有    京ICP备14056871号

关于我们   免责声明   广告合作   版权声明   联系我们   原创投稿   网站地图  

可思数据 数据标注行业联盟

人工智能资讯   人工智能资讯   人工智能资讯   人工智能资讯

扫码入群
咨询反馈
扫码关注

微信公众号

返回顶部
关闭