保险公司(TIC)基准
测试您的数据挖掘算法,以预测谁将购买旅行车保险单
CoIL 2000挑战赛中使用的此数据集包含有关保险公司客户的信息。数据包含86个变量,包括产品使用情况数据和社会人口统计数据
详细数据说明
保险公司(TIC)2000
(c)2000年感知机器研究
免责声明
该数据集由荷兰数据挖掘公司Sentient Machine Research拥有和提供,并且基于真实的业务数据。您只能将此数据集和随附信息用于非商业研究和教育目的。明确不允许将此数据集用于商业教育或演示目的。对于任何其他用途,请与info@smr.nl联系Peter van der Putten。
参考
P. van der Putten和M. van Someren(eds)。CoIL Challenge 2000:保险公司案。由阿姆斯特丹Sentient Machine Research发布。也是莱顿高级计算机科学研究院技术报告2000-09。
相关文件
tic 2000 train_data.csv:
用于训练和验证预测模型并建立描述的数据集(5822个客户记录)。每个记录包含86个属性,其中包含社会人口统计学数据(属性1-43)和产品所有权(属性44-86)。社会人口统计学数据来自邮政编码。所有居住在具有相同邮政编码的地区的客户都具有相同的社会人口统计属性。目标变量为属性86“ CARAVAN:移动家庭策略数”。
tic 2000 eval_data.csv:
用于预测的数据集(4000个客户记录)。它具有与TICDATA2000.txt相同的格式,仅缺少目标。参与者只应返回预测目标的列表。所有数据集均为CSV格式。
属性和属性值的含义已指定为dictionary.csv
tic 2000 target_data.csv
评估集的目标。
dictionary.txt:
带有数字标记类别描述的数据描述。它具有列描述数据和伪/标签编码的标签。