该数据是从Booking.com上抓取的。文件中的所有数据已经公开提供给所有人。数据最初由Booking.com拥有。如果您想在其他地方使用此数据集,请通过可思数据注明来源并仅用于学习及研究为目的。
数据介绍:
该数据集包含515,000条客户评论以及欧洲1493家豪华酒店的评分。同时,还提供了酒店的地理位置以供进一步分析。
资料内容:
csv文件包含17个字段。每个字段的说明如下:
- Hotel_Address:酒店地址。
- Review_Date:评论者发布相应评论的日期。
- 平均得分:酒店的平均得分,根据去年的最新评论计算得出。
- Hotel_Name:酒店名称
- 审稿人_国籍:审稿人国籍
- Negative_Review:评论者对酒店的负面评论。如果审稿人未给出否定的评论,则应为:“否定的否定”
- 评论否定词总数:否定评论中的词总数。
- Positive_Review:审阅者对酒店的正面评价。如果审稿人没有给出负面评价,则应为:“无正面评价”
- 审核总积极词数:积极评论中的单词总数。
- Reviewer_Score:点评者根据其经验给酒店的分数
- 总人数的评论审阅已考虑:一些审查的评审,在过去给了。
- 总人数 of_Reviews:有效审查的酒店总数。
- 标签:标签评论者给了酒店。
- 天,因为审查的日期和刮日期之间的时间:审查。
- 计分的额外数量:也有一些客人只是对服务进行了评分,而不是进行评论。该数字指示其中有多少有效分数,而无需查看。
- 纬度:酒店的纬度
- lng:酒店的经度
数据集较大且内容丰富,可以进一步激发挖掘新研究科目!
- 在评论和得分上拟合回归模型,以查看哪些词更能指示更高/更低的得分
- 对评论进行情感分析
- 查找审阅者的国籍和分数之间的相关性。
- 数据集上美丽而信息丰富的可视化。
- 根据评论对酒店进行聚类
- 简单的推荐引擎给喜欢酒店特色的客人。