TMDB 5000电影数据集来自TMDb的约5,000部电影的元数据
包含有关数千部电影的情节,演员,工作人员,预算和收入的数据。
数据源传输摘要
-
新的数据集包含演员和剧组的全部票数。
-
现在,按在字幕中出现的顺序列出了演员。目前尚不清楚原始数据集的使用顺序。对于我检查过的电影,它既不符合积分顺序也不符合IMDB的星级顺序。
-
收入似乎是最新的。例如,IMDB的《阿凡达》数字似乎来自2010年,低估了影片的全球收入超过20亿美元。
-
我们无法移植的某些电影(几百部)只是不好的作品。例如,此IMDB条目基本上根本没有准确的信息。它列出了《星球大战第七集》作为纪录片。
数据源传输详细信息
-
几个新列包含json。您可以通过[从此内核]()移植加载数据功能来节省一些时间。
-
即使在像运行时这样的简单字段中,各个版本之间也可能不一致。例如,先前的数据集显示了Avatar扩展剪切的持续时间,而TMDB显示了原始版本的时间。
-
现在有一个单独的文件,其中包含演员和工作人员的全部学分。
-
所有字段均由用户填写,因此不要期望他们在关键字,体裁,等级等方面达成共识。
-
您现有的内核将继续正常渲染,直到重新运行它们为止。
-
如果您对如何准备此数据集感到好奇,可以在此处发布访问TMDb API的代码。
新列:
-
主页
-
ID
-
original_title
-
概观
-
人气
-
生产公司
-
生产国家
-
发布日期
-
口语
-
状态
-
标语
-
平均投票
遗失的栏:
-
演员1 facebook_likes
-
演员2 facebook_likes
-
演员3 facebook_likes
-
Aspect_ratio
-
投放总计 facebook_likes
-
颜色
-
content_rating
-
导演facebook喜欢
-
facenumber 在海报
-
电影Facebook喜欢
-
电影imdb链接
-
num 评论家 for_reviews
-
num个用户 for_reviews