大数据集
时间:2020-03-05 18:40:01 来源:igfitidea点击:
我一直在寻找大型数据集来测试各种类型的程序。有没有人有什么建议?
解决方案
回答
查看netflix竞赛。我相信他们公开了自己的数据库或者很大的一部分,以便于比赛。
更新:他们的常见问题解答说,我们可以下载的子集中有1亿个条目。
回答
我们可能需要查看为Fuzz测试生成随机数据。这将为我们提供几乎无限量的测试数据,并且我们更有可能遇到极端情况。
也许有关我们想要哪种测试数据,哪种格式以及针对哪种类型的应用程序的更多信息?
回答
我不知道目标平台是什么,但是如果我们要针对MSSQL数据库进行开发,请查看Visual Studio for Database Professionals。它具有非常酷的功能,可以使用我们可以定义的数据计划为模式生成数据。
Redgate也有一个数据生成工具,但是我没有使用过。
好处是我们可以创建一个数据生成计划,并使用它来为数据库填充一致的大量数据,这些数据可以进行调整以测试模式的特定区域。
回答
我们可能还想查看Aaron Swartz的theinfo。
来自网站
This is a site for large data sets and the people who love them: the scrapers and crawlers who collect them, the academics and geeks who process them, the designers and artists who visualize them. It's a place where they can exchange tips and tricks, develop and share tools together, and begin to integrate their particular projects.
回答
我已经对Wikimedia下载集做了一些工作,这些下载集是巨大的XML文件。不幸的是,他们的下载服务器当前似乎存在磁盘空间问题,因此许多数据集不可用。但是,当可用时,具有完整历史记录的整个英语维基百科数据集为2.8 TB(压缩的18 GB)。
回答
我们可能想看看美国统计协会的数据展览会的数据,它是过去20年美国所有商业航班的航班详细信息,有1.2亿条记录,11个记录。
回答
许多del.icio.us用户(包括我自己)使用" publicdata"标签对包含公共数据的标签页进行了标记。我们可以在此处找到该存档,并在此处订阅该标签的RSS feed。订阅提要,我们将看到源源不断的有趣数据集在网络上弹出。
并非所有这些数据集都很大,但是它们通常很有趣。