当前位置: > 注册送体验金88送现金 >

学界 - Fashion-MNIST:替换MNIST手写数字集的图像数据集注册送体验金88送现金

学界 | Fashion-MNIST:替换MNIST手写数字集的图像数据集

原题目:学界 | Fashion-MNIST:替代MNIST手写数字集的图像数据集

机器之心转载

公家号:PaperWeekly

作者:肖涵


FashionMNIST 是一个替代 MNIST 手写数字集 [1] 的图像数据集。 它是由 Zalando(一家德国的时髦科技公司)旗下的研究部分供给。其涵盖了来自 10 品种此外共 7 万个分歧商品的正面图片。

FashionMNIST 的巨细、格局和训练集 / 测试集划分与原始的 MNIST 完整分歧。60000/10000 的训练测试数据划分,28x28 的灰度图片。你可以直接用它来测试你的机器学习和深度学习算法性能,注册送体验金88送现金,且不需要修改任何的代码。 

这个数据集的样子大抵如下(每个类别占三行):

1. 为什么要做这个数据集?

经典的 MNIST 数据集 [1] 包含了大批的手写数字。十多少年来,来自机器学习、机器视觉、人工智能、深度学习领域的研究员们把这个数据集作为权衡算法的基准之一。你会在很多的会议,期刊的论文中发明这个数据集的身影。实践上,MNIST 数据集曾经成为算法作者的必测的数据集之一。有人曾调侃道:"如果一个算法在 MNIST 不 work,那么它就基本没法用;而如果它在 MNIST 上 work,它在其余数据上也可能不 work"。 

Fashion-MNIST 的目标是要成为 MNIST 数据集的一个直接替代品。作为算法作者,你不需要修正任何的代码,就可以直接使用这个数据集。Fashion-MNIST 的图片大小,训练、测试样本数及类别数与经典 MNIST 完全雷同,注册送体验金88送现金

写给专业的机器学习研究者 

我们是当真的。代替 MNIST 数据集的原来由如下几个: 

  • MNIST 太简略了,良多算法在测试集上的机能曾经到达 99.6%,注册送体验金88送现金!无妨看看咱们基于 scikit-learn 上的评测 [2] 和这段代码 [3]。年夜少数 MNIST 只须要一个像素就能够区离开;

  • MNIST 被用烂了。参考下图,Ian Goodfellow 盼望人们不要再用 MNIST 了;

  • MNIST 数字辨认的义务不代表示代机器进修。如下图,在 MNIST 上的主意没法迁徙到真正的机械视觉成绩上。

2. 获取数据

你可以使用以下链接下载这个数据集。Fashion-MNIST 的数据集的存储方式和定名与经典 MNIST 数据集 [1] 完全分歧。

点击「阅读原文」获取下载链接

或许,你可以直接克隆这个代码库。数据集就放在 data/fashion 下。这个代码库还包含了一些用于评测和可视化的剧本。 

类别标注

每个练习跟测试样本都依照以下种别停止了标注:

3. 若何载入数据?

使用 Python(需要装置 NumPy)

你可以直接使用 utils/mnist_reader: 

使用 Tensorflow

使用其他的言语

作为机器学习领域里最常使用的数据集,人们用各类言语为 MNIST 开辟了许多载入东西。有一些办法需要先解压数据文件。留神,我们并没有测试过一切的载入方法,载入方式获取方法详见文末。

  • C

  • C++

  • Java

  • Python

  • Scala

  • Go

  • C#

  • NodeJS

  • Swift

  • R

  • Matlab

  • Ruby

4. 评测

我们使用 scikit-learn 做了一套主动评测体系。它涵盖了除深度学习之外的 125 种经典机器学习模型(包括不同的参数)。你可以在这里以互动的方式检查成果 [2]。

你可以运转 benchmark/runner.py 对结果停止重现。而我们更推荐的方法是使用 Dockerfile 打包安排后以 Container 的方式运转。

我们欢迎你提交自己的模子评测,请应用 Github 新建一个 Issue。如果你提交本人的模型,请先确保这个模型不在这个列表 [2] 中被测试过。

5. 数据可视化

t-SNE 在 Fashion-MNIST(左侧)和经典 MNIST 上的可视化(右侧)

PCA 在 Fashion-MNIST(左侧)和经典 MNIST 上的可视化(右侧)

6. 在论文中引用 Fashion-MNIST

如果你在你的研究任务中使用了这个数据集,欢迎你援用这篇论文:

Fashion-MNIST: a Novel Image Dataset for Benchmarking Machine Learning Algorithms. Han Xiao, Kashif Rasul, Roland Vollgraf. arXiv: TBA

这篇论文将在 Mon, 28 Aug 2017 00:00:00 GMT 宣布在 arXiv 上。

[1] 经典 MNIST 数据集:

http://yann.lecun.com/exdb/mnist/

[2] 基于 scikit-learn 的评测:

http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/

[3] MNIST 测试代码:

https://gist.github.com/dgrtwo/aaef94ecc6a60cd50322c0054cc04478

欢迎点击「浏览原文」检查数据集完全阐明文档和作者论文:

Fashion-MNIST: a Novel Image Dataset for Benchmarking Machine Learning Algorithms


关于作者:


肖涵,德国 Zalando 旗下研究部门资深迷信家,德国慕尼黑产业大学盘算机博士,研究标的目的为深度学习在产物搜寻中的利用。


对于 PaperWeekly:

PaperWeekly 是一个推举、解读、探讨、报道人工智能前沿论文结果的学术平台。假如你研讨或从事 AI 范畴,欢送在大众号后盾点击「交流群」,小助手将把你带入 PaperWeekly 的交换群里。

本文为机器之心转载,转载请接洽本公众号取得受权。

?------------------------------------------------

注册送体验金88送现金 | 注册送体验金88送现金 | 无需申请自动送彩金288 | 电子游戏开户送彩金99 | 开户送彩金58元可提款 | 

返回顶部