OpenAIのAPIを使用しています。正確性の保証はできませんので、ご注意ください。
実践で使えるデータセット
このページでは、機械学習プロジェクトで利用できるデータセットをジャンル別に紹介しています。これらのデータセットを使って、あなたの研究やプロジェクトを加速させましょう。
画像認識
- COCO:一般物体検出、セグメンテーション、キャプションを学習できるデータセット
- ImageNet:大規模な画像データセットで、多くの画像認識タスクに適用可能
- CelebA:セレブの顔画像を収集したデータセット、顔認識タスクに適用可能
食材・レシピ認識
- Food-101:101種類の料理画像を収集したデータセット、料理認識タスクに適用可能
- Recipe1M:画像とテキスト情報が付与された100万件以上のレシピデータセット
- USDA National Nutrient Database:食材の栄養情報が収録されたデータセット、食材認識や栄養価分析タスクに適用可能
- Open Food Facts:食品の成分情報や栄養成分を収集したオープンデータセット
自然言語処理
- IMDb:映画のレビューを使って、感情分析タスクを学習できるデータセット
- SQuAD:質問応答タスクを学習できるデータセット
- Common Crawl:ウェブ上のテキストを収集した大規模データセット、幅広いNLPタスクに適用可能
音声認識
- LibriSpeech:英語の朗読データを使って、音声認識タスクを学習できるデータセット
- Mozilla Common Voice:多言語の音声データを収集したデータセット、音声認識や音声合成タスクに適用可能
- TIMIT:アメリカ英語の方言データを使って、音声認識タスクを学習できるデータセット
時系列データ
- UCI Machine Learning Repository:時系列データを含む様々なデータセットが提供されているリポジトリ
- Yahoo! Finance:株価や為替レートなどの金融データをダウンロードできるサービス
- GDELT:世界中のニュース記事を分析したデータセット、時系列分析やイベント予測タスクに適 用可能
推薦システム
- MovieLens:映画の評価データを使って、推薦システムを学習できるデータセット
- Amazon Product Data:アマゾンの商品レビューデータを使って、商品推薦タスクを学習できるデータセット
- Jester:ジョークの評価データを使って、ユーモア推薦システムを学習できるデータセット
グラフデータ
- SNAP:ソーシャルネットワークやウェブグラフなどのグラフデータを収集したデータセット
- aminer:学術ネットワークデータを使って、グラフ解析やリンク予測タスクを学習できるデータセット
- DBLP:コンピュータサイエンス関連の学術ネットワークデータを提供しているデータベース
医療データ
- MIMIC-III:重症患者の医療情報を収集したデータセット、予測モデルや患者分類タスクに適用可能
- ADNI:アルツハイマー病患者の画像データや遺伝子データを収集したデータセット
- Cancer Imaging Archive:がん患者の画像データや臨床情報を収集したデータセット
その他のデータセット
- Kaggle:様々なジャンルのデータセットが提供されているデータサイエンスプラットフォーム
- UCI Machine Learning Repository:多様なデータセットを提供する、機械学習研究のためのリポジトリ
- Google Dataset Search:ウェブ上に存在するデータセットを検索できるサービス