メインコンテンツまでスキップ

OpenAIのAPIを使用しています。正確性の保証はできませんので、ご注意ください。

実践で使えるデータセット

このページでは、機械学習プロジェクトで利用できるデータセットをジャンル別に紹介しています。これらのデータセットを使って、あなたの研究やプロジェクトを加速させましょう。

画像認識

  • COCO:一般物体検出、セグメンテーション、キャプションを学習できるデータセット
  • ImageNet:大規模な画像データセットで、多くの画像認識タスクに適用可能
  • CelebA:セレブの顔画像を収集したデータセット、顔認識タスクに適用可能

食材・レシピ認識

  • Food-101:101種類の料理画像を収集したデータセット、料理認識タスクに適用可能
  • Recipe1M:画像とテキスト情報が付与された100万件以上のレシピデータセット
  • USDA National Nutrient Database:食材の栄養情報が収録されたデータセット、食材認識や栄養価分析タスクに適用可能
  • Open Food Facts:食品の成分情報や栄養成分を収集したオープンデータセット

自然言語処理

  • IMDb:映画のレビューを使って、感情分析タスクを学習できるデータセット
  • SQuAD:質問応答タスクを学習できるデータセット
  • Common Crawl:ウェブ上のテキストを収集した大規模データセット、幅広いNLPタスクに適用可能

音声認識

  • LibriSpeech:英語の朗読データを使って、音声認識タスクを学習できるデータセット
  • Mozilla Common Voice:多言語の音声データを収集したデータセット、音声認識や音声合成タスクに適用可能
  • TIMIT:アメリカ英語の方言データを使って、音声認識タスクを学習できるデータセット

時系列データ

  • UCI Machine Learning Repository:時系列データを含む様々なデータセットが提供されているリポジトリ
  • Yahoo! Finance:株価や為替レートなどの金融データをダウンロードできるサービス
  • GDELT:世界中のニュース記事を分析したデータセット、時系列分析やイベント予測タスクに適用可能

推薦システム

  • MovieLens:映画の評価データを使って、推薦システムを学習できるデータセット
  • Amazon Product Data:アマゾンの商品レビューデータを使って、商品推薦タスクを学習できるデータセット
  • Jester:ジョークの評価データを使って、ユーモア推薦システムを学習できるデータセット

グラフデータ

  • SNAP:ソーシャルネットワークやウェブグラフなどのグラフデータを収集したデータセット
  • aminer:学術ネットワークデータを使って、グラフ解析やリンク予測タスクを学習できるデータセット
  • DBLP:コンピュータサイエンス関連の学術ネットワークデータを提供しているデータベース

医療データ

  • MIMIC-III:重症患者の医療情報を収集したデータセット、予測モデルや患者分類タスクに適用可能
  • ADNI:アルツハイマー病患者の画像データや遺伝子データを収集したデータセット
  • Cancer Imaging Archive:がん患者の画像データや臨床情報を収集したデータセット

その他のデータセット

  • Kaggle:様々なジャンルのデータセットが提供されているデータサイエンスプラットフォーム
  • UCI Machine Learning Repository:多様なデータセットを提供する、機械学習研究のためのリポジトリ
  • Google Dataset Search:ウェブ上に存在するデータセットを検索できるサービス