https://t.me/begtin/4755
Где искать большие данные для исследований? Машинного обучения? Тренировки алгоритмов?
Источников много, я упомяну сейчас те о которых ранее не писал:
- Academic Torrents https://academictorrents.com/ - торрент-трекер для исследователей для публикации данных особо большого объёма. Более 14ТБ данных, большая часть для машинного обучения
- Archive.org datasets https://archive.org/details/datasets - наборы данных собранные в коллекции Интернет архива. Наборов данных более 9 тысяч и данные большого объёма
- Hyper.ai Datasets https://hyper.ai/datasets наборы данных китайской компании Hyper.AI. Тоже большого объёма и раздают данные через torrent'ы
- Toloka Datasets https://toloka.ai/datasets/ - открытые наборы данных компании Toloka, все про машинное обучение, варьируются от очень небольших, до десятков гигабайт
- The SpaceNet Datasets https://spacenet.ai/datasets/ - коллекция наборов данных проекта SpaceNet, открытые наборы данных от компании Maxar, поставщика данных спутникового мониторинга
- Granular Datasets https://granular.ai/datasets - много наборов данных для машинного обучения на данных спутниковых снимков и иных снимков
- Наборы данных Центра диагностики и телемедицины https://mosmed.ai/datasets/ - один из немногих открытых источников больших и открытых данных для машинного обучения в России, большая часть данных открыты или доступны по запросу. Публикуется профильным ГБУ при правительстве Москвы