July 10th, 2016

недостаточно размеченных данных - обращайтесь к "механическим туркам"!

У меня продолжает вызывать большое недоумение, когда в статьях, докладах, обсуждениях по машинному обучению говорят об недоступности или дороговизне получения размеченных данных. Come on! Поинтересуйтесь, для примера сколько платят работникам Механического Турка (здесь я сделаю заметку - надо будет точно узнать во сколько обошлась разметка базы ImageNet )

Так вот, в мире на сегодняшний день существует 7 миллиардов естественных интеллектов, и экономическая статистика утверждает, что 85 богатейших людей мира имеют столько же богатства, сколько и нижние 3 миллиарда человек. Я уже писал, что в одном из экспериментов по безусловному доходу в сельской Индии людям платили 48$ в год и это было существенно для их жизни и жизни общины.

Без всяких проблем за смешные деньги можно посадить миллионы и миллиарды людей размечать данные. Генерируя триллионы, квадриллионы, квинтиллионы размеченных данных. Уже того, что мы знаем сейчас, достаточно, чтобы верить - если скормить эти данные уже существующим методам и техникам это окупит траты чуть ли не сразу. Я уже писал, что это можно было сделать еще декады назад за долю процента от военных бюджетов. Но человечество поразительно лениво, я реально думаю, что через 20 лет об этом будут писать как о величайшей глупости, что оно по сути потеряло 20-30 лет впустую, когда все можно было организовать...