Google поставила очередную веху в области искусственного интеллекта, создав алгоритмы, способные с некоторой точностью различать лица людей, морды животных, и другие объекты на изображениях или записях YouTube. В технологии осуществлена попытка воспроизвести принцип деятельности клеток мозга. Задача — поэтапно придать электронным устройствам и службам некоторые возможности человеческого мышления. Первым из таких направлений становится распознавание голоса, способное принести очень большие возможности.
Технология Google построена из групп искусственных клеток мозга, которые взаимодействуют друг с другом в рамках нейронной сети. Когда в последнюю поступают данные, происходит реакция между «нейронами» и выдаётся некий результат. Система способна накапливать некоторые знания.
Нейронные сети используются уже десятилетия в тех областях, где находит применение машинное обучение, вроде шахматной игры, распознавания текста или лиц. Инженеры Google нашли способ значительно увеличить вычислительные возможности искусственного интеллекта, создав нейронные сети, способные обучаться без участия человека и достаточно эффективные, чтобы получить коммерческое применение, а не только выступать в качестве исследовательских демонстраций.
Это комбинированное изображение наилучшим образом распознаётся нейронной сетью Google в качестве морды кота
Нейронные сети компании самостоятельно выбирают набор данных, которые заслуживает внимания, определяют, какие образцы важны, вместо того, чтобы люди указывали определённые цвета или формы, которые представляют интерес для программы для определения объектов.
Сейчас Google начала использовать эти технологии в области распознавания речи, сделав этот процесс более аккуратным. Это особенно важно для операционной системы Android и поискового приложения Google для iOS-устройств, выступающего в качестве ответа на Apple Siri. «Нам удалось сократить на 20—25% количество ошибок при распознавании голоса, — отметил Винсент Ванхоук (Vincent Vanhoucke), руководитель направления речевого распознавания Google. — Это означает, что намного большее число людей получат отличное окружение». Пока нейронная сеть работает только с английским, но господин Ванхоук заявляет, что подобные улучшения будут распространены и на другие диалекты и языки, когда они получат соответствующее обновление.
Ещё один продукт Google в перспективе будет, вероятно, улучшен благодаря этим технологиям. Речь идёт о системе поиска изображений, которая сможет лучше понимать изображение, а не только полагаться на окружающий его текст. Конечно, и более сложные системы самоуправляемых машин и очков дополненной реальности Google Glass смогут стать лучше благодаря возможности распознавания объектов окружающего мира.
Впервые технология Google привлекла всеобщее внимание в июне этого года, когда инженеры компания опубликовали отчёт эксперимента, в рамках которого с помощью 16 тысяч процессоров, установленных в тысячах компьютеров, в течение 10 дней была произведена выборка 10 млн необходимых изображений из YouTube-видео.
«Большинство команд испытывают свою модель на одном компьютере, а мы пожелали провести эксперимент с очень большими нейронными сетями, — сказал Джефф Дин (Jeff Dean), инженер, помогающий вести исследования в Google. — Если масштабировать размер модели и объём данных, с которыми она будет работать, вы сможете выявить более тонкие различия или более сложные свойства».
Это комбинированное изображение наиболее точно воспринимается программным обеспечением Google в качестве лица человека
Нейронные сети, которые вовлечены в этот процесс, являются более гибкими. «Эти модели обычно могут лучше понимать контекст,— продолжил он, приведя пример из области распознавания голоса. — Если, например, система Google предполагает, что услышала произнесённую фразу: „Я иду есть личи“, однако последнее слово было несколько заглушено, она может подтвердить свою догадку на основе прошлого опыта, потому что „личи“ — это фрукт, и это слово используется в том же контексте как „яблоко“ или „апельсин“.
Джефф Дин также сообщил, что его команда работает со совмещёнными системами, распознающими как голос, так и изображения:«Вы произносите „морская свинья“ и система выдаёт вам изображения морских свиней. Если же вы предоставляете фотографию морской свиньи, то получаете в ответ слова „морская свинья“».
Следующим шагом должно стать объединение нескольких подходов для достижения более эффективных результатов. Например, для лучшего распознавание голоса может быть задействовано изучение и видеоряда. Или же система анализа окружающего пространства в самоуправляемой машине сможет изучать несколько разнородных потоков данных: с камеры, от лазерного сканера, от записи внешних звуков, шума мотора и так далее.
По мнению бывшего соучредителя Apple Стива Возняка (Steve Wozniak), следующим важным шагом развития компьютерной индустрии должно стать более широкое применение искусственного интеллекта.
[via 3dnews]