header

» » » » » Система распознавания объектов, обучающаяся, как человек

Система распознавания объектов, обучающаяся, как человек

Система распознавания объектов, обучающаяся, как человек


Системы распознавания объектов работают на удивление хорошо. В случае с алгоритмом распознавания лиц Facebook даже пугающе. Но обучающиеся машины нуждаются в миллионе визуальных примеров, а людям достаточно 2-3 фотографии, чтобы определить новые экземпляры изображения одного и того же объекта.

 

Четыре года назад группа Томазо Поджио из Массачусетского технологического института, кафедры исследования мозга, начала разработку новой вычислительной модели визуального представления, которая должна была отразить реальный процесс работы мозга. Затем ученые опубликовали доказательства того, что обучающиеся машины на основе их моделей могут правильно выделять объекты на основании нескольких примеров.

 

Исследователи указывают, что аспекты их модели хорошо согласуются с эмпирическими данными о том, как на самом деле работает мозг. Томазо Поджио сказал: «Если мне дадут изображение лица человека, даже сделанное на расстояние, я затем узнаю его при встрече. У мозга есть простые способы распознавания, и нужно только научиться им подражать. Чтобы решить эту проблему нам не нужно множество примеров, достаточно увидеть лицо в одном положении, чтобы получить мысленную картинку того, как оно будет выглядеть во всех возможных положениях. Нет нужды делать множество вариантов представления объекта, мы изначально имеем инвариантное представление».


Инвариантное представление объекта не нуждается в таких различиях, как размер, расположения, угол вращения. Создатели компьютерной модели распознавания предложили несколько методов инвариантного представления, но остановились на той, которая согласуется с эмпирическими выводами о механике мозга.

 

Особенности нейронных вычислений


Нервные клетки или нейроны имеют длинные тонкие разветвляющиеся концы. В коре головного мозга, каждый нейрон, отвечающий за визуальную обработку, имеет около 10000 ветвей. Таким образом, два нейрона взаимодействуют друг с другом через 10000 тысяч соединений – синапсов. Каждый из синапсов имеет собственную значимость, коэффициент, на который он умножает силу входящего сигнала. Импульсы, пересекающие разные синапсы, суммируются в теле нейрона.

 

Стимулирование активности разных синапсов в течение долгого времени приводит к тому, что у нас появляются привычки и закрепляются воспоминания.

 

Ключевой операцией в области линейной алгебры является скалярное произведение, которое умножает две последовательности векторов и затем суммирует результаты для получения одного числа. Выход одной нейронной цепи в коре головного мозга можно рассматривать в качестве произведения двух последовательностей 10000 векторов. Это очень тяжелые расчеты, но нейроны способны сделать их мгновенно.

 

Группа Паджио при разработке инвариантной системы представления объектов использовало точечный метод. Предположим, вы делаете снимок объекта вращающийся на 360 градусов в одной плоскости за 24 кадра.Вы сохраняете эту последовательность кадров.

 

Далее вы берете одно изображение незнакомого объекта и интерпретируете его, как цифровую строку чисел, описывающих цветовые значения пикселей-векторов. Используя цифровую модель можно вычислить, как будет выглядеть каждый кадр из 24 и сохранить их.

 

Неизменность


Если представить, что изображение вращается на 90 градусов, можно получить те же 24 кадра. Они будут выглядеть немного по-другому, но последний кадр будет выглядеть так же, как и при повороте на 90 градусов в первой модели. То есть у вас появилась вычислительная модель инвариантная к вращению.

 

Можно использовать похожие последовательности различных размеров в разных местах, чтобы получить последовательности, которые инвариантны к размеру и местоположению.

 

Три измерения


Хотя этот метод хорошо работает при визуальных преобразованиях в одной плоскости он не подходит для вращения в трех измерений. Например, изображение автомобиля будет отличаться, от его рисунка со стороны. Но группа Поджио доказало, что если получить изображение объекта в разных плоскостях и сохранить их, то метод будет работать. Это наблюдение согласуется с недавними исследованиями, которые доказывают, что зрительная кора имеет участки, специализирующиеся на распознавании определенных классов объектов: лиц, органов, машин.


Используя компьютерную систему с данными о множестве неподвижных изображений и алгоритм скалярного произведения, ученые получили машину, способную классифицировать тысячи случайных объектов. При этом каждый класс объектов был определен в памяти машины набором шаблонов, с помощью которых можно было получить изображения с учетом разных размеров и поворотов. По мнению ученых, мозг может работать так же.

 

Гипотеза инвариантности может стать мощным прорывом в преодолении разрыва между современными методами обучения машины и системой, которые используют животные или люди. Эта элегантная математическая модель сможет преодолеть разрыв между природными интеллектуальными системами и искусственными.


 

Автор: Katerina3007   25-12-2015

Рубрика: Новости » Технологии » Компьютеры и Гаджеты

Рейтинг:

Просмотров: 419

Комментариев: 0

Статьи по теме

Комментарии

Зарегистрируйтесь, чтобы оставлять комментарии