Те, кто использует интеллектуальных голосовых помощников, таких как «Алиса», Siri и т.д., вероятно, заметили, что технология становится умнее с каждым днём. Тем не менее роботов, которые бы выполняли различные команды, озвученные пользователем, пока найти сложно. Роботы-пылесосы не в счёт. Однако Google создала роботов, которые умеют распознавать голосовые команды и правильно их выполнять. Пока что это лишь прототипы, но когда-то они станут полноценным продуктом.

Компания Alphabet, в состав которой входит Google, создала новую робототехническую компанию под названием Everyday Robots (англ. — Повседневные роботы). Как следует из названия, целью фирмы является создание роботов, которые учатся самостоятельно и выполняют «повседневные задачи, отнимающие много времени». В сочетании с языковой ИИ-моделью PaLM (Pathways Language Model) робот SayCan от Everyday Robots стал PaLM-SayCan — ботом, способным оценивать свои собственные возможности, окружающую среду и озвученную человеком задачу, а затем разбивать эту задачу на более мелкие подзадачи для достижения желаемой цели.

В то время как большинство роботов тестируются в пределах лаборатории, весь смысл PaLM-SayCan заключается в том, чтобы помочь с разнообразными и часто незапланированными проблемами и задачами. Это вдохновило команды Google и Everyday Robots использовать PaLM-SayCan на офисной кухне. Здесь PaLM-SayCan можно попросить принести пакетик чипсов из ящика стола, выбрать между кока-колой и пепси и даже помочь людям решить проблему пролитого напитка. Казалось бы, это очень простые задачи, но на самом деле нет.

Научить робота выполнять повторяющиеся задачи в контролируемых пространствах без присутствия людей хоть и не самая простая, но вполне решаемая задача. Гораздо сложнее научить робота решать различные задачи на основе голосовых команд в пространствах, где также присутствуют люди. Речь не идёт о таких решениях, как роботы-пылесосы, которые просто запрограммированы на то, чтобы не касаться никаких предметов, кроме пола. С роботами-помощниками всё куда сложнее, ведь он должен правильно понять человека, а также придумать, как выполнить поручение или же сообразить, что сделать этого он не может в принципе.

Google достигла определённого прогресса в задаче понимания роботами естественного языка, который может использовать человек. С помощью своей системы обработки естественного языка Pathways Language Model (PaLM) компания смогла достичь точной обработки фраз и понимания роботом того, что человек на самом деле хочет, а не буквального выполнения сказанного.

Следующая задача — понять, на что на самом деле способен робот. Робот может понять просьбу достать предмет с полки, но проблема в том, что он может не дотянуться до него, так как полка находится слишком высоко. Google называет «возможностями» то, что может делать робот более-менее успешно. Это могут быть простые задачи («продвиньтесь на метр вперёд»), более сложные задачи («найди банку колы на кухне»), а также сложные, многоэтапные действия, требующие от робота понимания собственных способностей и окружающего мира. Например, «Уф, я пролил свою колу на пол. Не могли бы вы вытереть лужу и принести мне новый напиток?». В последнем случае роботу будет необходимо разбить задачу на ряд этапов — определить место, где пролита жидкость, пойти на кухню, найти губку, вернуться назад, собрать воду, опять пойти на кухню, чтобы выжать губку и т.д. Хотя, возможно, ему нужно определиться — может быть лучше сначала принести банку колы, а потом заняться устранением лужи?

Ещё одна проблема, с которой сталкивается робототехника, заключается в том, что языковые модели не привязаны к физическому миру. Например, на запрос «Я пролил свой напиток, вы можете помочь?» языковая модель GPT-3 отвечает: «Вы можете попробовать использовать пылесос». И это имеет смысл для неё, так как языковая модель ассоциирует пылесос с процессом уборки. Хотя пылесос не предназначен для устранения лужи и попытка сделать это может привести к его поломке.

Как утверждают в Google, важно научить роботов определять, что они могут и чего не могут делать, и что имеет смысл делать в первую очередь в различных ситуациях. Роботы, получив задание, пытаются принять решение, задаваясь вопросами «какова вероятность того, что я добьюсь успеха в том, что собираюсь попробовать?» и «насколько полезной может быть эта вещь». Где-то в промежутке между этими двумя соображениями роботы становятся значительно умнее с каждым днем.

Пока что роботы Google научились приносить различные вещи, вроде газировки, а также вытирать лужи, попутно научившись искать те или иные вещи, открывать ящики и прочее. Но делают они всё правильно в 74 % случаев, и Google работает над тем, чтобы повысить этот показатель. Помимо выполнения различных поручений они также были обучены самостоятельно подключаться к электросети для подзарядки.


Источник: 3dnews.ru