Тем не менее роботов, которые бы выполняли различные команды, озвученные пользователем, пока найти сложно. Роботы-пылесосы не в счёт. Однако Google создала полноценных роботов, которые умеют распознавать голосовые команды и правильно их выполнять.
Научить робота выполнять повторяющиеся задачи в контролируемых пространствах без присутствия людей хоть и не самая простая, но вполне решаемая задача. Гораздо сложнее научить робота решать различные задачи на основе голосовых команд в пространствах, где также присутствуют люди. Речь не идёт о таких решениях, как роботы-пылесосы, которые просто запрограммированы на то, чтобы не касаться никаких предметов, кроме пола. С роботами-помощниками всё куда сложнее, ведь он должен правильно понять человека, а также придумать, как выполнить поручение или же сообразить, что сделать этого он не может в принципе.
Google достигла определённого прогресса в задаче понимания роботами естественного языка, который может использовать человек. С помощью своей системы обработки естественного языка Pathways Language Model (PaLM) компания смогла достичь точной обработки фраз и понимания роботом того, что человек на самом деле хочет, а не буквального выполнения сказанного.
Следующая задача — понять, на что на самом деле способен робот. Робот может понять просьбу достать предмет с полки, но проблема в том, что он может не дотянуться до него, так как полка находится слишком высоко. Google называет «возможностями» то, что может делать робот более-менее успешно. Это могут быть простые задачи («продвиньтесь на метр вперёд»), более сложные задачи («найди банку колы на кухне»), а также сложные, многоэтапные действия, требующие от робота понимания собственных способностей и окружающего мира. Например, «Уф, я пролил свою колу на пол. Не могли бы вы вытереть лужу и принести мне новый напиток?». В последнем случае роботу будет необходимо разбить задачу на ряд этапов — определить место, где пролита жидкость, пойти на кухню, найти губку, вернуться назад, собрать воду, опять пойти на кухню, чтобы выжать губку и т.д. Хотя, возможно, ему нужно определиться — может быть лучше сначала принести банку колы, а потом заняться устранением лужи?
Ещё одна проблема, с которой сталкивается робототехника, заключается в том, что языковые модели не привязаны к физическому миру. Например, на запрос «Я пролил свой напиток, вы можете помочь?» языковая модель GPT-3 отвечает: «Вы можете попробовать использовать пылесос». И это имеет смысл для неё, так как языковая модель ассоциирует пылесос с процессом уборки. Хотя пылесос не предназначен для устранения лужи и попытка сделать это может привести к его поломке.
Как утверждают в Google, важно научить роботов определять, что они могут и чего не могут делать, и что имеет смысл делать в первую очередь в различных ситуациях. Пока что роботы Google научились приносить различные вещи, вроде газировки, а также вытирать лужи, попутно научившись искать те или иные вещи, открывать ящики и прочее. Но делают они всё правильно в 74 % случаев, и Google работает над тем, чтобы повысить этот показатель. Помимо выполнения различных поручений они также были обучены самостоятельно подключаться к электросети для подзарядки.
Лаборатория робототехники Google использует несколько роботов от её подразделения Everyday Robots. Некоторые из них используются на кухне и обучаются улучшать различные аспекты работы на кухне. Роботы, получив задание, пытаются принять решение, задаваясь вопросами «какова вероятность того, что я добьюсь успеха в том, что собираюсь попробовать?» и «насколько полезной может быть эта вещь». Где-то в промежутке между этими двумя соображениями роботы становятся значительно умнее с каждым днем.