Массачусетский технологический институт (MIT) представил инновационную методику обучения в области робототехники. Вместо стандартного набора специализированных данных новая модель использует огромные массивы информации, как при обучении больших языковых моделей (LLM).
Исследователи отмечают, что имитационное обучение, при котором агент учится, следя за тем, как человек выполняет задание, может дать сбой, если возникают небольшие трудности. Это могут быть такие вещи, как освещение, другая обстановка или новые препятствия. В таких случаях роботам просто не хватает данных для адаптации.
Команда обратилась к подходам, использующим модели вроде GPT-4, для решения проблем методом перебора данных.
В языковой области все данные – это просто предложения, – говорит исследователь Лируи Ванг. – В робототехнике, учитывая всю неоднородность данных, при проведении предварительного обучения аналогичным образом необходим другой подход.
Команда MIT представила новую архитектуру под названием Heterogeneous Pretrained Transformers (HPT), которая объединяет информацию с разных датчиков. Затем для объединения данных в обучаемые модели используется трансформатор. Пользователи вводят дизайн робота, его конфигурацию и задание, которое они хотят выполнить.
– Мы мечтаем о создании универсального мозга робота, который можно было бы загрузить и использовать для своего робота без какого-либо обучения, – говорит доцент Дэвид Хелд. – Пока мы находимся на ранних стадиях, но мы собираемся продолжать упорно работать и надеемся, что масштабирование приведет к прорыву в робототехнике, как это было с большими языковыми моделями.