Досега моделите за управление на роботите, които имитират физическия свят, не напредват със скоростта, с която се развиват езиковите модели като GPT. Но новите „мултивселенски“ симулатори от Nvidia и Google могат бързо да променят това.
Проблемът с данните за роботиката
Основният проблем, който забавя развитието на физическия ИИ, е липсата на достатъчно данни. Докато езиковите модели (LLMs) могат да се обучават с огромното количество текст, изображения и видео в интернет, при моделите за поведение (LBMs) липсват такива обемни набори от данни.
Роботите и автономните превозни средства са скъпи и физически сложни, затова събирането на данни за 3D представяния на реални ситуации върви много по-бавно.
Тази причина обяснява защо Tesla активно интегрира хардуер за автономно управление в колите си, за да събере данни и да изпревари конкурентите в разработката на самоуправляващи се технологии.
Наскоро Nvidia и Google Deepmind обявиха нови инициативи, които могат да преодолеят този проблем с данните чрез симулации на светове. Тези симулатори създават огромни количества данни, базирани на една реална ситуация или дори само текстов промпт.
Например, ако имате запис от шест камери на автономен автомобил, който шофира през слънчев ден, симулаторите могат да създадат 3D модел на тази ситуация и да я варират стотици пъти - при различни метеорологични условия, часове на деня или действия на други участници в движението.
Тези симулации включват разнообразни случаи, които са изключително редки в реалния свят. Всяка симулация генерира нови сценарии, в които роботът или автомобилът трябва да реагират различно.
С помощта на тези 3D симулации се създават и висококачествени видео и сензорни данни, които могат да се използват за обучение на AI.
„Моментът ChatGPT за роботика наближава," заяви Дженсън Хуанг, основател и изпълнителен директор на Nvidia, при представянето на новия модел Cosmos на CES. „Създадохме Cosmos, за да демократизираме физическия AI и да поставим общата роботика в ръцете на всеки разработчик."
Моделът Cosmos може да симулира всички възможни бъдещи действия в реално време, за да помогне на AI да избере най-добрия път на действие.
За да се справи с огромните изисквания за данни и обработка, Nvidia представи и „Cosmos Tokenizer," който намалява количеството необходими данни осемкратно и ускорява обработката 12 пъти.
Компании като 1X, Figure AI, Agility и Uber вече използват Cosmos за обучение на роботи и автономни превозни средства.
Google Deepmind също стартира подобен проект, макар и с известно закъснение спрямо Nvidia. Тим Брукс, лидер на екипа за симулации на Deepmind, сподели, че този тип симулации са ключова стъпка към изкуствения общ интелект (AGI).
Deepmind смята, че мащабното предварително обучение на видео и мултимодални данни ще доведе до значителен напредък в визуалната преценка, планирането на автономни агенти и интерактивните забавления.
Докато езиковите модели заплашват да заменят бели яки, физическият AI в роботи и превозни средства се насочва към професии, свързани с физически труд.
Технологията е невероятна и има потенциала фундаментално да промени света.