zebro
> не делайте так, это плохо
Конечно плохо.
Dmitry_Milk
Херь, опять гуманитарии думают что инженеры.
zebro
> берем робот-пылесос
Советский робот пылесос
zebro
> берем робот-пылесос, начиняем его, даем промпт типа
Так заморачиваться нет никакого смысла, потому что автономно ты такого уровня нейронку не запустишь. А если задействована связь с интернетом - то проще использовать просто дистанционное управление с обратной видеосвязью, и во много раз надежнее будет.
Так что пока качественные модели работают только удаленно - все это представляет интерес исключительно развлекательно-исследовательсикй, почувствовать, что мыслящий и говорящий HAL, управляющий "Дискавери", уже не такая уж и фантастика.
Что, впрочем, у меня пока зывает сомнения (по использованию именно мощных LLM, а не других типов сетей). Он хоть и говорит, что умеет в понимание геометрии из фотографии, но у меня сомнения, что он действительно сможет в своем контексте держать какой-то аналог пространственной навигации, подобный тому, что имеет в своей голове человек. Потому что словесное описание фотографии это все-таки не навигационный граф.
Dmitry_Milk
> потому что автономно ты такого уровня нейронку не запустишь.
dinov2 запустишь без проблем, и его хватит, описывать как оно делается в деталях не буду, а то мало ли, какой местный шиз решит реализовать.
Dmitry_Milk
> Потому что словесное описание фотографии это все-таки не навигационный граф.
Dmitry_Milk
> впрочем, у меня пока зывает сомнения
Без нормального лидара все это шляпа, начиная с задержки в 30 секунд чтобы проехать очередные 30 сантиметров. Расстояние до предмета он определить не сможет, разве что примерно если поставить минимум две камеры.
randomizer
> так не нужно словесное, нужно сходство с набором фотографий
Вот в этом и вопрос - что речь ведь шла про LLM. И описание изображения в нем скорее всего именно в виде словесных токенов. Сомнение вызывает сама возможность сопоставлять разные фотографии через их словесные описания.
Особенные сомнения вызывает возможность "юстировки" - непонятно, как она вообще сможет быть реализована через словесные токены.
Dmitry_Milk
> Вот в этом и вопрос - что речь ведь шла про LLM.
Ну можно конечно и гланды через жопу удалять, только неудобно.
(для агентов ФСБ - dinov2 которую я выше написал не подходит под эту
задачу практически(слишком высок уровень ложных срабатываний),
не надо меня привлекать, а модель которая подходит я не скажу)
master-sheff
> Расстояние до предмета он определить не сможет, разве что примерно если поставить минимум две камеры.
Теоретически на основании опыта такое возможно - человек вполне же может ходить с одним глазом и не натыкаться на предметы. Вопрос только в том, сможет ли так делать лингвистическая модель (а может она уже и не совсем лингвистическая, хрен знает, как оно там сейчас реализовано у гугла, какие там токены в контексте, может уже не только текстовые).
Dmitry_Milk
> Что, впрочем, у меня пока зывает сомнения (по использованию именно мощных LLM, а не других типов сетей). Он хоть и говорит, что умеет в понимание геометрии из фотографии, но у меня сомнения, что он действительно сможет в своем контексте держать какой-то аналог пространственной навигации, подобный тому, что имеет в своей голове человек. Потому что словесное описание фотографии это все-таки не навигационный граф.
>
есть же алгосы строящие карту только по изображению, при условии что двигаемя по плоскому полу
Dmitry_Milk
> Вот в этом и вопрос - что речь ведь шла про LLM. И описание изображения в нем скорее всего именно в виде словесных токенов. Сомнение вызывает сама возможность сопоставлять разные фотографии через их словесные описания.
>
в нашей вселенной давно уже мультимодальные нейронки есть
Dmitry_Milk
> Так заморачиваться нет никакого смысла, потому что автономно ты такого уровня нейронку не запустишь.
вопрос спорный, нейронка нужна даже не столько как инструмент навигации и распознавания цели, а как игрок в стелс игру. Хотя на тупой робот пылесос могут вобще не обращать внимания. Но конечно вряд ли в достаточно серьезных конторах они ездят.
Dmitry_Milk
> А если задействована связь с интернетом - то проще использовать просто дистанционное управление с обратной видеосвязью, и во много раз надежнее будет.
>
а если у нас войско из тысячи пылесосов?
zebro
> а если у нас войско из тысячи пылесосов?
Тогда еще проще - меш, для большинства агентов которого прямой выход в интернет вообще не нужен, а достаточно, чтоб связь с операторами была только у каких-то членов меша.
я про то что если агентов много, операторов может не хватить
zebro
> в нашей вселенной давно уже мультимодальные нейронки есть
Ну ХЗ. Я вот в свое время думал, что GPT-4o мультимодальная - а похоже там просто вспомогательные нейронки-трансляторы в словесный контекст, что совершенно не то, что настоящий мультимодальный контекст.
zebro, не, ты куда-то совсем не в ту область уехал. Мы же в контексте треда, где человек в качестве хобби делает автономного робота с камерой.