ФлеймФорумЖелезо

Android ROBOT (17 стр)

Страницы: 113 14 15 16 17 18 Следующая »
#240
9:50, 9 фев 2026

zebro
> не делайте так, это плохо
Конечно плохо.

+ Показать
#241
10:45, 9 фев 2026

Dmitry_Milk
Херь, опять гуманитарии думают что инженеры.

#242
10:55, 9 фев 2026

zebro
> берем робот-пылесос
Советский робот пылесос

+ Показать
#243
10:56, 9 фев 2026

zebro
> берем робот-пылесос, начиняем его, даем промпт типа

Так заморачиваться нет никакого смысла, потому что автономно ты такого уровня нейронку не запустишь. А если задействована связь с интернетом - то проще использовать просто дистанционное управление с обратной видеосвязью, и во много раз надежнее будет.

Так что пока качественные модели работают только удаленно - все это представляет интерес исключительно развлекательно-исследовательсикй, почувствовать, что мыслящий и говорящий HAL, управляющий "Дискавери", уже не такая уж и фантастика.

Что, впрочем, у меня пока зывает сомнения (по использованию именно мощных LLM, а не других типов сетей). Он хоть и говорит, что умеет в понимание геометрии из фотографии, но у меня сомнения, что он действительно сможет в своем контексте держать какой-то аналог пространственной навигации, подобный тому, что имеет в своей голове человек. Потому что словесное описание фотографии это все-таки не навигационный граф.

#244
11:02, 9 фев 2026

Dmitry_Milk
> потому что автономно ты такого уровня нейронку не запустишь.
dinov2 запустишь без проблем, и его хватит, описывать как оно делается в деталях не буду, а то мало ли, какой местный шиз решит реализовать.
Dmitry_Milk
> Потому что словесное описание фотографии это все-таки не навигационный граф.

+ Показать
#245
11:02, 9 фев 2026

Dmitry_Milk
> впрочем, у меня пока зывает сомнения
Без нормального лидара все это шляпа, начиная с задержки в 30 секунд чтобы проехать очередные 30 сантиметров. Расстояние до предмета он определить не сможет, разве что примерно если поставить минимум две камеры.

#246
11:06, 9 фев 2026

randomizer
> так не нужно словесное, нужно сходство с набором фотографий

Вот в этом и вопрос - что речь ведь шла про LLM. И описание изображения в нем скорее всего именно в виде словесных токенов. Сомнение вызывает сама возможность сопоставлять разные фотографии через их словесные описания.

Особенные сомнения вызывает возможность "юстировки" - непонятно, как она вообще сможет быть реализована через словесные токены.

#247
11:09, 9 фев 2026

Dmitry_Milk
> Вот в этом и вопрос - что речь ведь шла про LLM.
Ну можно конечно и гланды через жопу удалять, только неудобно.
(для агентов ФСБ - dinov2 которую я выше написал не подходит под эту
задачу практически(слишком высок уровень ложных срабатываний),
не надо меня привлекать, а модель которая подходит я не скажу)

#248
11:12, 9 фев 2026

master-sheff
> Расстояние до предмета он определить не сможет, разве что примерно если поставить минимум две камеры.

Теоретически на основании опыта такое возможно - человек вполне же может ходить с одним глазом и не натыкаться на предметы. Вопрос только в том, сможет ли так делать лингвистическая модель (а может она уже и не совсем лингвистическая, хрен знает, как оно там сейчас реализовано у гугла, какие там токены в контексте, может уже не только текстовые).

#249
11:28, 9 фев 2026

Dmitry_Milk
> Что, впрочем, у меня пока зывает сомнения (по использованию именно мощных LLM, а не других типов сетей). Он хоть и говорит, что умеет в понимание геометрии из фотографии, но у меня сомнения, что он действительно сможет в своем контексте держать какой-то аналог пространственной навигации, подобный тому, что имеет в своей голове человек. Потому что словесное описание фотографии это все-таки не навигационный граф.
>
есть же алгосы строящие карту только по изображению, при условии что двигаемя по плоскому полу

Dmitry_Milk
> Вот в этом и вопрос - что речь ведь шла про LLM. И описание изображения в нем скорее всего именно в виде словесных токенов. Сомнение вызывает сама возможность сопоставлять разные фотографии через их словесные описания.
>
в нашей вселенной давно уже мультимодальные нейронки есть

Dmitry_Milk
> Так заморачиваться нет никакого смысла, потому что автономно ты такого уровня нейронку не запустишь.
вопрос спорный, нейронка нужна даже не столько как инструмент навигации и распознавания цели, а как игрок в стелс игру. Хотя на тупой робот пылесос могут вобще не обращать внимания. Но конечно вряд ли в достаточно серьезных конторах они ездят.

#250
11:30, 9 фев 2026

Dmitry_Milk
> А если задействована связь с интернетом - то проще использовать просто дистанционное управление с обратной видеосвязью, и во много раз надежнее будет.
>
а если у нас войско из тысячи пылесосов?

#251
11:34, 9 фев 2026

zebro
> а если у нас войско из тысячи пылесосов?

Тогда еще проще - меш, для большинства агентов которого прямой выход в интернет вообще не нужен, а достаточно, чтоб связь с операторами была только у каких-то членов меша.

#252
(Правка: 12:08) 11:37, 9 фев 2026

я про то что если агентов много, операторов может не хватить

+ Показать
#253
11:39, 9 фев 2026

zebro
> в нашей вселенной давно уже мультимодальные нейронки есть

Ну ХЗ. Я вот в свое время думал, что GPT-4o мультимодальная - а похоже там просто вспомогательные нейронки-трансляторы в словесный контекст, что совершенно не то, что настоящий мультимодальный контекст.

#254
11:40, 9 фев 2026

zebro, не, ты куда-то совсем не в ту область уехал. Мы же в контексте треда, где человек в качестве хобби делает автономного робота с камерой.

Страницы: 113 14 15 16 17 18 Следующая »
ФлеймФорумЖелезо