Новый чат GPT4o помогает незрячим на улице

Компания Open AI запустила новую версию чата GPT4o. Особенности этой версии ярче всего проявляются в мобильном приложении. Сейчас с чатом можно общаться голосом по новому, а именно, его можно перебивать. Не надо ждать, пока ответ чата прозвучит до конца. Нейросетевые технологии синтеза и распознавания речи всё глубже интегрируются с языковой моделью, нейросеть всё больше становится мультимодальной. В результате, она учитывает не только текст, который произносит пользователь, но и интонацию, с которой он это делает. Ещё более продвинутой стала и работа чата с изображениями. Теперь не надо самостоятельно нажимать кнопку для фотографирования, просто попросите чат посмотреть и подсказать что-либо и модель сама сделает снимки, реагируя на контекст беседы. Просто направляйте камеру устройства и задавайте вопросы в произвольной форме, как будто разговариваете с человеком. При необходимости, чат делает серию снимков и, на их основе, может давать пояснения по поводу движущихся объектов. Например, может рассказать, что в озере плавают утки, плавают медленно, периодически одна из уток погружает голову в воду, вероятно, в поисках пищи, скажет о проезжающем такси и даже подскажет, когда помахать рукой, чтобы его остановить. Очень радует, что компания Be My Eyes и Open AI продолжают сотрудничество, благодаря которому эти чудесные технологии используются для помощи незрячим людям. Компания Open AI опубликовала видеоролик, демонстрирующий путешествие незрячего Энди по Лондону. Находясь на площади перед Букингемским дворцом, Энди спросил у чата, на месте ли монарх, чат рассказал Энди об утках и о том, что утки делают, а потом помог Энди поймать такси. Новую модель GPT4o Энди тестирует в приложении Be My Eyes. В конце видео логотипы компаний Open AI и Be My Eyes. Сделал перевод звуковой дорожки этого видео на русский с помощью нейросети Яндекса.