Журнал "Компьютерра" №761 - Журнал Компьютерра 📖 Читаем онлайн книгу ❗ бесплатно. Страница 13

Кроме того, нам приходится много думать о совместимости. Мы хотим, чтобы наш продукт поддерживал кучу разнообразных конфигураций ПК и, с другой стороны, корректно отображал самые разные сайты. К тому же мы обещали пользователям кроссплатформность, но пока у нас нет версий для Мас OS и Linux. Но, повторяю, мы не против плагинов.

8 Нет, к сожалению, я не могу сказать, когда все это будет реализовано. У нас, разумеется, есть таймлайн, но он только для внутреннего употребления.

9 Мы очень много работаем в направлении видеопоиска и поиска по изображениям, и нам даже есть что показать: недавно мы запустили распознавание лиц в Picasa - вам нужно лишь один раз указать человека на фотографии, и на остальных он найдется автоматически (разумеется, это в теории, на практике же бывает всякое. - В.Г.). Мне кажется, это очень мощный подход. К примеру, вы ищете Эйфелеву башню. В Сети существуют миллионы ее изображений, со всех возможных углов. И благодаря подобным технологиям вы сможете найти все такие изображения, даже те, на которых не подписано, что это Эйфелева башня, а не что-нибудь еще. А пока мы в самом начале.

10 Помню времена, когда распознавание речи было… э-э-э, довольно-таки случайным. Но современные технологии делают эту задачу куда более реальной, и совмещая технологии распознавания речи и поиск по видео, вы тем самым заметно расширяете спектр возможных поисков.

11 Обычный пользователь сможет искать по видео года через четыре. Я не уверен, что мы сможем нормально проиндексировать случайно взятый файл с YouTube, поэтому сейчас я имею в виду только контент с хорошим качеством звука и картинки. В общем, через три-четыре года, ну, может быть, через пять лет вы наверняка сможете найти все упоминания Путина в веб-выпусках видеоновостей.

12 Наш машинный перевод несовершенен, но достаточно хорош. Читабелен. И он не требует человеческого участия, он базируется исключительно на собранных данных, на основании которых строится модель языка. Эта модель используется как для создания автоматических переводчиков, так и для движков распознавания речи, где вычисляются вероятности произнесения того или иного слова. Так что если мы теоретически объединим две эти технологии, то в результате получим универсальный речевой переводчик, умеющий переводить с любого языка на любой. Я, конечно, не могу назвать сроки - наверное, это не три года и не пять, - но это возможно.

В течение многих лет в разработке машинных переводчиков главенствовал подход, основанный на правилах (rule-based), и эти системы до сих пор существуют и работают, но на построение полной модели языка уходит десять-пятнадцать лет, а то и двадцать. А за это время язык успевает измениться, это слишком большой срок. Мы, конечно, тоже строим модели, но они, в отличие от тех моделей, являются динамическими. Новые имена, новые названия - а это важно при переводе, это культурный контекст - в динамической модели появляются через считанные дни и часы. У нас, конечно, тоже есть проблемы, но это проблемы масштаба. Чем больше у нас текстов, тем лучше мы переводим, и за последние пять лет мы постоянно побеждали на чемпионатах NIST (имеются в виду сравнительные тесты систем машинного перевода, которые проводит американский Национальный институт стандартов и технологий. - В.Г.).

13 Мы и сейчас можем перевести художественный текст, так что вы, наверное, имеете в виду, когда мы научимся переводить художественный текст не хуже человека? Это зависит от языка, но я не вижу здесь особых препятствий. Это возможно. Не завтра, конечно, но возможно. Это сложная задача, ее решение займет какое-то время. Ну, скажем, лет десять. Или пять.

Перейти на страницу:

Изменить размер шрифта: