В общем, безупречная массовая система типа, скажем, 1000/1000 или 1000/10000, то есть для многих дикторов с распознаванием нескольких сотен слов (а уж тем более фраз или слитной речи любого диктора), пока не создана. Тот, кто создаст такую систему для английского, немецкого, китайского, да и для русского языка, озолотится.
Естественно, такие системы активно разрабатываются. На мой взгляд, тут самая обещающая идея - перейти от «сугубо технического» распознавания 90-х годов (очистка сигнала, нарезка, угадывание фонем и пр.) к распознаванию «по смыслу», по контексту, то есть к предугадыванию того, что могло бы быть сказано. Именно так распознает речь человек: без знания контекста и заранее сформированной модели ситуации мы ошибаемся в распознавании на слух абстрактных текстов не реже машины. А предугадать круг возможных реплик не слишком трудно, это и так делают при создании любого центра обработки звонков, службы технической поддержки и пр.
Ясно, что заранее обученные контексту системы можно создавать только для ограниченного контекста, то есть для узких и хорошо описанных предметных областей (или они должны надежно распознавать предметные области и быстро переключаться между ними). Тем не менее для массовых справочных сервисов в мобильном телефоне этого было бы вполне достаточно.
Вторая перспективная идея - отказ от попытки точно распознать всю фразу. Вместо этого нужно «ловить» в потоке непонятной речи ключевые слова и фразы - и по ним строить гипотезы о возможном содержании запроса. Это тоже близко к тому, как распознает речь человек, особенно в условиях шума, сильного акцента собеседника, большого количества неизвестных слов в его речи. Фактически нужно превратить распознаватель в поисковую машину по возможным репликам пользователя.
Рынок мобильного контента требует интеллектуальных агентов, умеющих поддерживать связный диалог - болтать в чате, осуществлять навигацию по услугам, выбирать картинки или мелодии… Из развлечения для студентов и профессоров и повода выиграть престижный, но практически бесполезный приз Лёбнера (на прохождение теста Тьюринга на «человечность») виртуальные собеседники превращаются в серьезный бизнес. Уже появляются первые «виртуальные подружки» - тамагочи в мобильнике, - требующие внимания и подарков.
Для английского языка это сделать проще, а для немецкого или русского - гораздо сложнее. Такие стартапы сейчас то и дело появляются. Например, российская компания «Наносемантика» разрабатывает виртуальных собеседников для русского и английского языков, позволяющих вести связный диалог по SMS и в Интернете, и к ним очень большой интерес проявляют агрегаторы мобильного контента.
Главные идеи разработки близки описанным выше для распознавания речи - нечеткое распознавание, отказ от жестких «лингвистических» шаблонов, превращение распознавателя фраз в поисковую машину по возможному контексту.
В общем, поддерживать связный диалог с роботом уже вполне возможно - в узких предметных областях. Когда к таким речевым агентам присоединится настоящее распознавание звуковой речи, в общении человека и компьютера произойдет революция. И те, кто ее возглавит, станут богаче если не Гейтса, то уж Брина с Пейджем точно.
После того как лопнул пузырь доткомов, казалось, что интернет-бизнес больше никогда не наберет такого же хода. Тем не менее в 2003-04 годах начался новый бурный рост, но уже не на дрожжах обещаний и надежд, а на солидном основании больших заработков на рекламе. И потребности пользователей, и инновации в Интернете теперь - настоящие.
Новые короли Интернета - поисковики. Зарабатывая большие деньги на контекстной рекламе, они стали единственным входом во всемирную сеть для полумиллиарда пользователей. Однако, на мой взгляд, сами поисковые машины сейчас находятся в удручающе застывшем состоянии: релевантность поиска не растет или даже падает, пользовательский интерфейс остается на уровне 1999 года - бесконечная лента результатов поиска, где в одну кучу свалены форумы, сайты, товарные предложения, новости и, конечно, поисковый спам: бесконечные входные страницы, липовые сайты, фальшивые каталоги, платные бессмысленные ссылки… Развитие поисковиков идет экстенсивно - по пути превращения в порталы с мультисервисной моделью, новостями, товарами, богатым контентом, почтой, электронными деньгами.
Пользователям, как мне кажется, очень нужна новая парадигма поисковой машины.
Наиболее перспективные идеи в это области таковы:
Структурирование результатов поиска. Чтобы облегчить выбор среди найденного, результаты нужно разбивать по темам и типам документов. Для этого необходимо вводить распознавание тематик и структуры данных при индексации веб-страниц. Хороший пример такого структурированного поиска - портал A9.com, созданный при участии Amazon.
Специализированные поисковики. В очень многих областях интересов вместо общего поисковика лучше использовать специализированный поиск по разным сущностям (тем или иным предметным областям, товарам, блогам, сообществам, новостям). Результаты должны объединяться и структурироваться.
Коллективный поиск. Для структуризации и организации результатов поиска можно привлекать на помощь сообщества пользователей. Такие проекты уже существуют и получают инвестиции.
Мобильный поиск. Не будем забывать о приходе в Интернет мобильных пользователей, которых в разы больше, чем нынешних интернетчиков, - им рано или поздно потребуется голосовое общение с поисковой машиной (а значит, диалог с нею на естественном языке).
Те, кто первыми предложат новые виды поиска и интерфейсы поисковых машин, станут новыми Деллами и Бринами. Впрочем, сейчас в отрасли интернет-поиска начинается великая битва слона с китом - Google с Microsoft[См. по этому поводу обсуждение в «КТ» # 606 . - Л.Л.-М.]. Но не думаю, что через пять-семь лет победителями будут сегодняшние поисковики - скорее, ими станут новички (как не известен был Google семь лет назад). Сейчас в США и Европе в год появляются несколько десятков громких стартапов, в той или иной форме реализующих вышеперечисленные идеи поиска.