Какой объем данных сейчас на сайте?
- Сейчас там семь тысяч наборов данных для визуализации. Провайдеры данных ведут интереснейшие дискуссии друг с другом. Больше всего нас впечатлило количество людей, использующих сайт. Их десятки тысяч, всех профессий.
В заключение - о двух разработках в самой трудной, на мой взгляд, области из всех представленных: это распознавание речи и автоматический перевод. Мой персональный урок от знакомства с этими проектами таков: сверхзадачи, о которых мы продолжаем писать и думать как о великих вызовах и недостижимых рубежах, под шумок перешли в разряд более-менее решенных. В прошлом году мне приходилось писать об этом феномене - все более заметных рыночных нишах, где существующий уровень распознавания речи уже достаточен для той или иной практики. Рынок знает, что задача не имеет решения, но ему нужно ее решать.
Айра Форман (Ira Forman) продемонстрировал мне в действии систему, предназначенную для общения с людьми с ослабленным слухом. Проект называется Jumbo - как пояснил Айра, в честь классического диснеевского персонажа, миссис Джамбо, чье потомство обладало очень большими ушами. Беседа велась - что оживило дело - не с кем-нибудь, а с клоном "Элизы", который Форман прикрутил ко второму концу линии связи. Четко и размеренно выговаривая слова (в аудитории было по-настоящему шумно), он сказал в микрофон: "Я - десяти футов ростом!" Элиза не удивилась:
- Когда вы стали десяти футов ростом?
- Я был десяти футов ростом всю мою жизнь.
- Что значит быть десяти футов ростом?
- Это значит, что я слишком часто ударяюсь головой об потолок.
- Я понимаю, что это значит.
- В самом деле?..
Увы, распознавалка ViaVoice 10.5 была натренирована на Формана, поэтому у меня не было случая испытать ее на себе. Но транскрипт беседы выводился на экран (а Элиза отвечала не голосом, а текстом), и было видно, что хоть и редко, но проскальзывают ошибки (Элизу это не смущало). В этом году Айра планирует перейти на новый айбиэмовский движок, не требующий тренировки на диктора. Он сказал, что с нежностью относится к этой работе и уверен в ее успехе - как минимум в части общения с глухими коллегами в компании. Проект включен во внутреннюю программу освоения новых технологий, готовится к полевым испытаниям, программа реализована как плагин к Lotus Sametime. В общем, все довольно буднично - именно это и впечатляет. Распознавание речи как-то обошлось без официального "прорыва", с речами, тостами и цветами - а вроде бы уже и работает…
В последнем посещенном мною "киоске" (Real-time translation service ) я все-таки поучаствовал в тестировании вот такой связки "речь-речь" (тоже плагина для Sametime): вы говорите по-английски, видите распознанный английский транскрипт, потом - его текстовый перевод на какой-нибудь язык и одновременно слышите перевод на этом языке. В общем и целом - работает, только не надо уж очень умничать. Я со своим "сколько будет трижды пять" вызвал некоторое замешательство на экране при попытке перевода на испанский - которое можно было бы списать на произношение, но не хочется, так как заявлено, что система не требует настройки на диктора. Проводивший демонстрацию Дэвид Бригида (David Brigida) оказался человеком не столько технического, сколько менеджерского профиля и потому давал краткие и содержательные пояснения: например, что сегодня средний уровень ошибок распознавания оценивается где-то в 10%, чего вполне достаточно для подобных приложений. Как выяснилось, именно этот движок использован в англо-арабских разговорниках, которыми снабжают военных в Ираке. "Остановите, пожалуйста, машину!", "Вы выглядите не очень хорошо. Вы больны?" - эти не очень-то случайные фразы Дэвид сумел озвучить по-арабски, хоть и не всегда с первой попытки. А мое "трижды пять" в англо-арабском варианте сработало почему-то лучше, чем в англо-испанском.
В "Азии-3" была замечательная атмосфера: дружелюбная и деловая. Да и вообще на Lotusphere все эти толпы энергичных людей с черно-желтыми рюкзаками за спиной создавали, против ожидания, атмосферу легкости и бодрости. Я благодарен IBM’овским исследователям, дававшим пояснения и помогавшим мне с иллюстрациями.
Айрин, можно ли использовать эти социально-компьютерные инструменты в командах, которые их же и разрабатывают?
- Да, и наш опыт это подтверждает. Некоторые из инструментов тимбилдинга дают людям возможность играть разные роли в команде, и не имеет значения, какая именно деятельность этой командой ведется. Эта общность особенно важна в наше время, когда люди работают над проблемами, требующими самых разных типов знаний, социальных и технических. Умение понимать друг друга, сотрудничать, договариваться становится решающим фактором.
Есть разные идеологии взаимодействия людей в работе, это целая наука. Выбор идеологии диктует принципы работы соответствующего софта.
И наоборот - принципы работы софта будут неявно диктовать идеологию тем группам, которые используют этот софт. Какую же идеологию вы закладываете в cвои инструменты?
- О, я хочу думать, что это весьма свободная идеология, имеющая свободный формат. Мы стремимся к тому, чтобы сделать эти инструменты полностью свободными от всякой идеологии, но, видимо, это недостижимо. В прошлом действительно были попытки применить ту или иную идеологию к взаимодействию людей. Например, идеологию, основанную на теории речевых актов (speech acts). Этот подход разработал в 1980-х Терри Виноград, известный специалист по искусственному интеллекту [Terry Winograd, "A Language/Action Perspective on the Design of Cooperative Work", Human-Computer Interaction, 3:1 (1987-88), 3-30]. Была даже сделана экспериментальная система обмена сообщениями на этой основе. В частности, в ней каждое сообщение должно было быть помечено, согласно теории, как "запрос", "официальный запрос" (institutional request), "информация" и т. п. Это имело какой-то смысл теоретически, но в реальности получилась слишком жесткая, а главное - бескомпромиссная (unforgiving) система, сверхчувствительная к ошибкам. Некоторые ее даже называли - в шутку! - "первой фашистской системой электронной почты", имея в виду тотальную регламентированность. Напротив, большая часть того, что делаем мы, очень неструктурированна. В некотором смысле идеология здесь состоит в том, чтобы продемонстрировать - мы не знаем заранее, что должно получиться. Люди любят участвовать в процессе, но не любят следовать жестким предписаниям.