• Фильтр удаления рекламы из почтовых сообщений (естественно, само физическое сообщение остается таким же, просто перед индексированием текст рекламы удаляется, поэтому в индекс он не попадает). Реклама вроде "Do You Yahoo?!", которая вставляется некоторыми почтовыми серверами в конец письма.
• Средство "Извлечение данных". Позволяет из уже проиндексированных текстов извлекать e-mail, веб-адреса, смайлики (включая азиатские, у них они, оказывается, другие, вот, например: *_*, слева и справа глаза, а черточка - это нос, то есть у них они не на боку лежат, а прямо стоят. Вот где проявляется отличие между Востоком и Западом :), ISBN от книг, телефонов и прочее.
10. Средство "Контексты употребления слов". Допустим, мы хотим узнать, в каких фразах у нас используется слово "язык". Для этого вводим запрос:
* язык
и программа показывает фразы из проиндексированных текстов: русский язык, английский язык и т. п. То есть если при обычном поиске мы заранее знаем, какие слова ищем, то при поиске контекстов мы узнаем, какие слова у нас встречаются возле заданного слова или фразы. Можно вводить и более сложные запросы:
*ый *ать *
Например, для LibRu программа по этому запросу выдала такие варианты:
который двадцать лет способный превращать в готовый сделать все
• В настройках индекса есть секция "Разбиение файлов". Это пригодится прежде всего тем пользователям, у которых много Фидо-сообщений, сохраненных в одном объемном файле. Задаем строку разбиения, и Архивариус 3000 сначала разделяет большой текст на части, а затем уже индексирует как отдельные сообщения. В результате работа с такими базами сообщений значительно упрощается.
• Средство "Поиск похожих документов". Позволяет находить как точные копии (совпадение байт в байт либо совпадение с убранными пробелами), так и похожие документы, в текст которых были внесены незначительные изменения (добавили новые слова, убрали или заменили букву в слове).
• Наконец, еще одна возможность - "Поиск литературы". Пока распознаёт только 4400 произведений. Распознаёт именно по содержанию. То есть, если мы внесем небольшие изменения в текст, например уберем название или, наоборот, добавим рекламу (пусть даже в середину текста - между абзацами), программа все равно определит, что это Артур Конан Дойль "Пляшущие человечки". Книг, конечно, в мире больше, чем 4400, но потихоньку можно будет и добавить. :)
Думаю, всем понятно, что Архивариус 3000 из поисковой индексной системы эволюционировал в мощнейший аналитический инструмент data mining. Признаюсь, о таком феерическом перевоплощении даже не смел и мечтать! Браво, Евгений!
Мне остается лишь произнести заключительную фразу, которая обретает особый смысл в устах матерого бакунианца: 395 рублей, заплаченных за Архивариус 3000, без малейшего сомнения, станут самой эффективной IT-инвестицией вашей жизни! Не говоря уж о том, что столь смехотворная цена за ТАКОЙ колоссальный инструмент - it’s a steal [Чистое воровство (англ.)]!