• Фильтр удаления рекламы из почтовых сообщений (естественно, само физическое сообщение остается таким же, просто перед индексированием текст рекламы удаляется, поэтому в индекс он не попадает). Реклама вроде "Do You Yahoo?!", которая вставляется некоторыми почтовыми серверами в конец письма.

• Средство "Извлечение данных". Позволяет из уже проиндексированных текстов извлекать e-mail, веб-адреса, смайлики (включая азиатские, у них они, оказывается, другие, вот, например: *_*, слева и справа глаза, а черточка - это нос, то есть у них они не на боку лежат, а прямо стоят. Вот где проявляется отличие между Востоком и Западом :), ISBN от книг, телефонов и прочее.

10. Средство "Контексты употребления слов". Допустим, мы хотим узнать, в каких фразах у нас используется слово "язык". Для этого вводим запрос:

* язык

и программа показывает фразы из проиндексированных текстов: русский язык, английский язык и т. п. То есть если при обычном поиске мы заранее знаем, какие слова ищем, то при поиске контекстов мы узнаем, какие слова у нас встречаются возле заданного слова или фразы. Можно вводить и более сложные запросы:

*ый *ать *

Например, для LibRu программа по этому запросу выдала такие варианты:

который двадцать лет способный превращать в готовый сделать все

• В настройках индекса есть секция "Разбиение файлов". Это пригодится прежде всего тем пользователям, у которых много Фидо-сообщений, сохраненных в одном объемном файле. Задаем строку разбиения, и Архивариус 3000 сначала разделяет большой текст на части, а затем уже индексирует как отдельные сообщения. В результате работа с такими базами сообщений значительно упрощается.

• Средство "Поиск похожих документов". Позволяет находить как точные копии (совпадение байт в байт либо совпадение с убранными пробелами), так и похожие документы, в текст которых были внесены незначительные изменения (добавили новые слова, убрали или заменили букву в слове).

• Наконец, еще одна возможность - "Поиск литературы". Пока распознаёт только 4400 произведений. Распознаёт имен­но по содержанию. То есть, если мы внесем небольшие изменения в текст, например уберем название или, наоборот, добавим рекламу (пусть даже в середину текста - между абзацами), программа все равно определит, что это Артур Конан Дойль "Пляшущие человечки". Книг, конечно, в мире больше, чем 4400, но потихоньку можно будет и добавить. :)

Думаю, всем понятно, что Архивариус 3000 из поисковой индексной системы эволюционировал в мощнейший аналитический инструмент data mining. Признаюсь, о таком феерическом перевоплощении даже не смел и мечтать! Браво, Евгений!

Мне остается лишь произнести заключительную фразу, которая обретает особый смысл в устах матерого бакунианца: 395 рублей, заплаченных за Архивариус 3000, без малейшего сомнения, станут самой эффективной IT-инвестицией вашей жизни! Не говоря уж о том, что столь смехотворная цена за ТАКОЙ колоссальный инструмент - it’s a steal [Чистое воровство (англ.)]!


Перейти на страницу:
Изменить размер шрифта: