Интервью
- 27 июня 2018
- выбор редакции
- просмотров 3652
Мир энциклопедий. Из интервью основателя проекта Punto Switcher Сергея Москалёва (на фото) изданию vc.ru.
— Как вы познакомились с основателями «Яндекса» Аркадием Воложем и Ильёй Сегаловичем? — В 1995 году я решил сделать электронную энциклопедию. У меня были четыре тома
энциклопедического словаря Брокгауза и Ефрона, в которых содержалось
44 тысячи статей. Их нужно было оцифровать.
Тогда только-только появилась программа ABBYY FineReader, которая неплохо распознавала текст. Кроме того, мой приятель, который работал в Совете Федерации
1, выбил мне на
две недели сканер от Hewlett-Packard стоимостью
$ 2000.
С помощью сапожного ножа я разрезал словарь и через автоподачу «скормил» его сканеру. У меня получился огромный и очень «грязный» текст.
Понятно, что разработчики FineReader —
Давид Ян и прочие чудесные ребята, сделавшие гениальный продукт, — не могли всё предусмотреть, а особенно дореволюционную орфографию. И поэтому программа интерпретировала многие буквы как современные.
(Например, не распознавала букву ижица «ѵ» и превращала её в латинскую v. То есть слова мѵро, ѵпостась, сѵнодъ — миро, ипостась, синод — превращалось в «мvро», «vпостась», «сvнодъ» — vc.ru). Чтобы исправить ошибки, я написал
несколько сотен макросов. Ночь они молотили документ и исправляли ошибки — компьютеры тогда не так быстро работали.
Я стал делать оболочку для поиска по словам и понял, что у меня есть проблема со склонениями и спряжениями. То есть если пользователь искал слово «люди», то в выдаче отсутствовали такие слова, как «людей», «людям» и так далее.
В 1996 году уже был интернет, и на рынке существовала компания [Аркадия Воложа] Comptek. Она предлагала поисковую систему, которая работала со словоформами на основе словаря
Андрея Зализняка.
Когда электронная версия словаря Брокгауза была готова, им заинтересовалась компания «Новый диск». У неё существовало энциклопедическое направление — и помимо игр она выпускала на CD различные энциклопедии по истории, медицине и так далее.
«Новый диск» купил у меня словарь, а заодно пригласил на работу, и я стал менеджером энциклопедических проектов. Мы решили купить у Comptek систему нормализации поиска для русского языка и поехали в офис.
Тогда ещё не было «Яндекса» как поисковой машины, он существовал в виде надстройки, которая брала запрос пользователя, генерировала слово в словоформах и скармливала его какой-то поисковой машине вроде AltaVista или Lycos, а потом получала результаты и выводила их в своём интерфейсе. У них тоже была проблема — они пользовались чужими результатами.
Мы беседовали с Ильёй [Сегаловичем] и Аркадием [Воложем] по поводу лицензирования их поискового механизма. Они назвали какую-то огромную сумму: чуть ли не по доллару с каждого проданного диска, и у нас что-то не срослось.
В результате мы сделали свою систему поиска по тексту, которая не использовала концепцию Зализняка. Она просто генерировала возможные варианты словоформ по окончанию.
Она оказалась лучше, чем система «Яндекса», потому что не была привязана к конкретным словам и могла работать с топонимами, фамилиями, названиями и так далее. Через полгода похожая система появилась и у «Яндекса».
В 1998 году произошёл кризис, и директор «Нового диска»
Боря Гершуни решил, что энциклопедический отдел — большая роскошь, потому что спрос упал.
И они начали заниматься издательством и дистрибуцией игр. У меня очень тёплые воспоминания о «Новом диске», там собралась очень хорошая команда.
Мир энциклопедий. В конце 1997 года статьи второго издания «Малого энциклопедического словаря»
Ф. А. Брокгауза и
И. А. Ефрона появились в Сети — как проект «Брокгаузъ on-line» на сервере компании «Агама»
2. Интернет-доступ предоставил один из первых крупных интернет-провайдеров России «Ситилайн»
3. На текущий момент ресурс недоступен.
Примечания («Мир энциклопедий»)
Упомянутые персоны, псевдонимы и персонажи