Аслан Кудзаев – хранитель цифрового фонда

Интернет расширяет аудиторию осетинской книги

Энтузиаст из Северной Осетии Аслан Кудзаев почти двадцать лет оцифровывает осетинские книги, журналы и газеты. Его виртуальная библиотека «Бæрзæфцæг» насчитывает более пяти тысяч файлов и восемнадцать тысяч подписчиков. Без грантов и штатных сотрудников, на обычном офисном сканере он создаёт цифровой фонд, которым пользуются читатели по обе стороны хребта, а преобразованные в электронный формат тексты уже помогают обучать нейросети осетинскому языку.

В интервью газете «ЮО» Аслан Кудзаев рассказал о том, как устроена оцифровка, каких книг не хватает в открытом доступе и почему цифровой архив важен для языка.

– Аслан, как возникла идея создания цифрового фонда?

– Идея перевести осетинские книги в цифру пришла не сразу. В далеком 2007 году оцифровал несколько книг и хотел, чтобы больше людей могли прочитать их в интернете. Первой стал сборник статей публициста Анзора Хачирти об осетинском языке – я отправил файл Юрию Дряеву, который вёл тогда довольно известный сайт allingvo.ru. Мне показалось это важным: бумажная книга не до всех дойдёт, а интернет значительно расширяет аудиторию. Юрий опубликовал её. Позже мои оцифровки появлялись и на сайте ironau.ru Вячеслава Иванова.

А вот замысел создать именно виртуальную библиотеку с системным подходом, возник позже. В 2012 году во «ВКонтакте» наткнулся на группу «Бæрзæфцæг», которую создали Коста Демеев и Батраз Мисиков. Я предложил им публиковать книги на осетинском языке. Они согласились и сделали меня одним из администраторов. Так я стал оцифровывать и выкладывать книги. Читателям это понравилось, группа набрала популярность – сейчас в ней уже около тринадцати тысяч подписчиков.

– Вашему проекту почти двадцать лет. Когда вы начинали, могли ли представить, что это станет делом всей жизни? Как изменился масштаб?

– Нет, конечно. Это было просто увлечение, желание сделать что-то полезное. Сейчас я очень рад, что моё хобби оказалось важным и нужным для многих – это невероятно мотивирует.

Масштаб изменился кардинально. Поначалу я оцифровывал отдельные издания и делился ими через чужие электронные площадки, а сейчас это системный проект с огромной аудиторией. Расширился и тематический охват – мы оцифровываем не только книги на осетинском языке, но и издания по осетинской тематике на любом другом языке. Есть немало материалов, посвящённых общекавказским темам – в основном этнографии и истории. Проект стал гораздо более сложным и многогранным, чем я мог вообразить в самом начале.

– Сколько книг на сегодняшний день оцифровано и опубликовано в «Бæрзæфцæг» («Крестовый перевал»)?

– Сложно назвать точное количество оцифрованного материала. Учёт не веду -хотя, возможно, стоило изначально это делать. Но, начиная это дело, я никак не думал, что он станет таким масштабным проектом. По крайней мере, файлов у меня более пяти тысяч. Это не только книги, но и журналы, и даже газеты.

– Почему библиотека называется именно «Бæрзæфцæг»? Есть ли за этим названием символический смысл?

– Как я уже упомянул, группу (паблик) «ВКонтакте» примерно в 2012 году создал не я, и цель у неё была не оцифровка книг, а публикация небольших текстов (цитат, пословиц) и фотографий, связанных с Осетией. Один из создателей группы – родом из села, расположенного недалеко от Крестового перевала — Бæрзæфцæг. И он решил так назвать группу.

– Вы создаёте для книг так называемый «текстовый слой», что позволяет копировать содержание. Расскажите подробнее, как устроен процесс оцифровки одной книги – от момента, когда она попадает вам в руки, до публикации. Сколько времени уходит на одну книгу?

– Да, даже если это не «чистый» текстовый формат вроде DOC (Word,) а DJVU или PDF, я обязательно создаю текстовый слой. Тогда текст можно копировать, и, что немаловажно, в файле работает поиск, то есть, по ключевому слову, фразе читатель моментально найдёт нужный фрагмент.

Процесс устроен просто. Сначала книгу сканирую, потом в специальных программах обрабатываю сканы (улучшаю качество),затем собираю в единый файл (DJVU или PDF). Отдельно создаю текстовый слой (в виде обычного текстового файла), потом DJVU и текст соединяю.

Времени на книгу может уходить очень много – это зависит от многих факторов.

Во-первых, у меня обычный офисный принтер, то есть сканирует он медленно. Это не высокоскоростные устройства, которые используют во многих крупных библиотеках.

Во-вторых, если книга сложно оформлена (много фотографий и другого графического материала), сканы быстро не обработаешь.

В-третьих, бывает мало свободного времени, ведь это не моя основная работа. Поэтому работа над оцифровкой книги может длиться долго. Сейчас я занимаюсь оцифровкой книги, которую сканировал в 2022 году. Это не значит, что все эти годы я занимался только ею. Время от времени я к ней возвращался. Просто книга старая, качество печати оставляет желать лучшего и возни с ней много.

– В осетинском сегменте интернета говорят, что благодаря вашей работе «нейросети скоро заговорят по-осетински». Насколько это реально?

– «Благодаря моей работе» -это слишком громко сказано. Обучением нейросетей, понимающих осетинский язык, занимаются профессионалы, находящиеся как в Осетии, так и в других регионах РФ. В работе им нужны осетинские тексты (и чем больше их будет, тем лучше), так что проект «Бæрзæфцæг» в этом смысле вносит свою лепту в эту важную работу.

– Аслан, помимо оцифровки книг, Вы создали инструмент-сервис для автоматической проверки осетинской орфографии. Расскажите, как родилась эта идея и как устроен этот сервис?

– Все мы знаем, как удобно иметь функцию проверки правописания в текстовых редакторах или браузерах. С этими «незаметными помощниками» при работе с русским языком сталкивался каждый. Однако для осетинского языка такой возможности долгое время не было. Поскольку я постоянно работаю с текстами на осетинском языке – мысль о необходимости подобного инструмента возникла давно. Хотя, признаюсь, изначально не предполагал, что возьмусь за его реализацию самостоятельно.

Такие инструменты созданы не только для крупных языков вроде русского или татарского, но и для малых: марийского, удмуртского. Среди языков Северного Кавказа нашёл систему проверки орфографии для кабардинского, а вот для осетинского аналогов не было.

Я составил словарь осетинских словоформ по стандарту Hunspell -это одна из самых распространённых систем проверки орфографии в мире. Изначально её создал венгерский энтузиаст для своего родного языка, но позже она стала универсальной.

Сейчас сервис доступен для проверки орфографии в программе LibreOffice -это бесплатный аналог известного текстового редактора MS Word. Также, чтобы сервис был максимально доступным и работал в виде интернет-страницы, требовался специальный скрипт. Эту работу безвозмездно выполнил программист из Москвы, уроженец Северной Осетии, который пожелал остаться анонимным.

Площадку для сервиса предоставил известный сайт ironau.ru Вячеслава Иванова. На странице www.ironau.ru/orfo (http://www.ironau.ru/orfo) можно не только проверить правописание, но и автоматически исправить технические символы на классические апострофы (например, превратить «ме ‘мбал» в корректное «ме ‘мбал»), сохранить результат в текстовый файл или скопировать в буфер обмена. Важно отметить, что сервис безопасен: данные пользователей не передаются на сервер, весь процесс обработки текста происходит прямо в браузере. Там же на ironau.ru можно скачать модуль сервиса для LibreOffice.

Работа над словарём продолжается, он будет постоянно дополняться. Словари стандарта Hunspell можно интегрировать в настройки многих текстовых редакторов, что открывает новые возможности для комфортного использования осетинского языка в цифровой среде. Сегодня у нас уже есть осетинские интерфейсы во «ВКонтакте», Telegram и Википедии, а теперь появилась и полноценная проверка орфографии.

– В одном из ваших интервью вы отмечали, что книги, изданные в Южной Осетии, редко доходят до Северной Осетии. Изменилась ли ситуация? Сколько югоосетинских изданий удалось оцифровать?

– Да, книги из Южной Осетии не часто доходят до Севера. И в библиотеках Владикавказа, и в книжных магазинах нет всего ассортимента изданий, к сожалению. Но они есть, и есть книги советского времени. Их я оцифровал довольно много. Кстати, книга, которую я так долго (с 2022 года) оцифровываю, в своё время была издана как раз в Южной Осетии, в далёком 1961 году. Это роман известного осетинского писателя Тотырбека Джатиева «Хæххон стъалы».

– Есть ли среди ваших подписчиков и помощников люди из Южной Осетии?

– Подписчики, конечно, есть. Есть и люди, которые помогают. В последние годы из Южной Осетии мне стали присылать книги разных лет издания, которые я не нашёл во владикавказских библиотеках.

– Вы работаете на чистом энтузиазме. Получали ли когда-нибудь поддержку от государственных структур, грантовых организаций? Откликаются ли люди на призывы о пожертвованиях? Хватает ли средств хотя бы на техническое обеспечение?

– В начале этого года был сбор донатов среди наших подписчиков в «ВКонтакте» и Telegram. Техническое обеспечение – это мой компьютер и сканер. Они пока работают.

– Что бы вы хотели сказать читателям газеты «Южная Осетия»?

– Читайте книги осетинских авторов. А «Бæрзæфцæг» вам в этом поможет.
https://vk.com/barzafcag — «ВКонтакте», https://t.me/barzafcag1 — Telegram.

Диана КАБАНОВА