Как пользоваться библиотекой

Основная цель библиотеки ExactusSemVectors – формировать кросс-языковое векторное представление текстов. Модели были обучены документах Википедии и научных статьях, которые пересекаются по исходящим ссылкам (подробности). Эти модели могут быть использованы для преобразования текстов в векторное представление для их сопоставления или выполнения задач информационного поиска. Подробности того как выполнять преобразование текстов представлены на странице.

Настройка

В случае если вам необходимо настроить модель для иной задачи (например текстовая классификация), и у вас есть подходящий набор данных, то инструкция доступна на этой странице.

Обучение

Если у вас есть обучающие данные, которые отличаются по тематике и лексике (патентные документы, юридические тексты и пр.), то повысить качество моделей можно выполнив обучение на новых данных. В качестве обучающих данных подойдут наборы текстов относящихся к одному топику (похожие документы), наборы параллельных предложений и пр. Для обучения модели следуйте шагам описанным в соответствующей инструкции. Обратите внимание на параметр model.load_params_from, который позволяет дообучить предобученную модель.