Параллельный корпус Организации Объединенных Наций
Параллельный корпус Организации Объединенных Наций (United Nations Parallel Corpus v1.0) составлен из общедоступных текстов официальных отчетов и других документов заседающих органов Организации Объединенных Наций. Почти все эти документы имеются на всех шести официальных языках Организации Объединенных Наций. В текущей версии корпуса использованы материалы Организации за 1990–2014 годы, переведенные и отредактированные специалистами служб письменного перевода и преобразованные в двуязычные («параллельные») тексты с выравниванием на уровне предложений.
Создание корпуса явилось частью усилий, прилагаемых Организацией Объединенных Наций в целях поощрения многоязычия, и было продиктовано все более широким использованием переводческими службами Департамента по делам Генеральной Ассамблеи и конференционному управлению (ДГАКУ) средств статистического машинного перевода (СМП), включая разработанное специально для Организации СМП-приложение Tapta4UN.
Цель корпуса — обеспечить доступ к многоязычным ресурсам, облегчить информационный поиск и ускорить выполнение различных задач обработки текстов на естественном языке, включая машинный перевод. Для удобства пользователя корпус предлагается также в виде готового комплекта двуязычных текстов («битекстов») на заданных языках и в виде собрания («подкорпуса») параллельных текстов, в котором каждый документ представлен на всех шести языках.
При использовании корпуса текстов Организации Объединенных Наций ссылка на Организацию Объединенных Наций как на источник информации обязательна. При упоминании Параллельного корпуса Организации Объединенных Наций просьба ссылаться на: Ziemski, M., Junczys-Dowmunt, M., and Pouliquen, B., (2016), The United Nations Parallel Corpus, Language Resources and Evaluation (LREC’16), Portorož, Slovenia, May 2016.
Дополнительную информацию можно получить, связавшись с нами по адресу: gtext-support@unov.org.
Статистика корпуса
Количественный анализ параллельных текстов в разбивке по языковым парам:
АрАИФРК Ар–111 24118 539 207113 065 18 578 118112 605 18 281 635111 896 18 863 36391 345 15 595 948 А 456 552 223 512 087 009– 123 844 21 911 121149 741 25 805 088133 089 23 239 280 91 028 15 886 041 И 459 383 823 593 671 507590 672 799 678 778 068– 125 098 21 915 504 115 921 19 993 92291 704 15 428 381 Ф 452 833 187 597 651 233 668 518 779 782 912 487674 477 239 688 418 806– 133 510 22 381 41691 613 15 206 689 Р 462 021 954 491 166 055 601 002 317 569 888 234623 230 646 513 100 827691 062 370 557 143 420 – 92 337 16 038 721 К387 968 412 387 931 939 425 562 909 381 371 583493 338 256 382 052 741498 007 502 377 884 885417 366 738 392 372 764–
В ячейках, расположенных выше диагонального ряда пустых клеток, указано количество документов и строк, имеющихся в каждой языковой паре. В ячейках, расположенных ниже диагонали, указано количество лексем («токенов») для каждой языковой пары. При этом в верхней части каждой ячейки указывается число лексем для языка, указанного в заголовке столбца, а в нижней части — число лексем для языка, указанного в заголовке строки. Лексемы были подсчитаны после обработки «битекстов» при помощи лексического анализатора Moses. Тексты на китайском языке были предварительно обработаны в системе Jieba, а затем проанализированы при помощи Moses с использованием стандартных настроек.
Количество документов в корпусе
ВсегоКоличество выровненных пар документов 799 2761 727 539
Подкорпус параллельных текстов для всех языков
ДокументыСтрокиАнглийские лексемы 86 30711 365 709334 953 817
Отказ от ответственности и условия пользования
Пользователь принимает следующий «Отказ от ответственности», являющийся неотъемлемой частью Параллельного корпусa Организации Объединенных Наций (United Nations Parallel Corpus v1.0) (другие ограничения не применяются):
- Параллельный корпус Организации Объединенных Наций публикуется без каких-либо гарантий, явно выраженных или подразумеваемых. Организация Объединенных Наций особо указывает на то, что она не дает никаких гарантий или заверений относительно точности или полноты информации, содержащейся в Корпусе Организации Объединенных Наций.
- Ни при каких обстоятельствах Организация Объединенных Наций не несет ответственности за какие-либо причиненные или понесенные потери, обязательства, вред или ущерб, возникшие якобы в результате использования Корпуса Организации Объединенных Наций. Риск, связанный с использованием Параллельного корпуса Организации Объединенных Наций, ложится исключительно на пользователя. Пользователь прямо подтверждает и соглашается, что Организация Объединенных Наций не несет ответственности за поведение любого пользователя. Если пользователь не удовлетворен материалами, содержащимися в Корпусе Организации Объединенных Наций, то единственное, что он может сделать, — это прекратить пользоваться Корпусом.
- При использовании Корпуса Организации Объединенных Наций ссылка на Организацию Объединенных Наций как на источник информации обязательна. При оформлении библиографической записи просьба указывать следующую публикацию: Ziemski, M., Junczys-Dowmunt, M., and Pouliquen, B., (2016), The United Nations Parallel Corpus, Language Resources and Evaluation (LREC’16), Portorož, Slovenia, May 2016.
- Ничто в настоящих условиях не является и не может считаться ограничением или отказом от привилегий и иммунитетов Организации Объединенных Наций, которые защищены особыми положениями.
Структура и формат файлов
Для каждого языка создается отдельный каталог, внутри которого документы распределяются по подкаталогам по году выпуска, а затем – по условному обозначению публикации. Такая единая для всех языков система организации файлов позволяет без труда определить местонахождение (адрес) документа на языке оригинала в системе и затем отыскать его же в переводе на любой из официальных языков (если таковой имеется), используя аналогичный путь к файлу в каталоге искомого языка.
Для отдельных документов было решено использовать формат TEI Параллельного корпуса документов Европейского союза JRC-Acquis. Документы сохраняют первоначальную структуру деления текста на абзацы (пункты), которые затем автоматически разбиваются на отдельные предложения. Документы, существующие в переводе на несколько языков, соединены с соответствующими файлами для каждой из языковых пар, которых в общей сложности насчитывается не более 15.
В дополнение к пакету, структурированному по принципу «один документ — один файл», мы предлагаем также комплекты битекстов (без форматирования), объединяющие все документы, существующие в заданной языковой паре. Такие комплекты можно практически сразу начинать использовать в процессах «обучения» инструментов СМП.
Наборы данных для тестов и разработки
Официальные комплекты для разработки и тестирования были созданы по всем языковым парам с использованием данных документации 2015 года. Из этих документов методом произвольной выборки было отобрано 100 документов: 50 для разработки и 50 для тестирования. Как и в случае с многоязычным подкорпусом параллельных текстов, каждое предложение в комплектах для тестирования и разработки воспроизводится на всех официальных языках, что позволяет оценивать перевод в любом направлении.
Метаданные документов
Каждому документу, преобразованному в файл в формате XML, в обязательном порядке присваиваются метаданные:
Symbol (Условное обозначение) Каждый документ Организации Объединенных Наций имеет уникальное условное обозначение, которое сохраняется за ним во всех языковых версиях. Условные обозначения состоят из букв и цифр. Некоторые (но не все) элементы условного обозначения несут в себе определенную информацию о документе. Как правило, условное обозначение не отражает тему документа. Translation job number (Номер переводческой работы) Уникальный идентификатор для каждого языка. Publication date (Дата публикации) Дата первоначального опубликования документа под данным условным обозначением, одинакова для всех языков. Она может не совпадать с фактической датой выпуска каждого отдельного документа. Processing place (Место публикации) Это может быть Нью-Йорк, Женева или Вена. Keywords (Ключевые слова) Любые затрагиваемые в документе темы/вопросы, имеющиеся в словаре Системы официальной документации (СОД), который составлен на основе тезауруса Библиографической информационной системы Организации Объединенных Наций.