Перейти к содержанию

Справка:Вычитка

Материал из Викитеки — свободной библиотеки

Подготовка

Прежде, чем размещать и вычитывать текст в Викитеке, нужно ответить на три вопроса:

  1. Подходит ли текст для Викитеки? Здесь нельзя размещать оригинальные добавления, рекламу, справочные и некоторые другие материалы. Подробнее см. ВТ:ЧСВ#Что нельзя включать.
  2. Находится ли текст в общественном достоянии? Подробнее см. ВТ:ОД#Общие положения.
  3. Как распознавать текст? Самый удобный для дальнейшей работы вариант — распознать скан книги в программе ABBYY FineReader (коммерческая), сохранить в формате DjVu или PDF с сохранением текстового слоя, и загрузить файл на Викисклад. Как альтернатива, можно использовать встроенный гаджет для распознавания сканов (Настройки — Гаджеты — Редактирование — Google OCR). Однако этот гаджет работает постранично и может быть не активен.

Загрузка файла на Викисклад

Подготовка файла к загрузке

Для удобства в дальнейшей работе переименовываем файл книги в современное название на русском языке. Имя файла можно давать примерно такое: <название книги> (<автор>, <год издания>). Нужно, чтобы имя этого файла не совпало с другой книгой, например того же автора и с тем же названием, но другого года издания или с тем же названием, но другого автора. Должно получиться примерно так: История XIX века. 8 том (Лависс, Рамбо, 1907).djvu. Если это перевод, то так: Название (Автор/Переводчик, Год). До загрузки проверьте порядок страниц в pdf (может сохранится в обратном порядке), чтобы индекс составился правильно.

Загрузка

Страница загрузки файлов (английский вариант)

Чтобы загрузить файл на Викисклад:

  1. Заходим на страницу загрузки файлов.
  2. Нажимаем большую кнопку «Выберите медиафайлы, чтобы поделиться», выбираем нашу книгу. Успешно загруженный файл помечен зелёной галочкой.
  3. Проверяем, действительно ли это та книга, которую мы собирались загрузить. Если ошиблись, нажимаем на ссылку «Удалить». Если всё правильно, нажимаем на кнопку «Продолжить».

Права на публикацию

На следующем шаге вас спрашивают, кто автор этой работы — вы или кто-то другой. Здесь рассматривается наиболее часто встречающийся вариант: «Этот файл не является моим собственным произведением».

  1. В поле «Источник» указываем адрес интернет-сайта, с которого получена книга. (можно оформить шаблоном commons:Template:Citation templates) В поле «Автор(ы)» указываем через запятую авторов (и/или редактора) книги.
  2. Ниже на этой же странице просят указать права на публикацию. Выбираем «Иная причина, не указанная выше» и в открывшемся поле указываем шаблон-лицензию: {{PD-RusEmpire}} (п. 1 ВТ:ОД#Общие положения) или {{PD-Russia}} (п. 2—5 ВТ:ОД#Общие положения). Кнопка «Предпросмотр» справа позволяет проверить, не ошиблись ли мы в написании лицензии. Если всё в порядке, жмём кнопку «Далее».

Описание

Мы попали на страницу «Описание».

  1. Если вы следовали рекомендациям по именованию файла в разделе «Подготовке файла к загрузке», то вам не придётся менять поле «Заголовок».
  2. Поле «Описание». Вводим краткое описание книги или иллюстрации.
  3. Поле «Дата создания». Нас просят указать дату написания произведения или первой публикации. Для указания года нужно нажать иконку с карандашом возле поля ввода.
  4. Поле «Категории». Категории — это механизм поиска на сайтах Фонда Викимедиа. Заключается он в объединении страниц по какому-либо признаку. Например, если мы зайдём в категорию 1908 books from Russia на Викискладе, то мы увидим все книги, изданные в 1908 году. (Заметьте, что категории в Викитеке и на Викискладе — разные). Если вы испытываете трудности с указанием категории, обратитесь за помощью на наш Форум.

Всё сделано, нажимаем кнопку «Далее». Мы загрузили книгу на Викисклад. Теперь необходимо создать индекс

Создание индекса

Поля создаваемого индекса. Скриншот en.wikisource.org
Созданный индекс. Скриншот en.wikisource.org

Индекс — это страница, которая даёт возможность быстрого доступа к любой странице книги для её вычитки и оформления в соответствии с оригинальным сканом.

Чтобы создать индекс, нужно изменить адресную строку на такую: https://ru.wikisource.org/wiki/File:<имя файла нашей книги>. Если всё сделано правильно, вы увидите в левом верхнем углу «Ссылка на страницу индекса». Нажимаем на неё и попадаем на страницу индекса, которого ещё нет. Нажимаем вкладку «Создать» или ссылку внизу «Создать такую страницу» и начинаем создавать индекс.

Поля создаваемого индекса:

  1. Тип — тип документа (книга, сборник, энциклопедия и т.д.)
  2. Состояние. Здесь вычитка и проверка — это названия этапов двухпроходной вычитки. Вычитка — первый этап, проверка — второй. Если наша книга — файл с распознанным текстовым слоем, то ставим состояние «вычитать», в противном случае — «распознать».
  3. Название книги.
  4. Автор. Указывается полностью согласно странице автора в Викитеке, например, Павел Адамович Плеве.
  5. Место издания — Город (можно указывать сокращённое название — М., СПб.(Пб., Пг., Л.), Н. Новгород, Ростов н/Д. Названия всех остальных городов пишутся полностью.)
  6. Источник. Создаётся автоматически и даёт ссылку на файл на Викискладе.
  7. Школа — не заполняем.
  8. Ключ сортировки — не заполняем.
  9. Изображение обложки. Достаточно указать номер страницы файла, на которой расположена обложка.
  10. Список страниц. Создаётся командой <pagelist />. Страницы обложки и титульный лист можно записать так: <pagelist 1="обложка" 2="-" 3="титул" 4=1 /> (здесь первая страница файла — обложка, вторая — пустая, третья — титульный лист, а начиная с четвёртой, страницы нумеруются, начиная с 1). См. примеры: Индекс:Очерки из истории конницы (Плеве, 1889).pdf, Индекс:Russkoe_slovo_1859_11.pdf
  11. Содержание. Сюда желательно записать оглавление книги с номерами страниц для облегчения ориентирования. Удобно оформлять оглавление с помощью шаблона {{Dotted TOC}}. См. те же примеры индексов.
  12. Header. Сюда добавляем строку <div class="text">.
  13. Footer. Сюда добавляем две строки. Первая строка: <!-- -->. Вторая строка: <references /></div>. Теперь на всех вычитываемых страницах абзацы будут отображаться с красной строки, а также будут отображаться примечания, если они есть.

После создания индекса можно переходить к вычитке.

Вычитка текста

Создание страницы индекса. Скриншот en.wikisource.org

Теперь, когда мы создали индекс, необходимо все его страницы вычитать, то есть найти и исправить ошибки.

Создав документ Страница:Название.djvu/Номер страницы или просто нажав на красную ссылку в индексе, можно перейти на соответствующую страницу djvu-файла.

Интерфейс страницы вычитки

Страница вычитки представляется собой несколько полей: справа скан, который можно сохранить как jpg-рисунок, слева — окно редактирования распознанного текста.

Изображение скана

Расположенное справа изображение можно увеличить кликом или колёсиком мышки. Изображение можно двигать удерживая на нём кнопку мышки.

Поля редактирования и колонтитулы

Окна для верхнего и нижнего колонтитулов с добавленными шаблонами (в верхнем — {{rh}}, в нижнем — {{smallrefs}}). Скриншот en.wikisource.org

Страницы вычитки имеет 3 поля редактирования. — Верхний и нижний колонтитул и поле основного текста. Текст из полей колонтитулов игнорируются при трансклюзии в основное пространство, всё написанное отображается только на данной странице. (Фактически, эти колонтитулы представляют собой скрытые теги <noinclude></noinclude>.)

В нижние колонтитулы обычно помещают шаблоны для вывода примечаний ({{примечания2}}, {{примечания ВТ}}). Колонтитулы, по желанию могут соответствовать колонтитулам, как они были изданы в книге — с нумерацией страниц, и т. п. Подобные добавления должны размещаться именно в этих полях, а не в поле основного текста. (Иначе, если разместить их в поле текста, то при включении текста в основное пространство, при склейке страниц, все колонтитулы окажутся посреди абзацев, что является грубой ошибкой.)

Для выравнивания текста колонтитулов рекомендуется использовать шаблон {{колонтитул}}.

В панели редактирования есть вкладка «Инструменты корректора», на которой первая кнопка позволяет открыть/скрыть поля верхнего и нижнего колонтитулов. На странице индекса есть предустановки для этих полей для всего издания, см. Справка:Индекс#Стили и колонтитулы страниц.

Распознавание текста

В Викитеке недавно была добавлена возможность распознавания текста. См. в панели редактирования, в правой части кнопку «Расшифровать текст»[1]. Также при желании можно использовать стороннюю программу распознавания (см. Справка:Оцифровка), и затем попросить ботоводов загрузить распознанный текст книги.

Нужно попытаться при переводе книги из изображения в текстовую форму в точности передать текст так, как он приведён в данном издании книги. Не нужно ничего менять, от себя не нужно ничего добавлять (кроме редакторских примечаний) и удалять из текста.

Викитека не претендует на полное сохранение оформления текстов (размер и гарнитура шрифта, точное положение на странице и т. п.). Достаточно разумного приближения к этому оформлению с обязательным сохранением самого текста в полном объёме (за исключением номеров страниц и типографских пометок).

Автоматическое извлечение текстового слоя

Форматы pdf и djvu могут содержать текстовый слой. В Викитеке реализовано и работает автоматическое извлечение текстового слоя для форматов djvu и pdf — он появится при первом редактировании страницы.

Инструменты для комфортной вычитки

  • Программа распознавания, бывает, неверно распознаёт некоторые символы и ставит вместо правильных — похожие (такие, например, как ноль и буква О, латинская цифра I и кириллическая буква І и тому подобные). Чтобы разница между этими похожими символами была более заметна, можно установить и использовать при вычитке бесплатный шрифт OCRA. Скачать его можно по ссылке ocr-0.2.zip. В этом архиве много файлов, среди них нужно найти OCRA.ttf (либо OCRA.otf, если в вашей системе используются не TrueType, а OpenType шрифты) и установить. Необходимо также настроить браузер, чтобы он использовал этот шрифт в полях ввода. Для Firefox версии 39.0: Инструменты-Настройки-Содержимое-Шрифт по умолчанию (кнопка Дополнительно)-Кириллица-Моноширинный.
  • Если вы будете вычитывать дореформенный текст, вам понадобится вводить дореформенные буквы, которых нет в современном русском языке, а следовательно — на клавиатуре. Удобнее всего это делать с помощью раскладки клавиатуры Ильи Бирмана.
  • Вставлять различные часто встречающиеся последовательности символов (такие, например, как <div class="text"> и другие) удобно при помощи программы, например, CLCL, ClipX, Clipdiary и т. п.
  • При переводе из дореформенной орфографии в современную контролировать правильность расстановки запятых поможет сайт Словарь-справочник по пунктуации на Академике. (Однако, если вы не филолог, в некоторых текстах вам вряд ли удастся самостоятельно правильно расставить знаки препинания — лучше найти книгу в современной орфографии, выпущенную после 1956 года, и сверяться с ней.) Ещё полезные сайты: Грамота.ру (орфография и пунктуация), Викисловарь (орфография), Запятание.

Опечатки

Опечатки оформляются с помощью шаблонов {{опечатка}} и {{опечатка2}}.

  • Шаблон {{опечатка}} с параметром О1 — применяется для очевидных опечаток. Рекомендуется пользоваться этим шаблоном только в случае, когда текст из книги невозможно ввести, например, когда буква перевёрнута или сильно смещена по вертикали. Более широкое использование этого шаблона может привести к ошибкам, таким как в словах «милионъ» или «принцеса» (в том и другом случае не опечатка).
  • Опечатки, указанные в списке опечаток, оформляются так: {{опечатка|<правильный текст>|О2}}.
  • Опечатки, которые исправлены по другому изданию или по оригиналу, с которого сделан перевод, оформляются с помощью {{опечатка|<правильный текст>|О3}}.
  • В остальных случаях опечатку можно оформлять с помощью шаблона {{опечатка2}} в такой форме: {{опечатка2|<неправильный текст>|<правильный текст>}}.

Часто бывает, что сканы некачественные, знаки препинания и буквы плохо видны либо совсем пропадают. Оформляйте как опечатку, только если она хорошо различима.

Переносы слов на следующую страницу

Удобнее всего использовать шаблоны {{Перенос}} и {{Перенос2}} (на следующей странице). Если в слове есть дефис и перенос пришёлся как раз на него, то оформляется так: {{Перенос|кое-|как|дефис=}} и {{Перенос2|кое-|как}}. Пример переноса слова, которое не содержит дефиса.

Абзац в начале страницы

Неверное отображение абзаца в готовой книге в основном пространстве происходит, когда страница начинается с нового абзаца. В этом случае надо в самом начале страницы добавить отдельную строку, поставив на ней шаблон {{nop}} или тег <nowiki></nowiki> (кнопка Ignore wiki formatting в панели редактирования). Также можно просто поставить две пустые строки, но они могут быть удалены викификатором или ботом.

Примечания

Создание примечаний в тексте в русской Викитеке. Видеоурок

Примечания оформляются с помощью <ref>Текст примечания</ref> (см. внизу страницы редактирования раздел Заголовки и сноски). Номера примечаний указывать не нужно, они будут проставлены автоматически.

В случае, если примечания начинаются на одной странице, а заканчиваются на другой, применяются примечания с именем:

  • На первой странице: <ref name="имя примечания">Текст примечания</ref>.
  • На второй странице: <ref follow="то же самое имя">Продолжение примечания</ref>.

Имя для примечания можно выбрать любое, лишь бы оно начиналось с буквы и не повторялось внутри книги (или главы, если текст разбит на главы). Пример: страница начала примечания, страница окончания примечания, результат.

Примечания внутри примечаний (многоуровневые примечания) оформляются с помощью шаблона {{ref+}}.

Разрядка

Разрядка широко использовалась в дореформенных текстах. Для оформления разряженного текста пользуйтесь шаблонами {{razr}} и {{razr2}} (второй, если после слова — знак препинания). В современных текстах разрядку чаще всего заменяют выделением курсивом.

Иллюстрации

Лучше оформлять изображения с помощью шаблона {{inline float}}. Пример. Оформление способом, описанным в справке Википедии, выглядит чуть менее красиво.

Дореформенная орфография

Если книга была изначально напечатана в дореформенной орфографии, то вариант в дореформенной орфографии — основной: он идентичен подлиннику.

  • В дореформенных текстах применялись два вида ударения: акут и гравис. В современных текстах применяется только акут. Поэтому гравис (если ударение необходимо), следует заменять на акут. В дореформенных текстах ударением обозначается местоимение «что́» в именительном или винительном падеже для отличия от сходного с ним союза «что»: — Мнѣ все равно, что́ скрыто тамъ на днѣ. В современных текстах ударение в этом случае чаще всего не ставится.
  • Кавычками начинались все строки многострочной цитаты (эта традиция имеет древнюю историю). В современных текстах кавычками в таких случаях помечаются только начало и конец цитаты.

Перевод в современную орфографию

Для многих современных читателей чтение текста в дореформенной орфографии является некомфортным. Поэтому допускается сделать одновременно и вариант в современной орфографии (если чувствуете, что вы достаточно квалифицированны).

Рекомендуется пользоваться шаблоном {{ВАР}}. — На каждой странице можно записать текст и в старой, и в новой орфографии (см. пример), а потом при создании страницы в основном пространстве имён будет автоматически выбран подходящий вариант в зависимости от того, имеется ли суффикс ДО («дореформенная орфография») или нет. Внутри шаблона нельзя использовать знаки «=» и «|» — текст не будет отображаться, необходимо заменять эти знаки на шаблоны {{=}} и {{!}} соответственно.

«Черновую» работу по конвертации орфографии выполнит деятификатор — кнопка на панели с изображением ѣ→е (чтобы она была видна, её нужно включить в настройках (Гаджеты — Редактирование — Деятификатор).

Затем необходимо проверить переведённый текст и исправить то, что деятификатору сделать не под силу.

  • Окончания « -ею», « -ою» сохраняется (в том числе в таких словах, как «репетициею»).
  • Ёфицировать современный вариант или нет — решать вам. В Викитеке можно размещать и тот, и другой вариант. Это касается только случая, когда вы переводите текст из дореформенной орфографии в современную сами. Современные тексты, имеющие источник, публикуются «как есть». Ёфикация выполняется с помощью шаблонов {{ё}} и {{ё!}}. Это позволит сделать два варианта готового текста — один ёфицированный, другой нет.
  • В современных текстах разрядка используется редко (например, в примечании), её заменяют на другие способы выделения. Обычно редакторы в издательствах заменяют разрядку на курсив.
  • Рекомендуется прочитать Правила издания исторических документов в СССР (прежде всего, пункты 4.2.2 и 4.2.3) и следовать им.
  • Когда текст переводится в современную орфографию, то также переводится в современную и пунктуация. В дореформенных текстах последняя зачастую заметно отличается от современной.

Секции

Используются, когда нужно показать в готовой книге не всю страницу, а только её часть. У каждой секции на странице — своё имя. Простой способ именования — дать секции в качестве имени порядковый номер. Это не только ускоряет оформление вычитываемой страницы, но и упрощает в дальнейшем сборку готовой книги. Альтернативный способ — давать секции имя, соответствующее по смыслу (например, <section begin="Глава III" /> для третьей главы). Вот как выглядит применение секций с использованием первого способа, если на странице заканчивается Глава III и начинается Глава IV:

<section begin="1" />Здесь конец третьей главы<section end="1" />

<section begin="2" />А здесь начало четвёртой главы<section end="2" />

или можно так (используя второй способ):

<section begin="Глава III" />Здесь конец третьей главы<section end="Глава III" />

<section begin="Глава IV" />Здесь начало четвёртой главы<section end="Глава IV" />

Шаблон {{ВАР}} должен находится внутри секции (конечно, если она нужна). Пример.

Статус вычитки страницы

Кнопки для изменения статуса страницы. Скриншот en.wikisource.org
Кнопки для изменения статуса страницы (с кнопкой выбора статуса «проверена», отображается у всех участников кроме создавшего страницу). Скриншот en.wikisource.org
Созданная страница индекса (со статусом «вычитана»). Скриншот en.wikisource.org

После редактирования страницы нужно установить для нее статус вычитки.

Устанавливаются четыре статуса вычитки:

Без текста
пустая страница Не вычитана Вычитана Проверена
Проблемная

Последний уровень вычитки (Проверена) можно установить только для страниц, которые уже имеют статус Вычитана, причём установить его может только другой редактор. Таким образом, этот статус требует работы над текстом не менее двух участников.

Все страницы по степени вычитки упорядочены в Категория:Статусы вычитки страниц.

Включение вычитанного текста в основное пространство

Для начала небольшое объяснение:

  • Имена тех страниц, на которых производится вычитка, начинаются со слова «Страница» и находятся в особом пространстве имён — пространстве «Страница».
  • Страницы, на которых должен быть расположен готовый к чтению текст, находятся в «основном пространстве имён» (или пространстве «Статья»).

Наша цель — собрать (дословный перевод с английского -- включить) отдельные страницы, вычитанные в пространстве «Страница», и показать в основном пространстве (это может быть, например, глава в книге).

Именование статьи

Именование статей (страниц основного пространства) производится согласно ВТ:НС. В строке поиска (в правом верхнем углу — Искать в Викитеке) вводим название создаваемой статьи. Если статья с таким названием уже существует, она будет показана. Похоже, вся наша работа была выполнена зря: кто-то раньше уже создал такой текст. Нужно проверять это до начала работы. Если же статья не найдена, то нажимаем на красную ссылку после слов «Создать страницу».

Информация о тексте

В начале статьи с помощью шаблона {{Отексте}} помещается общая информация о включаемом тексте.

Способы заполнения шаблона {{Отексте}} см. в документации шаблона. В графе ИСТОЧНИК можно дать ссылку на индекс с помощью шаблона {{Источник}}: |ИСТОЧНИК={{Источник|Имя файла с расширением}}.

Включение текста из индекса в статью

Наименее трудозатратный способ:

<div class="text">
<pages index="Н. В. Гоголь. Речи, посвященные его памяти... С.-Петербург 1902.djvu" from=7 to=25/>
</div>

Рассмотрим параметры команды <pages /> (подробнее см. Справка:Включение#pages):

from=<номер той страницы из индекса, начиная с которой нужно включить Страницы в готовый текст>

to=<номер последней страницы индекса, которую нужно включить в готовый текст>

fromsection=<имя нужной секции на странице "from"> (не используется, если на странице нет секций)

tosection=<имя нужной секции на странице "to"> (не используется, если на странице нет секций)

Пример: <pages index="Скряга Скрудж (Диккенс Мей 1898).djvu" from=51 to=66 fromsection=3 tosection=3 /> (см. Скряга Скрудж (Диккенс Мей 1898)/Третья строфа/ДО)

В сложных случаях, когда необходимо собрать текст из разрозненных страниц, используется шаблон {{Страница}} (пример: Джон Ячменное Зерно (Бёрнс; Михайлов)/ДО).

Шаблон лицензии

Подробнее см. Справка:Шаблоны#Авторские права.

Категории

Подробнее см. Справка:Категории.

См. также

  1. Документация гаджета Wikimedia OCR.