Кракозябры в pdf как исправить

Даны pdf-файл, сделаны latex+dvips+ps2pdf, исходник утеряны или скрыты создателями :)
Если в adobe pdf reader выделить текст и скопировать куда-нибудь, скопируются крякозябры, например «Ñòîõàñòè÷åñêèé».
Вследствие плохой кодировки не работает, например поиск по файлу.
Для некоторых из имеющихся файлов помогает использование foxit вместо adobe для поиска, но хочется, чтобы любой ридер мог читать. Требуется, видимо, изменить кодировку чего-то внутри (или вне?) pdf. Порылся в интернетах, ничего полезного не нашёл, хотя проблема, вроде, не редкая. Посоветуйте какой-нибудь софт или последовательность действий, чтобы это исправить. Операционная система любая.


  • Вопрос задан

    более трёх лет назад

  • 201165 просмотров

При печати pdf файла на принтере печатаются иероглифы или как говорили мои бухгалтера на старой работе “Виталий подойди у нас при печати pdf абракадабра распечатывается “. Сегодня на работе возникла такая же фигня и т.к. я стараюсь в своем блоге описывать по максимуму решения таких проблем и решил выложить инструкцию по исправлению  иероглифов в pdf файлах. Так вот эту проблему можно решить тремя способами(может есть и еще но я опишу те какие знаю 🙂 ).

иероглифы в pdf

1 Способ

Это самый надежный и проверенный временем способ!!

  1.  Открыть редактор реестра (Пуск -> Выполнить -> regedit.exe)
  2.  Перейти в
    HKEY_LOCAL_MACHINESOFTWAREMicrosoftWindows NTCurrentVersionFontSubstitutes
  3. Удалить параметры: «Courier,0»=”Courier New,204″
    «Arial,0»=”Arial,204″
  4. Перезагрузить ПК

PS перезагрузить комп нужно обязательно!!!

2 Способ

Самый долгий наверное из всех трех способ, это скачать русифицированную версию самого adobe reader:

  • Скачать последнюю версию adobe reader с официального сайта http://get.adobe.com/ru/reader/
  • После этого открываем фаил и радуемся жизни

2 Способ

Так вот первый способ самый быстрый но и самый не качественный в плане разрешения распечатывающегося документа:

  • При печати документа зайдите в дополнительно и выберите печать как изображения (File – print -advanced – галочка print as image)

    4 Способ

Этот способ самый действенный и кардинальный т.к. решение данного косяка будет осуществлен на уровне реестра windows:

  • Скачать adobe reader (это важно на будущее потому как лучше иметь последнюю версию данной программы)
  • Создаем reg фаил и вносим в него следующие строки, после чего запускаем, соглашаемся со всем что он скажет и перезагружаем комп.
Windows Registry Editor Version 5.00

[HKEY_LOCAL_MACHINESYSTEMCurrentControlSetControlNlsCodePage]
"1250"="c_1251.nls"
"1251"="c_1251.nls"
"1252"="c_1251.nls"
"1253"="c_1251.nls"
"1254"="c_1251.nls"
"1255"="c_1251.nls"

[HKEY_LOCAL_MACHINESOFTWAREMicrosoftWindows NTCurrentVersionFontMapper]
"ARIAL"=dword:000000cc

[HKEY_LOCAL_MACHINESOFTWAREMicrosoftWindows NTCurrentVersionFontSubstitutes]
"Arial,0"="Arial,204"
"Arial Cyr,0"="Arial,204"
"Comic Sans MS,0"="Comic Sans MS,204"
"Courier,0"="Courier New,204"
"Courier,204"="Courier New,204"
"Courier New Cyr,0"="Courier New,204"
"Fixedsys,0"="Fixedsys,204"
"Helv,0"="MS Sans Serif,204"
"MS Sans Serif,0"="MS Sans Serif,204"
"MS Serif,0"="MS Serif,204"
"Small Fonts,0"="Small Fonts,204"
"System,0"="Arial,204"
"Tahoma,0"="Tahoma,204"
"Times New Roman,0"="Times New Roman,204"
"Times New Roman Cyr,0"="Times New Roman,204"
"Tms Rmn,0"="MS Serif,204"
"Verdana,0"="Verdana,204"
 Вот и все!!! :-) таким образом мы научились исправлять иероглифы при печати pdf документа. Всем спасибо за внимание.

иероглифы в pdf, pdf печатает иероглифы, в pdf кракозябры, иероглифы в пдф, в pdf вместо букв иероглифы, pdf печатается иероглифами, принтер печатает иероглифы pdf, при печати из pdf иероглифы, пдф печатает иероглифы, копирую из pdf иероглифы, копируются иероглифы из pdf, почему pdf печатает иероглифы, файл pdf печатает иероглифы, кракозябры при печати pdf, при распечатке pdf иероглифы, в файле pdf иероглифы, pdf распечатывается иероглифами, почему пдф печатает иероглифы, pdf печатает кракозябры

I fear I must disagree. There is no case in which a PDF contains (page) text to be shown in the «default’s system language» even though some applications might interpret ANSI that way. PDF is much more strictly defined by that, though it can be set up to use system fonts, it does not use system encoding (unless the fonts are really weird).

What it means is that the font’s encoding (mapping from character numbers to characters to show) happens to match ANSI.

This, it seems to me, is a problem since what PDF means by ANSI doesn’t include any Russian characters.

I have a couple of ideas:

1. There are OTHER fonts in the PDF further down the list.

2. The creator of the PDF wrongly used a Russian font without marking it as having a Russian encoding AND some other software wrongly picks this up and displays as expected. This is perhaps stretching a point.

It would be interesting to see more of the font list, even more interesting to see the PDF.

  • #1

Добрый день!
Работаю с пдф-файлами довольно долго — делаю электронные издания из издательских оригинал-макетов. В старых книгах часто встречается текст в кодировке, при копировании которой получается «кракозябра». Говорить о том, что в данном случае не работает поиск по файлу, не приходится.
На файлообменнике выложил пример такого файла.
Проблема, для решения которой создал эту тему, заключается в следующем: для того, чтобы исправить кодировку (неважно Акробатом или другими средствами типа FineReader) я произвожу

целых 3 этапа

:

  1. Перевожу файл в растровый формат (png), получается множество png-файлов, равное количеству страниц исходного файла
  2. Объединяю файлы (страницы) обратно в единый pdf, таким образом получая тот же файл, что и вначале, только без распознанного текста
  3. Запускаю распознавание текста с технологией ClearScan

После этих манипуляций из книги получается что-то приличное, хотя как работает распознавание текста, думаю, не надо объяснять. Мягко говоря, не всегда распознается так, как должно. Если языков в файле несколько, то вообще беда. Плюсом ко всему вышеописанному стоит понимать, что книги содержат иногда по 500, а то и больше, страниц. И на каждый этап уходит довольно немало времени.
Итак, вопрос: знает ли кто-нибудь более изящный способ (меньшим количеством действий и усилий) как исправлять в pdf-файлах кодировку текста?
Буду очень признателен, если поделитесь опытом!

_MBK_

_MBK_

Пикирующий бомбардировщик


  • #2

Вот к чему приводит неумение и нежелание пользоваться поиском по форуму.
Поищите «обязательный экземпляр» — огромный топик даже имеющий собственный FAQ
В двух словах: проблема сложна однокликового решения нет

  • #3

Вот к чему приводит неумение и нежелание пользоваться поиском по форуму.
Поищите «обязательный экземпляр» — огромный топик даже имеющий собственный FAQ
В двух словах: проблема сложна однокликового решения нет

Видимо, действительно не умею пользоваться поиском, т.к. причем тут «обязательный экземпляр» не понимаю… Искал по слову «кодировка».

AM Labs

AM Labs

Enfocus | Tilia Labs | ColorLogic | Callas


  • #5

  • Безымянный.png

    Безымянный.png

    262.8 КБ

    · Просм.: 1 282

AM Labs

AM Labs

Enfocus | Tilia Labs | ColorLogic | Callas


  • #6

Тогда вам стоит уточнить что такое «делаю электронные издания». Я понял это как создание файла совместимого со стандартом PDF/A для электронной версии РГБ или РКП.

_MBK_

_MBK_

Пикирующий бомбардировщик


  • #7

Видимо, действительно не умею пользоваться поиском, т.к. причем тут «обязательный экземпляр» не понимаю… Искал по слову «кодировка».

Это как я понимаю риторический вопрос не ко мне а к руководству РГБ?
Вы и вправду странно ищете большая часть выдачи по запросу кодировка ведет сюда

  • #8

Это как я понимаю риторический вопрос не ко мне а к руководству РГБ?
Вы и вправду странно ищете большая часть выдачи по запросу кодировка ведет сюда

Сейчас понял, что поиск, оказывается, корректно работает только если целиком набирать слово. Я набирал «кодировк», предполагая, что при этом искомое слово найдется во всех падежах. Спасибо за замечание!

_MBK_

_MBK_

Пикирующий бомбардировщик


  • #9

Странно, что вас совершенно не смутило, что такой запрос не нашел абсолютно ничего '))'

  • #10

Тогда вам стоит уточнить что такое «делаю электронные издания». Я понял это как создание файла совместимого со стандартом PDF/A для электронной версии РГБ или РКП.

Да, сорри, не уточнил — я занимаюсь подготовкой эл. изданий в соответствии с ГОСТ 7.0.83-2013. Электронные издания. Основные виды и выходные сведения.

  • #11

Странно, что вас совершенно не смутило, что такой запрос не нашел абсолютно ничего '))'

Как Вы могли заметить, я первый день на этом форуме и не имею представления о его масштабах и специфике обсуждаемых тем. Так что нет, не смутило 'opa!)'

_MBK_

_MBK_

Пикирующий бомбардировщик


  • #12

Ну что ж, велкам! Осваивайте поиск и 90% вопросов отпадут сами собой ;)

_MBK_

_MBK_

Пикирующий бомбардировщик


  • #14

Да. В начале приложен краткий дайджест топика в виде отдельного FAQ

german


  • #15

Итак, вопрос: знает ли кто-нибудь более изящный способ (меньшим количеством действий и усилий) как исправлять в pdf-файлах кодировку текста?

Можно так:
1. Запустить в Акробате fixup: convert text to outline (если есть полноценный Акробат, не Ридер).
2. Запустить распознавание.

  • 2020-04-23_22-41-27.png

    2020-04-23_22-41-27.png

    20.5 КБ

    · Просм.: 562

George

George

I wish I was a monster you think I am


  • #16

и хороших, стабильных решений по этой теме пока нет.

Они есть, но для каждого случая индивидуальный подход. Так Вам это для РГБ, или у Вас своя задача для создания псевдонормального epub?

  • #17

Можно так:
1. Запустить в Акробате fixup: convert text to outline (если есть полноценный Акробат, не Ридер).
2. Запустить распознавание.

А можно ссылку на утилиту, скриншот из которой Вы прислали? Или это интерфейс акробата? (по скриншоту не могу понять)

  • #18

Они есть, но для каждого случая индивидуальный подход. Так Вам это для РГБ, или у Вас своя задача для создания псевдонормального epub?

Ни для того, ни для другого)
Термин «Электронная книга» сейчас имеет очень много смыслов. Соответственно, и в издательской среде к понятию «электронного издания» относятся по-разному. Прошу прощения за лирику… Дальше речь только про формат PDF.

  • Некоторые издательства продают прямо оригинал-макеты (без правок и даже минимальной обработки).
  • Есть такие, кто продает так называемые «копии печатных изданий» — это тот же оригинал-макет, только уже с небольшой адаптацией под читателя, иногда даже с навигационным меню.
  • Третий вид составляют издательства, которые серьезно относятся к подготовке эл. изданий, т.е. делают из оригинал-макетов полноценные эл. издания по вышеупомянутому ГОСТу, соответственно, в книгах есть полноценные выходные сведения, работают функции поиска и копирования текста, присутствует навигационное меню, оптимизированы растровые элементы и т.д.

Я работаю с третьим типом издательств, таким образом моя задача максимально окультурить книгу. Многие операции автоматизированы «до нЕльзя» при помощи плагинов и функционала самого Акробата. Но вот проблему с кодировкой никак не удается не то что автоматизировать, а даже хоть чуть-чуть упростить — минимум 3 этапа (описывал выше).
Повторю, что речь пока исключительно про PDF — ни PDF/A, ни EPUB я не затрагиваю, т.к. знаю про них гораздо меньше.

_MBK_

_MBK_

Пикирующий бомбардировщик


  • #19

Можно так:
1. Запустить в Акробате fixup: convert text to outline (если есть полноценный Акробат, не Ридер).

Причем достаточно новой версии, мне, например, акробаты с таким фиксапом не попадались вообще.
Или ты про питстоповский фиксап?

german


  • #20

Причем достаточно новой версии, мне, например, акробаты с таким фиксапом не попадались вообще.
Или ты про питстоповский фиксап?

Это в новой версии Acrobat Pro DC.

А можно ссылку на утилиту, скриншот из которой Вы прислали? Или это интерфейс акробата? (по скриншоту не могу понять)

Это в инструментах ToolsPrint ProductionPreflight

  • acrtextoutline.PNG

    acrtextoutline.PNG

    52.1 КБ

    · Просм.: 430

Встроенные шрифты файлов PDF относятся к кодировке Windows1252. Практически все остальные шрифты используют набор символов UTF-16.

Как поменять кодировку на 1251?

Для этого нужно открыть меню «Кодировки» и выбрать один из вариантов преобразования. Notepad++ позволяет изменить текущую кодировку текста на ANSI (Windows1251), UTF-8, UTF-8 BOM, UTF-8 BE BOM, UTF-8 LE BOM. После преобразования файл нужно сохранить с помощью меню «Файл – Сохранить» или комбинации клавиш Ctrl-S.

Как сменить кодировку на UTF-8?

Для конвертирования его в кодировку UTF8, откройте на компьютере приложение Блокнот (Notepad), в блокноте откройте сохраненный Вами CSV-файл, затем выберите пункт меню «Файл» — «Сохранить как» и рядом с кнопкой «сохранить» поменяйте кодировку с ANSI на UTF8.

Как поменять кодировку на Windows 10?

С помощью редактора реестра Нажмите клавиши Win+R на клавиатуре, введите regedit и нажмите Enter, откроется редактор реестра. и в правой части пролистайте значения этого раздела до конца. Дважды нажмите по параметру ACP, установите значение 1251 (кодовая страница для кириллицы), нажмите Ок и закройте редактор реестра.

Как определить в какой кодировке текст?

Открыть искомый текстовый файл в Блокноте Windows и выбрать пункт меню «Файл» -> «Сохранить как…». Пример текстового файла, в котором русский текст задан в формате UTF, но это не очевидно при открытии. 2. В открывшемся диалоговом окне вы сразу видите, в какой кодировке был сохранён текст в текстовом файле.

Как скрыть информацию в PDF?

Перейдите во вкладку «Защита» и выберите «Обезличивание». Затем выберите страницу и часть текста, который вы хотите обезличить. Вы также можете использовать опцию «Поиск и редактирование» для поиска определенного слова и скрытия его на всех страницах документа.

Как снять кодировку с Ворда?

Выбор кодировки при открытии файла

  1. Откройте вкладку Файл.
  2. Нажмите кнопку Параметры.
  3. Нажмите кнопку Дополнительно.
  4. Перейдите к разделу Общие и установите флажокПодтверждать преобразование формата файла при открытии. …
  5. Закройте, а затем снова откройте файл.

Почему документ Word открывается иероглифами?

Дело в том, что текстовый файл (обычно в формате txt, но так же ими являются форматы: php, css, info и т. д.) может быть сохранен в различных кодировках. Чаще всего происходит одна вещь: документ открывается просто не в той кодировке из-за чего происходит путаница, и вместо кода одних символов, будут вызваны другие.

Как работает кодирование?

Принцип действия препарата для кодирования – формирование непереносимости алкоголя. Лекарство блокирует ферменты, которые должны расщеплять этиловый спирт, в результате человек страдает от сильной интоксикации, даже если выпьет совсем немного.

Как изменить Юникод в Windows 10?

Просмотр настроек локали для ОС Windows

  1. Нажмите Пуск затем Панель управления
  2. Нажмите Часы, язык и регион
  3. В Windows 10, Windows 8: нажмите Регион …
  4. Нажмите на вкладку Администрирование …
  5. Под строкой Язык программ, не поддерживающих Юникод нажмите Изменить язык системы и выберите нужный язык.
  6. Нажмите ОК

Как узнать кодировку Windows 10?

Узнать текущую кодировку можно введя в командной строке команду chcp , после ввода данной команды необходимо нажать Enter .

Как узнать кодировку текста в файле?

Открыть искомый текстовый файл в Блокноте Windows и выбрать пункт меню «Файл» -> «Сохранить как…». Пример текстового файла, в котором русский текст задан в формате UTF, но это не очевидно при открытии. 2. В открывшемся диалоговом окне вы сразу видите, в какой кодировке был сохранён текст в текстовом файле.

Как узнать кодировку текста в Word?

В диалоговом окне Преобразование файла выберите пункт Кодированный текст. В диалоговом окне Преобразование файла установите переключатель Другая и выберите нужную кодировку из списка. В области Образец можно просмотреть текст и проверить, правильно ли он отображается в выбранной кодировке.

Как в PDF замазать текст?

Исправление конфиденциального содержимого (Acrobat Pro)

  1. Выберите Инструменты > Исправить.
  2. В меню Редактирование выберите Исправить текст и изображения.
  3. Выделите текст или изображение в файле PDF, нажмите правой кнопкой мыши и выберите Исправить.

Как убрать надпись образец в PDF?

Удаление водяных знаков Откройте одиночный файл PDF или выберите один или несколько файлов PDF из портфолио. Затем выберите Инструменты > Редактировать PDF > Водяной знак > Удалить.

Что делать если документ Ворд открывается иероглифами?

Дело в том, что с 2007 года в Word (если не ошибаюсь) появился формат Docx (позволяет более сильнее сжимать документ, чем Doc, да и надежнее защищает его). Так вот, если у вас старый Word, который не поддерживает этот формат — то вы, при открытии документа в Docx, увидите иероглифы и ничего более.

Как изменить кодировку в ворд?

Вы можете указать кодировку, которую следует использовать для отображения (декодирования) текста.

  1. Откройте вкладку Файл.
  2. Нажмите кнопку Параметры.
  3. Нажмите кнопку Дополнительно.
  4. Перейдите к разделу Общие и установите флажокПодтверждать преобразование формата файла при открытии. …
  5. Закройте, а затем снова откройте файл.

Понравилась статья? Поделить с друзьями:

Не пропустите также:

  • Как найти центр описанной около правильного многоугольника
  • Если ошибка в документе как ее исправить об образовании
  • Как исправить ссылки в оглавлении
  • Как найти бандита по заданию
  • Как найти по штрихкоду в яндекс

  • 0 0 голоса
    Рейтинг статьи
    Подписаться
    Уведомить о
    guest

    0 комментариев
    Старые
    Новые Популярные
    Межтекстовые Отзывы
    Посмотреть все комментарии