Кодировка identity h как исправить

Bonjour,

I don’t understand what is the advantage of Identity-H encoding. For our caritative association, we have a small news paper of one page, since the beginning of this publication except the one page text, the fonts and the logo image was not changed and depending of the evolution of the means of creation we have 3 types of pdf files.  

Except the size, the aspect of the pdf on screen or on printer is exactly the same !

The 3 types are describe here :

  • Type 1 : size ~ 73 ko

          Creator: PDFCreator Version 1.7.3
          Producer: GPL Ghostscript 9.10
          CreationDate: Mon Oct 29 13:45:36 2016
          Pages: 1
          Encrypted: no
          File size: 73564 bytes
          Optimized: no
          PDF version: 1.4
CalibriLight,Italic          TrueType  WinAnsi  
CalibriLight                   TrueType  WinAnsi 
Calibri                            TrueType  WinAnsi 
BrushScriptMT,Italic     TrueType  WinAnsi 
HarlowSolidItalic,Italic TrueType  WinAnsi
Calibri,Bold                   TrueType  WinAnsi

  • Type 2 : size ~ 530 ko
    Creator: Microsoft Word 2010
    Producer: Microsoft® Word 2010
    CreationDate: Tue Nov 26 12:04:31 2019
    Pages: 1
    Encrypted: no
    File size: 524766 bytes
    Optimized: no
    PDF version: 1.5

Calibri Light                      TrueType WinAnsi 
Calibri Light CID              TrueType Identity-H 
Calibri                                TrueType WinAnsi 
Forte                                   TrueType WinAnsi 
Harlow Solid Italic,Italic   TrueType WinAnsi 
Calibri,Bold                       TrueType WinAnsi

Calibri,Bold                       TrueType WinAnsi 
Calibri CID                        TrueType Identity-H 
Calibri,Bold CID               TrueType Identity-H 
Arial                                   TrueType WinAhyugtnsi 
Arial Rounded MT Bold    TrueType WinAnsi 
Calibri Light,Italic              TrueType WinAnsi 
Calibri Light,Italic CID      TrueType Identity-H 

  • Type 3 : size ~ 860 ko
    producer : Microsoft Print to PDF
    CreationDate: Tue Apr 14 10:47:08 2020
    Pages: 1

          Encrypted: no
          File size: 865094 bytes
          Optimized: no
         PDF version: 1.7
CIDFont+F1 CID     TrueType Identity-H
CIDFont+F2 CID     TrueType Identity-H
CIDFont+F3 CID     TrueType Identity-H
CIDFont+F4 CID     TrueType Identity-H 
CIDFont+F5 CID     TrueType Identity-H 
CIDFont+F6 CID     TrueType Identity-H 
CIDFont+F7 CID     TrueType Identity-H 
CIDFont+F8 CID     TrueType Identity-H 

Is there are a solution to reduce this INVASIVEIdentity-H encoding ?

Thank for answers !

Bests Regards.

Bonjour,

I don’t understand what is the advantage of Identity-H encoding. For our caritative association, we have a small news paper of one page, since the beginning of this publication except the one page text, the fonts and the logo image was not changed and depending of the evolution of the means of creation we have 3 types of pdf files.  

Except the size, the aspect of the pdf on screen or on printer is exactly the same !

The 3 types are describe here :

  • Type 1 : size ~ 73 ko

          Creator: PDFCreator Version 1.7.3
          Producer: GPL Ghostscript 9.10
          CreationDate: Mon Oct 29 13:45:36 2016
          Pages: 1
          Encrypted: no
          File size: 73564 bytes
          Optimized: no
          PDF version: 1.4
CalibriLight,Italic          TrueType  WinAnsi  
CalibriLight                   TrueType  WinAnsi 
Calibri                            TrueType  WinAnsi 
BrushScriptMT,Italic     TrueType  WinAnsi 
HarlowSolidItalic,Italic TrueType  WinAnsi
Calibri,Bold                   TrueType  WinAnsi

  • Type 2 : size ~ 530 ko
    Creator: Microsoft Word 2010
    Producer: Microsoft® Word 2010
    CreationDate: Tue Nov 26 12:04:31 2019
    Pages: 1
    Encrypted: no
    File size: 524766 bytes
    Optimized: no
    PDF version: 1.5

Calibri Light                      TrueType WinAnsi 
Calibri Light CID              TrueType Identity-H 
Calibri                                TrueType WinAnsi 
Forte                                   TrueType WinAnsi 
Harlow Solid Italic,Italic   TrueType WinAnsi 
Calibri,Bold                       TrueType WinAnsi

Calibri,Bold                       TrueType WinAnsi 
Calibri CID                        TrueType Identity-H 
Calibri,Bold CID               TrueType Identity-H 
Arial                                   TrueType WinAhyugtnsi 
Arial Rounded MT Bold    TrueType WinAnsi 
Calibri Light,Italic              TrueType WinAnsi 
Calibri Light,Italic CID      TrueType Identity-H 

  • Type 3 : size ~ 860 ko
    producer : Microsoft Print to PDF
    CreationDate: Tue Apr 14 10:47:08 2020
    Pages: 1

          Encrypted: no
          File size: 865094 bytes
          Optimized: no
         PDF version: 1.7
CIDFont+F1 CID     TrueType Identity-H
CIDFont+F2 CID     TrueType Identity-H
CIDFont+F3 CID     TrueType Identity-H
CIDFont+F4 CID     TrueType Identity-H 
CIDFont+F5 CID     TrueType Identity-H 
CIDFont+F6 CID     TrueType Identity-H 
CIDFont+F7 CID     TrueType Identity-H 
CIDFont+F8 CID     TrueType Identity-H 

Is there are a solution to reduce this INVASIVEIdentity-H encoding ?

Thank for answers !

Bests Regards.

Описали бы лучше ситуацию.
Откуда файл, какой программой открываете?
Не забывайте, что эти документы могут быть защищены автором.

Есть pdf. Открываю его в Хроме. Выделяю слово и копирую в блокнот/ворд/фар. Получаю не читаемое слово

Вы вопрос не поняли.
1. файл из тырнета, как я понял. А скачать пробовали?
2. воспользуйтесь программой для чтения и редактирования пдф файлов. Я, например, пользуюсь Адобе Профешинал 7 версии.
3. Не факт, что и после такого подхода получится желаемое.

1. Скачал. Открывается в Хроме
2. Использовал:
Adobe Acrobat Reader DC v2017.009.20044 RePack by KpoJIuK
и
Foxit PDF Editor 2.2.1.1119 Rus
3. Везде слово по разному копируется.
В Adobe Acrobat Reader DC:
??????????:
В Foxit PDF Editor 2.2.1.1119 Rus:
???????????????????:
В хроме:
??????????:

здесь почему то одинаковые знаки, хотя у меня там нет «?»… ну и ну…

В винде такого не попадалось, а вот в убунте (в evince) — частенько бывало. Да и в Adobe Reader 9, что в той же убунте тоже грешит. И не только в таком виде. Особенно когда документ просто пипец какой официальный.

Список причин можно расширить на:
— у вас отсутствуют шрифты в системе в целевой программе.
— программа-вьювер pdf некорректно работает с буфером обмена
— программа-вьювер pdf данной версии некорректно работает с pdf данной спецификации формата…
— можно извлечь текст OCR программами…
и т.д. и т.п.

Esik писал(а)
можно извлечь текст OCR программами…

да есть и PDF2ТХТ программы :)

Esik писал(а)
— у вас отсутствуют шрифты в системе в целевой программе.

При чем тут шрифты, он же копирует в блокнот

И что?
В Вашем блокноте такое окошко недоступно?

ну и где тут «отсутствую шрифты»? все они на месте

Вы определитесь сами, о чём вы говорите о

Явлинский писал(а)
При чем тут шрифты, он же копирует в блокнот

Или

Явлинский писал(а)
ну и где тут «отсутствую шрифты»? все они на месте

Первую Вашу реплику я прочёл как «он копирует в блокнот, где нет управления шрифтами».

Если вы имеете в виду что-то другое, то пожалуйста более однозначно выражайте свою мысль.

Я извиняюсь, погорячился, частично вы были правы: шрифт, которым набран документ, является встроенным и в системе его нет. Но проблема все равно не в шрифте, а в перекодировке.

Тогда можно через велосипед — экспортировать в картинки и распознать через фаинридер, онлайн конвертер, вроде, распознает из пдф

Ого, это сложно!
Он копирует но что то с кодировкой не то. Надо разобраться что не так.

Ссылку в студию. Интересно уже стало.

Я, кажется, начинаю догонять…
там японские иероглифы?
Хёнтай?

Если лазить куда не попадя, можно словить вирус….

Акробат Про позволяет экспортировать ПДФ в ДОК.

только если это «честный» ПДФ — и внктри текст … а не картинки :) .

там и картинки со схемами и текст. Короче, шансов нет (

256 писал(а)
Короче, шансов нет (

Судя по всему, автор фала таки наложил ограничения, которые предусмотрены данным форматом, для сохранения авторских прав.

как это обойти? Кряки, кейгены и пр таблетки?

256 писал(а)
как это обойти?

принт скрин с пдф-ки. картинку в распознавальщик

Трудоемкая работа, 360 снимков экрана делать! Или есть проги, которые сами автоматом всё делают?

256 писал(а)
Или есть проги, которые сами автоматом всё делают

Если файл не защищён от распознования, то его можно подсунуть сразу в распознавальщик.
Как я и предлагал выше. Но это показалось вам достаточно трудоёмким.

Да, не просто всё это! (
Буду думать…

попробуйте… smallpdf.com/ru
я когда нет под рукой ничего конвертирую так…

классная штука!
1. попробовал пдф — ворд
Самый близкий результат к оригиналу выдал!
Получил это «CO?EPKAHEE:» вместо «содержание». Читать увы оч сложно такой текст.
2. Снял защиту. Копирую из пдф и вставляю в ворд. Получаю ерунду.
3. пдф со снятой защитой перевожу в ворд. Получаю «CO?EPKAHEE:»

Не пробиваемый ПДФ!!!!!

Такое впечатление, что у вас не пдф, а картинка, сохранённая/конверчённая в пдф.
А на печать выводит без ошибок?

semikov_a писал(а)
Такое впечатление, что у вас не пдф, а картинка, сохранённая/конверчённая в пдф.

я могу отдельные буквы и слова копировать в буфер.

Возможности проверить как на печати нет (

256 писал(а)
Возможности проверить как на печати нет (

Даже если попросить предварительный просмотр печати в браузере или pdf вьювере???

Нажал печать, а дальше что? Что должно измениться?

Надо нажимать не печать, а «предварительный просмотр».
Тогда откроется превью, как будет выглядеть документ на печати при данных установках полей, размера бумаги и настроек принтера.

в хроме,
Adobe Acrobat Reader DC v2017.009.20044 RePack byKpoJIuK, Foxit PDF Editor 2.2.1.
нет «предварительный просмотр».

у вас правильный ПДФ, поэтому все хорошо )

K0IIIAK писал(а)
принт скрин с пдф-ки. картинку в распознавальщик

раньше распознаватели и сами делали этот «принтскрин», когда ПДФ распознавался .. правда почкму-то формат ВМР для этого использовали :) … но разпознавали в конечно итоге :) .

Язык перед копипастом переключите ))

Открытие!!!

Английский текст из этого пдф копируется без ошибок! Причины точно в кодировке! Но как проблему решить, что это за кодировка?

256 писал(а)
Причины точно в кодировке! Но как проблему решить, что это за кодировка?

Я вам сразу говорил, что у вас просто нет в системе того шрифта, который используется в том документе. Именно по этой причине вместо символов поставляются прямоугольнички.
Выхода два:
1) угадать, что это за шрифт (по дизайну или чему-то другому) и поставить его в систему
2) искать способы перекодировки. Но сразу скажу, что у меня это не получалось. Труд занимал куда больше времени, чем нужда в результате. я забил.

Esik писал(а)
Я вам сразу говорил, что у вас просто нет в системе того шрифта, который используется в том документе.

вы таки понятие «шрифт» от понятия «кодировка» совсем-совсем не отличаете?

Явлинский писал(а)
вы таки понятие «шрифт» от понятия «кодировка» совсем-совсем не отличаете?

Конечно.
Ведь вы в этом уверены!

иногда помогает при вставке указать, что стандартная вставка без форматов …. сам т текст в пдф отображается по русски же …

P.S. если тексты не секретные — киньте файл сюда — посмотрим ))

где указать это?

нельзя файл выкладывать.

попробуйте открыть Foxit PDF Editor
там все узнаете, и шрифты и замены

меняю шрифт и получаю это

Млин, туплю, правильно ниже говорят, в Reader все есть
Файл/Свойства/Шрифты

вставил в екселе — спец вставка
как юникод получил китайские символы.
как текст получил вопросительные знаки.

Какая-то хрень с кодировкой:
Открываете файл в FoxIt, далее File -> Preferences -> Fonts и скришот списка сюда

Что-то я один момент никак не пойму. Выше вы приложили скриншот, снятый в Foxit PDF Reader, там указан встроенный шрифт TimesNewRoman, а здесь такого встроенного шрифта в списке нет.
Суть в чём: я хочу узнать кодировку этого шрифта (например, не ANSI). См. аттач:

Явлинский писал(а)
Что-то я один момент никак не пойму. Выше вы приложили скриншот, снятый в Foxit PDF Reader, там указан встроенный шрифт TimesNewRoman, а здесь такого встроенного шрифта в списке нет.

Тоже заметил что шрифты отличаются. В первый раз я скопировал название шрифта с правой части, а во-второй раз с меню «Настройки». Списки шрифтов разные.
Вот с правой части список шрифтов.

в фоксит ридере View -> Text Viewer доступен в меню?

Приложение FoxitReader83_L10N_Setup_Prom
Вид — просмоторщик текста. Показывает ерунду вместо кириллицы.

Угу, я понял. Диагноз ниже.

Явлинский писал(а)
Суть в чём: я хочу узнать кодировку этого шрифта (например, не ANSI). См. аттач:

У меня Foxit PDF Editor 2.2.1.1119 Rus
Таких меню у меня нет.

256 писал(а)
Foxit PDF Editor

Я имею в виду программу Foxit PDF Reader.

установил FoxitReader83_L10N_Setup_Prom

Этот список в Акробат Ридере есть. Чем FoxitReader лучше?

Ничем не лучше, просто именно это я и хотел увидеть изначально. Ваша проблема в том, что текст набран встроенным шрифтом в т.н. кастомной кодировке (CID, Identity-H). В системе его нет, поэтому при копировании нужно знать т.н. таблицу замещения для встроенного шрифта. Причина того, что копирование не работает в том, что этой таблицы замещения в документе нет:

This is relatively common, and is caused when the application creating the PDF fails to correctly embed the Unicode lookup table for the font. Without that lookup table there is no relationship between the visible character on screen and the equivalent character code, so copying and pasting the text will lead to either a series of unknown markers, or a jumble of characters with a 1:1 relationship to the original text.

As a PDF stores the character codes rather than the human-readable text, the fact you can see a letter «A» on the page doesn’t mean Acrobat has any idea that it’s an «A». The lookup tables make that connection, so if they’re missing or corrupted there’s no way to recreate the semantic connection unless you can re-fry the file with an original copy of the font.
forums.adobe.com/thread/758316

Поэтому вариант решения вашей проблемы такой:
— самостоятельно создать таблицу соответствий каждой буквы русского алфавита встроенного шрифта вашего документа соотв. юникод-символу
— далее написать скрипт, который будет делать подстановку, скопипасть исходный тескт в файл и обработать это скриптом. VBA из пакета Ms Office это прекрасно может сделать.

ЗЫ. Либо связаться с автором исходного документа и попросить его внедрить нормальный шрифт.

Если установить шрифт с кастомной кодировкой (CID, Identity-H) в ОС, то будет всё работать? Осталось найти этот шрифт.

Зачем такие шрифты используют? (

256 писал(а)
Если установить шрифт с кастомной кодировкой (CID, Identity-H) в ОС, то будет всё работать?

Если вы установите именно тот самый кастомный шрифт, то должно сработать. Полагаю, что он может быть только у автора.

> Зачём такие шрифты использую? (
forum.ru-board.com/topic.cgi?forum=4&topic=2716&start=0

Спасибо! Попробую.
Столько мучений на ровном месте (

I’m trying to use IDENTITY_H font encodinng in my code :

BaseFont courier = BaseFont.createFont(BaseFont.COURIER,  BaseFont.IDENTITY_H, BaseFont.EMBEDDED);
  Font font = new Font(courier, 12, Font.NORMAL);

Here’s the error i get.
Should i add an additionnal jar or what’s the problem exactly?
Thanks

ExceptionConverter: java.io.UnsupportedEncodingException: Identity-H
at java.lang.StringCoding.encode(StringCoding.java:269)
at java.lang.String.getBytes(String.java:947)
at com.lowagie.text.pdf.PdfEncodings.convertToBytes(Unknown Source)
at com.lowagie.text.pdf.Type1Font.<init>(Unknown Source)
at com.lowagie.text.pdf.BaseFont.createFont(Unknown Source)
at com.lowagie.text.pdf.BaseFont.createFont(Unknown Source)
at com.lowagie.text.pdf.BaseFont.createFont(Unknown Source)
at fr.srd.core.TextFileToPDF.main(TextFileToPDF.java:35)

asked Jan 22, 2014 at 10:04

Amira's user avatar

1

you can apply some of the encodings only when you use BaseFont.xxxx as first parameter in createFont method. like CP1250, CP1252 , CP1257 ,WINANSI ,MACROMAN .

and if you are creating new custom fonts

BaseFont baseFont=BaseFont.createFont("C://Windows//Fonts//Arial.ttf", BaseFont.IDENTITY_H, BaseFont.EMBEDDED);
    Font font=new Font(baseFont, 10);

using Type1 font referred to by an AFM or PFM file, a TrueType font then only u can use IDENTITY_H or IDENTITY_V . basically they are encoding styles.

below some references m providing check them.

http://api.itextpdf.com/itext/com/itextpdf/text/pdf/BaseFont.html#createFont%28java.lang.String,%20java.lang.String,%20boolean%29

and

http://api.itextpdf.com/itext/com/itextpdf/text/pdf/BaseFont.html#IDENTITY_H

answered Jan 22, 2014 at 11:28

Naren's user avatar

NarenNaren

1,4371 gold badge10 silver badges11 bronze badges

#itext #extract

#итекст #извлечение

Вопрос:

Я пытаюсь извлечь текст из файла pdf. Текст выбирается в Acrobat. Acrobat выводит список шрифтов ArialUnicodeMS с типом: TrueType (CID) и кодировкой: Identity-H.

Использование фрагмента

 PdfReader reader = new PdfReader(filePath);
String content = PdfTextExtractor.getTextFromPage(reader, 1);
  

Я получаю что-то обратно, но это нечитаемо при выводе в стандартный вывод или в файл (вывод выглядит как пустые символы). Как я могу извлечь текст в кодировке Identity-H?

Ответ №1:

Это долгий путь, но вы пробовали установить свой PDF на версию 1.2, кодировка identity-H — это двухбайтовая кодировка шрифтов, она используется в основном для азиатских шрифтов и всех PDF-файлов, созданных Indesign.

Если у вас нет функций в вашем pdf, таких как, например, градиенты, прозрачность, вы можете попробовать это (перед этим создайте резервную копию вашего pdf, как я уже говорил, это рискованно, просто подумайте вслух)

Комментарии:

1. Спасибо за ваш ответ. Я не могу изменять свой PDF-файл, чтобы его можно было прочитать. Я переключился на pdfbox, который, по-видимому, не имеет проблем.

Понравилась статья? Поделить с друзьями:
  • Как найти вертикальный градиент температур
  • Как найти в реквизитах лицевой счет
  • Как на телефоне найти заблокированные номера ватсап
  • Как найти район города по адресу
  • Не удается обновить одну или несколько связей в книге excel как исправить ошибку