Bonjour,
I don’t understand what is the advantage of Identity-H encoding. For our caritative association, we have a small news paper of one page, since the beginning of this publication except the one page text, the fonts and the logo image was not changed and depending of the evolution of the means of creation we have 3 types of pdf files.
Except the size, the aspect of the pdf on screen or on printer is exactly the same !
The 3 types are describe here :
- Type 1 : size ~ 73 ko
Creator: PDFCreator Version 1.7.3
Producer: GPL Ghostscript 9.10
CreationDate: Mon Oct 29 13:45:36 2016
Pages: 1
Encrypted: no
File size: 73564 bytes
Optimized: no
PDF version: 1.4
CalibriLight,Italic TrueType WinAnsi
CalibriLight TrueType WinAnsi
Calibri TrueType WinAnsi
BrushScriptMT,Italic TrueType WinAnsi
HarlowSolidItalic,Italic TrueType WinAnsi
Calibri,Bold TrueType WinAnsi
- Type 2 : size ~ 530 ko
Creator: Microsoft Word 2010
Producer: Microsoft® Word 2010
CreationDate: Tue Nov 26 12:04:31 2019
Pages: 1
Encrypted: no
File size: 524766 bytes
Optimized: no
PDF version: 1.5
Calibri Light TrueType WinAnsi
Calibri Light CID TrueType Identity-H
Calibri TrueType WinAnsi
Forte TrueType WinAnsi
Harlow Solid Italic,Italic TrueType WinAnsi
Calibri,Bold TrueType WinAnsi
Calibri,Bold TrueType WinAnsi
Calibri CID TrueType Identity-H
Calibri,Bold CID TrueType Identity-H
Arial TrueType WinAhyugtnsi
Arial Rounded MT Bold TrueType WinAnsi
Calibri Light,Italic TrueType WinAnsi
Calibri Light,Italic CID TrueType Identity-H
- Type 3 : size ~ 860 ko
producer : Microsoft Print to PDF
CreationDate: Tue Apr 14 10:47:08 2020
Pages: 1
Encrypted: no
File size: 865094 bytes
Optimized: no
PDF version: 1.7
CIDFont+F1 CID TrueType Identity-H
CIDFont+F2 CID TrueType Identity-H
CIDFont+F3 CID TrueType Identity-H
CIDFont+F4 CID TrueType Identity-H
CIDFont+F5 CID TrueType Identity-H
CIDFont+F6 CID TrueType Identity-H
CIDFont+F7 CID TrueType Identity-H
CIDFont+F8 CID TrueType Identity-H
Is there are a solution to reduce this INVASIVEIdentity-H encoding ?
Thank for answers !
Bests Regards.
Bonjour,
I don’t understand what is the advantage of Identity-H encoding. For our caritative association, we have a small news paper of one page, since the beginning of this publication except the one page text, the fonts and the logo image was not changed and depending of the evolution of the means of creation we have 3 types of pdf files.
Except the size, the aspect of the pdf on screen or on printer is exactly the same !
The 3 types are describe here :
- Type 1 : size ~ 73 ko
Creator: PDFCreator Version 1.7.3
Producer: GPL Ghostscript 9.10
CreationDate: Mon Oct 29 13:45:36 2016
Pages: 1
Encrypted: no
File size: 73564 bytes
Optimized: no
PDF version: 1.4
CalibriLight,Italic TrueType WinAnsi
CalibriLight TrueType WinAnsi
Calibri TrueType WinAnsi
BrushScriptMT,Italic TrueType WinAnsi
HarlowSolidItalic,Italic TrueType WinAnsi
Calibri,Bold TrueType WinAnsi
- Type 2 : size ~ 530 ko
Creator: Microsoft Word 2010
Producer: Microsoft® Word 2010
CreationDate: Tue Nov 26 12:04:31 2019
Pages: 1
Encrypted: no
File size: 524766 bytes
Optimized: no
PDF version: 1.5
Calibri Light TrueType WinAnsi
Calibri Light CID TrueType Identity-H
Calibri TrueType WinAnsi
Forte TrueType WinAnsi
Harlow Solid Italic,Italic TrueType WinAnsi
Calibri,Bold TrueType WinAnsi
Calibri,Bold TrueType WinAnsi
Calibri CID TrueType Identity-H
Calibri,Bold CID TrueType Identity-H
Arial TrueType WinAhyugtnsi
Arial Rounded MT Bold TrueType WinAnsi
Calibri Light,Italic TrueType WinAnsi
Calibri Light,Italic CID TrueType Identity-H
- Type 3 : size ~ 860 ko
producer : Microsoft Print to PDF
CreationDate: Tue Apr 14 10:47:08 2020
Pages: 1
Encrypted: no
File size: 865094 bytes
Optimized: no
PDF version: 1.7
CIDFont+F1 CID TrueType Identity-H
CIDFont+F2 CID TrueType Identity-H
CIDFont+F3 CID TrueType Identity-H
CIDFont+F4 CID TrueType Identity-H
CIDFont+F5 CID TrueType Identity-H
CIDFont+F6 CID TrueType Identity-H
CIDFont+F7 CID TrueType Identity-H
CIDFont+F8 CID TrueType Identity-H
Is there are a solution to reduce this INVASIVEIdentity-H encoding ?
Thank for answers !
Bests Regards.
Описали бы лучше ситуацию.
Откуда файл, какой программой открываете?
Не забывайте, что эти документы могут быть защищены автором.
Есть pdf. Открываю его в Хроме. Выделяю слово и копирую в блокнот/ворд/фар. Получаю не читаемое слово
Вы вопрос не поняли.
1. файл из тырнета, как я понял. А скачать пробовали?
2. воспользуйтесь программой для чтения и редактирования пдф файлов. Я, например, пользуюсь Адобе Профешинал 7 версии.
3. Не факт, что и после такого подхода получится желаемое.
1. Скачал. Открывается в Хроме
2. Использовал:
Adobe Acrobat Reader DC v2017.009.20044 RePack by KpoJIuK
и
Foxit PDF Editor 2.2.1.1119 Rus
3. Везде слово по разному копируется.
В Adobe Acrobat Reader DC:
??????????:
В Foxit PDF Editor 2.2.1.1119 Rus:
???????????????????:
В хроме:
??????????:
здесь почему то одинаковые знаки, хотя у меня там нет «?»… ну и ну…
В винде такого не попадалось, а вот в убунте (в evince) — частенько бывало. Да и в Adobe Reader 9, что в той же убунте тоже грешит. И не только в таком виде. Особенно когда документ просто пипец какой официальный.
Список причин можно расширить на:
— у вас отсутствуют шрифты в системе в целевой программе.
— программа-вьювер pdf некорректно работает с буфером обмена
— программа-вьювер pdf данной версии некорректно работает с pdf данной спецификации формата…
— можно извлечь текст OCR программами…
и т.д. и т.п.
Esik писал(а)
можно извлечь текст OCR программами…
да есть и PDF2ТХТ программы …
Esik писал(а)
— у вас отсутствуют шрифты в системе в целевой программе.
При чем тут шрифты, он же копирует в блокнот
И что?
В Вашем блокноте такое окошко недоступно?
ну и где тут «отсутствую шрифты»? все они на месте
Вы определитесь сами, о чём вы говорите о
Явлинский писал(а)
При чем тут шрифты, он же копирует в блокнот
Или
Явлинский писал(а)
ну и где тут «отсутствую шрифты»? все они на месте
Первую Вашу реплику я прочёл как «он копирует в блокнот, где нет управления шрифтами».
Если вы имеете в виду что-то другое, то пожалуйста более однозначно выражайте свою мысль.
Я извиняюсь, погорячился, частично вы были правы: шрифт, которым набран документ, является встроенным и в системе его нет. Но проблема все равно не в шрифте, а в перекодировке.
Тогда можно через велосипед — экспортировать в картинки и распознать через фаинридер, онлайн конвертер, вроде, распознает из пдф
Ого, это сложно!
Он копирует но что то с кодировкой не то. Надо разобраться что не так.
Ссылку в студию. Интересно уже стало.
Я, кажется, начинаю догонять…
там японские иероглифы?
Хёнтай?
Если лазить куда не попадя, можно словить вирус….
Акробат Про позволяет экспортировать ПДФ в ДОК.
только если это «честный» ПДФ — и внктри текст … а не картинки .
там и картинки со схемами и текст. Короче, шансов нет (
256 писал(а)
Короче, шансов нет (
Судя по всему, автор фала таки наложил ограничения, которые предусмотрены данным форматом, для сохранения авторских прав.
как это обойти? Кряки, кейгены и пр таблетки?
256 писал(а)
как это обойти?
принт скрин с пдф-ки. картинку в распознавальщик
Трудоемкая работа, 360 снимков экрана делать! Или есть проги, которые сами автоматом всё делают?
256 писал(а)
Или есть проги, которые сами автоматом всё делают
Если файл не защищён от распознования, то его можно подсунуть сразу в распознавальщик.
Как я и предлагал выше. Но это показалось вам достаточно трудоёмким.
Да, не просто всё это! (
Буду думать…
попробуйте… smallpdf.com/ru
я когда нет под рукой ничего конвертирую так…
классная штука!
1. попробовал пдф — ворд
Самый близкий результат к оригиналу выдал!
Получил это «CO?EPKAHEE:» вместо «содержание». Читать увы оч сложно такой текст.
2. Снял защиту. Копирую из пдф и вставляю в ворд. Получаю ерунду.
3. пдф со снятой защитой перевожу в ворд. Получаю «CO?EPKAHEE:»
Не пробиваемый ПДФ!!!!!
Такое впечатление, что у вас не пдф, а картинка, сохранённая/конверчённая в пдф.
А на печать выводит без ошибок?
semikov_a писал(а)
Такое впечатление, что у вас не пдф, а картинка, сохранённая/конверчённая в пдф.
я могу отдельные буквы и слова копировать в буфер.
Возможности проверить как на печати нет (
256 писал(а)
Возможности проверить как на печати нет (
Даже если попросить предварительный просмотр печати в браузере или pdf вьювере???
Нажал печать, а дальше что? Что должно измениться?
Надо нажимать не печать, а «предварительный просмотр».
Тогда откроется превью, как будет выглядеть документ на печати при данных установках полей, размера бумаги и настроек принтера.
в хроме,
Adobe Acrobat Reader DC v2017.009.20044 RePack byKpoJIuK, Foxit PDF Editor 2.2.1.
нет «предварительный просмотр».
у вас правильный ПДФ, поэтому все хорошо )
K0IIIAK писал(а)
принт скрин с пдф-ки. картинку в распознавальщик
раньше распознаватели и сами делали этот «принтскрин», когда ПДФ распознавался .. правда почкму-то формат ВМР для этого использовали … но разпознавали в конечно итоге .
Язык перед копипастом переключите ))
Открытие!!!
Английский текст из этого пдф копируется без ошибок! Причины точно в кодировке! Но как проблему решить, что это за кодировка?
256 писал(а)
Причины точно в кодировке! Но как проблему решить, что это за кодировка?
Я вам сразу говорил, что у вас просто нет в системе того шрифта, который используется в том документе. Именно по этой причине вместо символов поставляются прямоугольнички.
Выхода два:
1) угадать, что это за шрифт (по дизайну или чему-то другому) и поставить его в систему
2) искать способы перекодировки. Но сразу скажу, что у меня это не получалось. Труд занимал куда больше времени, чем нужда в результате. я забил.
Esik писал(а)
Я вам сразу говорил, что у вас просто нет в системе того шрифта, который используется в том документе.
вы таки понятие «шрифт» от понятия «кодировка» совсем-совсем не отличаете?
Явлинский писал(а)
вы таки понятие «шрифт» от понятия «кодировка» совсем-совсем не отличаете?
Конечно.
Ведь вы в этом уверены!
иногда помогает при вставке указать, что стандартная вставка без форматов …. сам т текст в пдф отображается по русски же …
P.S. если тексты не секретные — киньте файл сюда — посмотрим ))
где указать это?
нельзя файл выкладывать.
попробуйте открыть Foxit PDF Editor
там все узнаете, и шрифты и замены
меняю шрифт и получаю это
Млин, туплю, правильно ниже говорят, в Reader все есть
Файл/Свойства/Шрифты
вставил в екселе — спец вставка
как юникод получил китайские символы.
как текст получил вопросительные знаки.
Какая-то хрень с кодировкой:
Открываете файл в FoxIt, далее File -> Preferences -> Fonts и скришот списка сюда
Что-то я один момент никак не пойму. Выше вы приложили скриншот, снятый в Foxit PDF Reader, там указан встроенный шрифт TimesNewRoman, а здесь такого встроенного шрифта в списке нет.
Суть в чём: я хочу узнать кодировку этого шрифта (например, не ANSI). См. аттач:
Явлинский писал(а)
Что-то я один момент никак не пойму. Выше вы приложили скриншот, снятый в Foxit PDF Reader, там указан встроенный шрифт TimesNewRoman, а здесь такого встроенного шрифта в списке нет.
Тоже заметил что шрифты отличаются. В первый раз я скопировал название шрифта с правой части, а во-второй раз с меню «Настройки». Списки шрифтов разные.
Вот с правой части список шрифтов.
в фоксит ридере View -> Text Viewer доступен в меню?
Приложение FoxitReader83_L10N_Setup_Prom
Вид — просмоторщик текста. Показывает ерунду вместо кириллицы.
Угу, я понял. Диагноз ниже.
Явлинский писал(а)
Суть в чём: я хочу узнать кодировку этого шрифта (например, не ANSI). См. аттач:
У меня Foxit PDF Editor 2.2.1.1119 Rus
Таких меню у меня нет.
256 писал(а)
Foxit PDF Editor
Я имею в виду программу Foxit PDF Reader.
установил FoxitReader83_L10N_Setup_Prom
Этот список в Акробат Ридере есть. Чем FoxitReader лучше?
Ничем не лучше, просто именно это я и хотел увидеть изначально. Ваша проблема в том, что текст набран встроенным шрифтом в т.н. кастомной кодировке (CID, Identity-H). В системе его нет, поэтому при копировании нужно знать т.н. таблицу замещения для встроенного шрифта. Причина того, что копирование не работает в том, что этой таблицы замещения в документе нет:
This is relatively common, and is caused when the application creating the PDF fails to correctly embed the Unicode lookup table for the font. Without that lookup table there is no relationship between the visible character on screen and the equivalent character code, so copying and pasting the text will lead to either a series of unknown markers, or a jumble of characters with a 1:1 relationship to the original text.
As a PDF stores the character codes rather than the human-readable text, the fact you can see a letter «A» on the page doesn’t mean Acrobat has any idea that it’s an «A». The lookup tables make that connection, so if they’re missing or corrupted there’s no way to recreate the semantic connection unless you can re-fry the file with an original copy of the font.
forums.adobe.com/thread/758316
Поэтому вариант решения вашей проблемы такой:
— самостоятельно создать таблицу соответствий каждой буквы русского алфавита встроенного шрифта вашего документа соотв. юникод-символу
— далее написать скрипт, который будет делать подстановку, скопипасть исходный тескт в файл и обработать это скриптом. VBA из пакета Ms Office это прекрасно может сделать.
ЗЫ. Либо связаться с автором исходного документа и попросить его внедрить нормальный шрифт.
Если установить шрифт с кастомной кодировкой (CID, Identity-H) в ОС, то будет всё работать? Осталось найти этот шрифт.
Зачем такие шрифты используют? (
256 писал(а)
Если установить шрифт с кастомной кодировкой (CID, Identity-H) в ОС, то будет всё работать?
Если вы установите именно тот самый кастомный шрифт, то должно сработать. Полагаю, что он может быть только у автора.
> Зачём такие шрифты использую? (
forum.ru-board.com/topic.cgi?forum=4&topic=2716&start=0
Спасибо! Попробую.
Столько мучений на ровном месте (
I’m trying to use IDENTITY_H font encodinng in my code :
BaseFont courier = BaseFont.createFont(BaseFont.COURIER, BaseFont.IDENTITY_H, BaseFont.EMBEDDED);
Font font = new Font(courier, 12, Font.NORMAL);
Here’s the error i get.
Should i add an additionnal jar or what’s the problem exactly?
Thanks
ExceptionConverter: java.io.UnsupportedEncodingException: Identity-H
at java.lang.StringCoding.encode(StringCoding.java:269)
at java.lang.String.getBytes(String.java:947)
at com.lowagie.text.pdf.PdfEncodings.convertToBytes(Unknown Source)
at com.lowagie.text.pdf.Type1Font.<init>(Unknown Source)
at com.lowagie.text.pdf.BaseFont.createFont(Unknown Source)
at com.lowagie.text.pdf.BaseFont.createFont(Unknown Source)
at com.lowagie.text.pdf.BaseFont.createFont(Unknown Source)
at fr.srd.core.TextFileToPDF.main(TextFileToPDF.java:35)
asked Jan 22, 2014 at 10:04
1
you can apply some of the encodings only when you use BaseFont.xxxx as first parameter in createFont method. like CP1250, CP1252 , CP1257 ,WINANSI ,MACROMAN .
and if you are creating new custom fonts
BaseFont baseFont=BaseFont.createFont("C://Windows//Fonts//Arial.ttf", BaseFont.IDENTITY_H, BaseFont.EMBEDDED);
Font font=new Font(baseFont, 10);
using Type1 font referred to by an AFM or PFM file, a TrueType font then only u can use IDENTITY_H or IDENTITY_V . basically they are encoding styles.
below some references m providing check them.
http://api.itextpdf.com/itext/com/itextpdf/text/pdf/BaseFont.html#createFont%28java.lang.String,%20java.lang.String,%20boolean%29
and
http://api.itextpdf.com/itext/com/itextpdf/text/pdf/BaseFont.html#IDENTITY_H
answered Jan 22, 2014 at 11:28
NarenNaren
1,4371 gold badge10 silver badges11 bronze badges
#itext #extract
#итекст #извлечение
Вопрос:
Я пытаюсь извлечь текст из файла pdf. Текст выбирается в Acrobat. Acrobat выводит список шрифтов ArialUnicodeMS с типом: TrueType (CID) и кодировкой: Identity-H.
Использование фрагмента
PdfReader reader = new PdfReader(filePath);
String content = PdfTextExtractor.getTextFromPage(reader, 1);
Я получаю что-то обратно, но это нечитаемо при выводе в стандартный вывод или в файл (вывод выглядит как пустые символы). Как я могу извлечь текст в кодировке Identity-H?
Ответ №1:
Это долгий путь, но вы пробовали установить свой PDF на версию 1.2, кодировка identity-H — это двухбайтовая кодировка шрифтов, она используется в основном для азиатских шрифтов и всех PDF-файлов, созданных Indesign.
Если у вас нет функций в вашем pdf, таких как, например, градиенты, прозрачность, вы можете попробовать это (перед этим создайте резервную копию вашего pdf, как я уже говорил, это рискованно, просто подумайте вслух)
Комментарии:
1. Спасибо за ваш ответ. Я не могу изменять свой PDF-файл, чтобы его можно было прочитать. Я переключился на pdfbox, который, по-видимому, не имеет проблем.