2009-11-11 3 views
1

Это немного более интересный вопрос, чем серьезный, но как формат Adobe PDF делает документы такими ... портативными?PDF-сжатие Как это делает Adobe?

Я только что создал небольшой документ Word размером 235kb, содержащий несколько цветных фотографий и несколько текстовых фраз. PDF-файл, созданный с использованием CutePDF (который, как я понимаю, не самый эффективный метод создания PDF), составляет всего 176 кб. Это коэффициент сжатия 25%. Когда эти файлы помещаются в сжатую папку, PDF способен на 3% сжатия, где .docx может принимать только 2%. Я уверен, что большие файлы будут иметь еще большие различия в размере.

Вопрос в том, как Adobe удалось сделать свои файлы намного меньше? Я понимаю, что они сделаны из растровой графики, но мои 3 растровые файлы действительно не могут быть использованы из растра, не так ли?

+1

http://www.adobe.com/devnet/pdf/pdf_reference.html – derobert

ответ

3

Если у вас есть Acrobat 9, есть хороший инструмент, встроенный, чтобы вы могли видеть, как PDF был скомпонован (и используется сжатие). Существует сообщение в блоге, объясняющее, как его использовать в http://pdf.jpedal.org/java-pdf-blog/bid/10479/Viewing-PDF-objects

+0

Я предполагаю, что это не в Acrobat Reader. Я подкрадусь к компьютерному парню и посмотрю на это позже сегодня ... Спасибо! – NickSentowski

2

Есть несколько способов это может быть сжимающие это:

  1. Pdf файлы используют LZW и почтовый сжатие.

  2. Если изображение масштабируется в документе или является большим dpi на диске, чем разрешено в cutepdf (например, если cutepdf установлен на 300 точек на дюйм, а изображение 600 dpi), его можно масштабировать в pdf.

  3. Microsoft хранит информацию о TONS в формате docx в xml. WAY больше, чем нужно, чтобы просто экспортировать информацию (например, попробуйте скопировать и вставить текст в ячейку текстового поля и посмотреть информацию о html, которая выходит - у меня было ограничение на размер текстового поля для cms и предложение из 7 слов наполнилось 950 символами). Это значит, что он может быть позже отредактирован и с большим количеством эзотерической информации, чтобы убедиться, что все отображается правильно во всех возможных перестановках. PDF не нуждается в этой информации, и поэтому он может просто делать шрифт и размер и выделять всю ненужную информацию, экономя тонну пространства.

1

При использовании таких небольших файлов любые накладные расходы в формате документа будут иметь непропорциональный эффект, поэтому вы видите такие большие% отличия.

Я взял 2683 КБ JPEG и вставил его в новое слово 2003 документа. Результирующий файл .doc был 2725 КБ (или 2697 КБ как docx). Превращение этого в PDF дает мне 2701 КБ PDF. Таким образом, я вижу разницу в 25 КБ, но разница только в 1% из-за размера данных изображения. Это примерно половина того, что у вас есть, но, может быть, версия слова у вас более сложная при создании docx?

Для PDF акробат показывает использование пространства как изображение 2691K, накладные расходы 8.27K и 1K шрифтов. PDF - довольно разреженный формат в своем синтаксисе, который ограничивает накладные расходы, и большая часть из них имеет повторяющиеся строки, поэтому легко сжимается.

Если вы хотите посмотреть, что PDF-файл содержит в виде дерева, вы можете скачать демо-версию CosEdit.