2006年03月04日
◆ PDF と HTML
PDF と HTML を比較すると、どちらがいいか? よく比べると、一長一短だが、両者はとても親和性が高い。「最初に HTML を作ってから、それを変換して PDF にして、両者をともに公開する」というのがベストであるようだ。 ──
今回、別記の通り、量子力学の専門論文を公開した。これには、 PDF と HTML の双方がある。どちらも作成したが、一長一短だ。まとめると、次の通り。
「紙の印刷には、PDF が適している」
「画面上で見るには、HTML が適している」
どちらかが一方的に優れているということはない。それぞれ、目的が別方向なので、一長一短となる。となれば、作者は、双方を公開するといい。ユーザーは、双方をもっていればいい。紙か画面か、そのときの気分で、好きな方を選べばよい。
<PDF の長短>
多くの画像をいっぺんに一つのファイルにまとめることができる。
特殊な記号もあらゆる言語で対応できる。(フォントの埋め込み)
印刷向けのフォントを使っておけば、ユーザーは印刷が楽。
画像は画面上でうまく拡大・縮小できる。高解像度の画像が可能。
画面のスクロールは遅いので、画面で見るには適さない。
改ページもあるので、画面で見るには適さない。
<HTML の長短>
多くの画像をいっぺんに一つのファイルにまとめることが困難。
特殊な記号は使えない。ユーザーのフォント環境に依存する。
印刷向けのフォントを使うには、ユーザーはソースを書き直す必要がある。
画像は画面上でうまく縮小できない。高解像度の画像は はみ出やすい。
画面のスクロールはスムーズなので、画面で見るには適する。
改ページがないので、画面で見るには適する。
( なお、ファイルサイズは、本来ならば、ほとんど同じである。しいて言えば、pdf の方がほんの少し小さくて済む。なぜかというと、多数の画像をまとめて圧縮するからだ。……ただし、それは、OpenOffice で変換した場合。一方、高度なプロ仕様のものだと、いろいろと余計な情報が埋め込まれる。特にまずいのは、暗号化処理だ。ユーザーに変更を禁止するために、暗号化処理をすることがある。こうすると、ファイルはかさばるし、さまざまな表示速度も遅くなるようだ。一般に公開されている pdf ファイルは、たいてい暗号化処理がされている。だから、たいていの pdf ファイルは、サイズが大きくて、処理も遅い。……ま、企業用途でなければ、OpenOffice で変換すればいいから、特に問題はない。)
( 紙と画面の違いは何か? 紙の長所は「高解像度の表示で、紙だけでも持ち運びが可能だ」ということ。画面の長所は「検索や辞書引きが簡単で、パソコン内に入る」ということ。一長一短。)
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
なお、作成の手順には、順序がある。必ず、「HTML → PDF の順でやるべきだ。この場合、変換は OpenOffice で簡単に変換できる。手間はいらない。単に pdf 形式で保存するだけだ。
ここで、注意が必要なのは、元のファイルが HTML であるべきだ、ということ。MS-Word などだと、一部が変換されない。 HTML ならば大丈夫だ。
どこが問題かというと、画像の入れ方。画像は、pdf だと高解像度のものが使えるが、そのまま HTML に入れると、高解像度のものが画面からはみ出てしまう。そこで、HTML ソースで、
<IMG SRC="fig04.gif">
というのに対して、幅を指定して、
<IMG width=650 SRC="fig04.gif">
というふうに書き直す。こうすれば、高解像度の画像が、A4 サイズに入る。
ただし、この HTML をMS-Word文書としてから、PDF に入れると、この箇所がうまく pdf 変換で読み取れない。駄目な pdf ファイルができる。(画像の自動縮小には対応していないわけだ。)
(なお、小さな画像は、サイズ指定しない。)
というわけで、最初に HTML を作成して、そのあとで pdf に変換すればいいわけだ。(もし最初に MS-Word 文書を使うと、変換できない部分が生じる。)
──
【 HTML 】
HTMLを書く際には、MS-Wordの便利な機能を使うとよい。記号を自動的に HTML 変換する機能だ。たとえば、 ← のような記号は、欧文の HTML で出すためには、特殊な番号を記す必要がある。そのためには、いったん日本語で入力してから、MS-WordでHTML変換して、そのソースを見ればいい。(文字コードは欧文の文字コードにしておく。)何らかの特殊な番号が出ているはずだ。
で、これを記したHTML文書を、pdf に変換する。すると、この箇所が、 pdf に埋め込まれる。かくて、この記号を含む pdf ファイルが、あらゆる言語に対応できる。
──
【 TeX 】
TeX ファイルを書く場合にも、最初は HTML で書いてから、あとで TeX に変更するといいだろう。ただし、最初に TeX にしてもいい。一長一短。
最初に TeX で書くと、それを HTML に直すには、文字列変換のために、かなり技巧的な操作を必要とする。普通の人には、ちょっと無理だ。
最初に HTML で書くと、それを TeX に直すのは、簡単だ。
ただし、TeX は、ユーザーがやたらと文法エラー起こしやすい言語だから、チェックが繰り返して必要となる。そのチェックの手間が大変だ。
具体的に言うと、数式部分には必ず $ マークを入れないと、エラーになる。
T_1 なんて書くと、処理が停止してしまうので、 $T_1$ と書く必要がある。また、e^ix は $e^{ix}$ というふうにカッコを使う必要がある。
いろいろと面倒だ。エラーを起こす箇所がたくさんある。
過去ログ

IMG要素のheightとwidthでもダメでしょうか?
あとは、そういった場合も、ページ内の画像はサムネイルを用意しておいて、ハイパーリンクで高解像度の画像にリンクを貼る、ということができるのもHTMLの長所かと思います。
HTML の自動縮小だと、ぶつぶつの目立つ、汚い画像になるんです。
PDF だと、灰色を使うことでアンチエイリアス(だったかな?)という輪郭なめらか機能が働きます。しかも、あらゆるサイズの縮小に対応します。
高精度の複数サムネイルの自動作成が、Acrobat Reader にはもともと備わっている。