2006年03月04日

◆ PDF と HTML


 PDF と HTML を比較すると、どちらがいいか? よく比べると、一長一短だが、両者はとても親和性が高い。「最初に HTML を作ってから、それを変換して PDF にして、両者をともに公開する」というのがベストであるようだ。 ──

 今回、別記の通り、量子力学の専門論文を公開した。これには、 PDF と HTML の双方がある。どちらも作成したが、一長一短だ。まとめると、次の通り。
「紙の印刷には、PDF が適している」
「画面上で見るには、HTML が適している」

 どちらかが一方的に優れているということはない。それぞれ、目的が別方向なので、一長一短となる。となれば、作者は、双方を公開するといい。ユーザーは、双方をもっていればいい。紙か画面か、そのときの気分で、好きな方を選べばよい。

 <PDF の長短>
 多くの画像をいっぺんに一つのファイルにまとめることができる。
 特殊な記号もあらゆる言語で対応できる。(フォントの埋め込み)
 印刷向けのフォントを使っておけば、ユーザーは印刷が楽。
 画像は画面上でうまく拡大・縮小できる。高解像度の画像が可能。
 画面のスクロールは遅いので、画面で見るには適さない。
 改ページもあるので、画面で見るには適さない。

 <HTML の長短>
 多くの画像をいっぺんに一つのファイルにまとめることが困難。
 特殊な記号は使えない。ユーザーのフォント環境に依存する。
 印刷向けのフォントを使うには、ユーザーはソースを書き直す必要がある。
 画像は画面上でうまく縮小できない。高解像度の画像は はみ出やすい。
 画面のスクロールはスムーズなので、画面で見るには適する。
 改ページがないので、画面で見るには適する。

( なお、ファイルサイズは、本来ならば、ほとんど同じである。しいて言えば、pdf の方がほんの少し小さくて済む。なぜかというと、多数の画像をまとめて圧縮するからだ。……ただし、それは、OpenOffice で変換した場合。一方、高度なプロ仕様のものだと、いろいろと余計な情報が埋め込まれる。特にまずいのは、暗号化処理だ。ユーザーに変更を禁止するために、暗号化処理をすることがある。こうすると、ファイルはかさばるし、さまざまな表示速度も遅くなるようだ。一般に公開されている pdf ファイルは、たいてい暗号化処理がされている。だから、たいていの pdf ファイルは、サイズが大きくて、処理も遅い。……ま、企業用途でなければ、OpenOffice で変換すればいいから、特に問題はない。)

( 紙と画面の違いは何か? 紙の長所は「高解像度の表示で、紙だけでも持ち運びが可能だ」ということ。画面の長所は「検索や辞書引きが簡単で、パソコン内に入る」ということ。一長一短。)

 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

 なお、作成の手順には、順序がある。必ず、「HTML → PDF の順でやるべきだ。この場合、変換は OpenOffice で簡単に変換できる。手間はいらない。単に pdf 形式で保存するだけだ。
 ここで、注意が必要なのは、元のファイルが HTML であるべきだ、ということ。MS-Word などだと、一部が変換されない。 HTML ならば大丈夫だ。

 どこが問題かというと、画像の入れ方。画像は、pdf だと高解像度のものが使えるが、そのまま HTML に入れると、高解像度のものが画面からはみ出てしまう。そこで、HTML ソースで、
  <IMG SRC="fig04.gif">
 というのに対して、幅を指定して、
  <IMG width=650 SRC="fig04.gif">
 というふうに書き直す。こうすれば、高解像度の画像が、A4 サイズに入る。
 ただし、この HTML をMS-Word文書としてから、PDF に入れると、この箇所がうまく pdf 変換で読み取れない。駄目な pdf ファイルができる。(画像の自動縮小には対応していないわけだ。)
(なお、小さな画像は、サイズ指定しない。)

 というわけで、最初に HTML を作成して、そのあとで pdf に変換すればいいわけだ。(もし最初に MS-Word 文書を使うと、変換できない部分が生じる。)

 ──

 【 HTML 】

 HTMLを書く際には、MS-Wordの便利な機能を使うとよい。記号を自動的に HTML 変換する機能だ。たとえば、 ←  のような記号は、欧文の HTML で出すためには、特殊な番号を記す必要がある。そのためには、いったん日本語で入力してから、MS-WordでHTML変換して、そのソースを見ればいい。(文字コードは欧文の文字コードにしておく。)何らかの特殊な番号が出ているはずだ。
 で、これを記したHTML文書を、pdf に変換する。すると、この箇所が、 pdf に埋め込まれる。かくて、この記号を含む pdf ファイルが、あらゆる言語に対応できる。

 ──

 【 TeX 】

 TeX ファイルを書く場合にも、最初は HTML で書いてから、あとで TeX に変更するといいだろう。ただし、最初に TeX にしてもいい。一長一短。
 最初に TeX で書くと、それを HTML に直すには、文字列変換のために、かなり技巧的な操作を必要とする。普通の人には、ちょっと無理だ。
 最初に HTML で書くと、それを TeX に直すのは、簡単だ。
 ただし、TeX は、ユーザーがやたらと文法エラー起こしやすい言語だから、チェックが繰り返して必要となる。そのチェックの手間が大変だ。
 具体的に言うと、数式部分には必ず $ マークを入れないと、エラーになる。
 T_1 なんて書くと、処理が停止してしまうので、 $T_1$ と書く必要がある。また、e^ix は $e^{ix}$ というふうにカッコを使う必要がある。
 いろいろと面倒だ。エラーを起こす箇所がたくさんある。
posted by 管理人 at 00:43| Comment(2) | 科学トピック | 更新情報をチェックする
この記事へのコメント
HTMLの特徴としてある「画像は画面上でうまく縮小できない」とは、どういうことでしょうか・・・。
IMG要素のheightとwidthでもダメでしょうか?

あとは、そういった場合も、ページ内の画像はサムネイルを用意しておいて、ハイパーリンクで高解像度の画像にリンクを貼る、ということができるのもHTMLの長所かと思います。
Posted by kumack at 2006年03月07日 13:15
> IMG要素のheightとwidthでもダメでしょうか?

 HTML の自動縮小だと、ぶつぶつの目立つ、汚い画像になるんです。

 PDF だと、灰色を使うことでアンチエイリアス(だったかな?)という輪郭なめらか機能が働きます。しかも、あらゆるサイズの縮小に対応します。
 高精度の複数サムネイルの自動作成が、Acrobat Reader にはもともと備わっている。
Posted by 管理人 at 2006年03月07日 14:01
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

過去ログ