パターン情報処理 2016年度 第2回の宿題 †[edit]
この問題に解答するためには龍大計算機室の Linux 環境でいろいろ作業する必要があります.
dat1.txt dat2.txt dat3.txt
上記リンク先の3つのテキストファイルをダウンロード(下の注意参照)し,次のことを行いなさい.
- 次のコマンドを実行して3つのファイルそれぞれのサイズ(バイト単位)を調べ,答えなさい.
$ ls -l dat?.txt (?もその通り入力.任意の1文字を表すので...)
- 次のコマンドを実行して3つのファイルそれぞれの文字数を調べ,答えなさい.
$ wc dat?.txt
ちなみに,wc (word counter) の出力は,行数,(空白を区切りとして数えた)単語数.(アスキー文字単位で数えた)文字数の順です.
- 適当な方法(cat/less/emacsなど)でこれらのファイルの中身を眺め,これらがどう異なるか述べなさい.
注意: 普通にブラウザでリンクをクリックすると文字列が見えるので,マウス操作でemacs等のエディタにコピペすることもできますが,それだと全体をコピー仕損なったりする可能性が高いです.ブラウザで右クリックして「リンク先を保存」とかそういうやり方でダウンロードしてください.
- 次のコマンドを実行して3つのファイルを圧縮してみよう.
$ gzip dat?.txt
その後
$ ls
すると,元のファイルがなくなって,拡張子 .gz が追加されたファイルができていることがわかる.
(1) と同様に ls -l でこれらのファイルサイズを調べ,答えなさい.
- 3つのファイルで圧縮後のファイルサイズがずいぶん異なることがわかる.その違いが何によるか,(1) で眺めたファイルの中身から理由を推測して答えなさい.
ちゃんとしたことは次回学ぶので,気づいたことから素朴に想像をめぐらせてみたらよい.
- gzip で圧縮したファイルは gunzip で伸長できる
- bzip2 というコマンドの方がより新しく効率の良い圧縮アルゴリズムを採用している.使い方は gzip と同じなので試しに圧縮してサイズを比較してみたらよい
講義資料参照