音声や画像などの「人が感じる(知覚する)」情報を、どのようにデジタル化するか? まず一般論から紹介します。
1)人間が知覚する様々な「作品(作られたもの)」は、アナログ情報(連続量)であることが多いが、これを人がその差を認識できないほど「細かく分割(離散化)して、デジタルで近似」する。
2)様々な作品を、コンピュータで「作る」ことを念頭におき「作り方の情報」をデジタル化する(作るための命令列で表現する)。
音については、(その次に説明する画像や動画に比べ)簡単なので、やや詳細に見ていきましょう。
人間は楽器の音や声を「耳で」聞きます。耳の中には鼓膜があり、これが空気の振動を捉えます。鼓膜の振動は耳小骨を経由し内耳(蝸牛)に伝わり、その中のリンパ液の振動が有毛細胞を刺激し、その信号が聴神経を経由し最終的に脳に到達して「音」という感覚が生まれます。つまり耳の中に「元の音と同じ空気振動」があれば、同じ「音」と認識されます。そこで、この「空気振動」を電気信号に変換し(マイク)、それを電気信号で伝達し、それを空気振動に変換(スピーカー)すれば、音を遠方に伝えられる、つまり「電話」が発明されます。このとき音(空気の波=空気の振動)は、電気信号(電圧の大小)の変化(連続量)」で表現されています。
この電圧(アナログ量)の時間変化(アナログ量)を、デジタル量で近似的に表現する方法がいろいろ考えられました。なお、ある波を別の方法で表現することを一般に「変調」と呼びます。例えば音声の波を、高い振動数の電波振動の振幅で表現する方法を振幅変調(amplitude modulation: AM変調)、高い振動数の電波振動の振動数のわずかな変化で表現する方法を周波数変調(Frequency Modulation:FM変調)と呼んでいます。AMラジオ、FMラジオとは、この意味です。この2つはアナログ量をアナログ量で表現するので、アナログ-アナログ変調です。一方デジタルコンピュータで処理するためにはアナログ-デジタル変調が必要になります。デジタル技術の黎明期にはできだけ少ないビット列で言葉を聞き分けられるようにするためのいくつものデジタル化技術が生まれました。それらはデジタル回路技術の進展に伴い淘汰され、現在は殆ど全ての場合に、「パルス符号変調(pulse code modulation:PCM)」と呼ばれる方式が使われます。
PCMは、音の振動のグラフを「細かい区間に分け、その区間の値を、数値で近似し、その数値をデジタル(整数あるいは自然数(2進数))で表す」方法です。時間的に細かく区切ることを「Sampling:サンプリング(標本化)」と呼び、ある時刻の電圧を細かく区切ることを「Quantization:量子化」と呼びます。1秒間を幾つに区切るのか、を「サンプリング周波数」と呼び、単位は「Hz:ヘルツ」で表します。例えばサンプリング周波数40kHzなら、1秒間を4万回に区切る、という意味です。また、ある時刻の電圧を数値で表すとき「全体を、何ビットの2進数で表すか=量子化ビット数」で、量子化の荒さ・細かさが決まります。例えば8bitなら256段階、16bitなら65536段階、24bitなら16777216段階という意味です。
「サンプリング周波数」「量子化ビット数」という用語は、「音を扱う時」にはよく出てくる用語ですので、覚えていたら便利でしょう。
元々の波をPCMでデジタル化する場合、サンプリング周波数も量子化ビット数も、大きければ大きいほど、忠実に音を再現できます。しかし1秒間の音のデータ量は、[量子化ビット数]×[サンプリング周波数]になりますから、例えば100bit 200kHzなら、20Mbit/s(1秒あたり10Mbit)となります。 1時間ならその3600倍ですから、72Gbit≒8GByteになります。結構大きなデータですね(^^; そこで「できるだけ実用に支障がない範囲で、量子化ビット数もサンプリング周波数も小さくする」ことが行われます。
音は「人間の耳」で聞くものですが、そもそも人間の耳はどの範囲の音を聞くことができるのでしょう?人により(また年齢により)違いがありますが、およそ20Hz(低音)~20kHz(高音)と言われています。なお「楽器の音合わせに使うラ=Aの音」は440Hzで「1オクターブ=周波数が2倍」です。ある周波数の音を再現するには「その音の周波数の2倍以上のサンプリング周波数が必要」という数学的な定理があります。これをサンプリング定理と呼んでいます。ですから「人間が聞こえる範囲の音をデジタル化するには、サンプリング周波数が40kHz以上であれば十分」ということになります。それでCD(コンパクトディスク)では、サンプリング周波数は44kHzになっています(いわゆる「CDの音質」)。サンプリング周波数をもっと下げても「音楽としてそこそこ楽しめる音質」になります。33kHzでFMラジオ並の音質、22kHzでAMラジオ並の音質、8kHzまで下げると音楽は厳しいですが、電話並の音質は得られますので、会話などなら実用的です。量子化ビットが同じでもサンプリング周波数を変えると「CDの音質(40kHz)」に比べ「電話の音質(8kHz)」では、データの量が5倍ほど変わります。また「量子化ビット数」も高音質が必要に場合いは、減らします。ちなみに「CDは16bit量子化」です。電話の品質で良い場合いには「8bit量子化」が使われることもあります。この場合「CDの音質(16bit 40kHz)」に比べ「電話の音質(8bit 8kHz)」では、同じ時間のデータの量は、10倍ほど変わります。
また、特に高品質の音を扱いたい場合には24bitの量子化を使います。これを「High-Resolution Audio:ハイレゾ音源」と呼んでいます。ハイレゾ音源の場合には、サンプリング周波数もCDより高くし96kHzあるいは192kHzが採用されています。CD(16bit 44kHz)音源に比べ、ハイレゾ音源(24bit 192kHz)のデータ量が何倍になるか、計算してみてください。
PCで音声などを扱う場合、その品質によりデータ量が大きく変わりますので「量子化ビット数とサンプリング周波数」は、目的に合わせて設定すると良いでしょう。なお素人向けに「CDの音質、ラジオの音質、電話の音質」と表現されることもありますが、その意味は上で述べた量子化ビット数とサンプリング周波数を選択する、という意味です。
なお実際の音声データは、このPCMデータ(.wavとか)をさらに「圧縮」して使います(.mp3とか.aacとか)。圧縮については、後で紹介します。
ちなみに、このように作られた音声データを記録したり修正したりするアプリケーションソフトとしては、Audacity(フリーソフト)などがあり、演習室のPCにもインストールされていますし、既に(英語の授業などで)使われている方が多いのではないかと思います。
2)様々な作品を、コンピュータで「作る」ことを念頭におき「作り方」の情報をデジタル化する。
最初ですから、ちょっと詳しく「音を作る装置」を振り返ってみましょう。「音を作る」装置と言えばまず「楽器」を思い浮かべるかもしれません。昔は、楽器は人が操作して演奏するものでした。しかし「自動演奏」の発明により「機械が楽器を操作して音楽を奏でる」ことが可能になりました。これがオルゴールで、演奏のための楽譜データはドラム上の針や穴のあいたテープやカードが使われました。これが「バベッジの解析機関」でプログラムを記録するパンチカードに進化し、コンピュータになっていきました。つまり「楽器を自動演奏する」ことは「コンピュータの原点」とも言え「楽譜はプログラムの原点」とも言えます。
20世紀後半に入り「電子楽器」が急速に進化します。 https://ja.wikipedia.org/wiki/%E3%82%B7%E3%83%B3%E3%82%BB%E3%82%B5%E3%82%A4%E3%82%B6%E3%83%BC 20世紀後半には「アナログミュージックシンセサイザー(発振回路とフィルタ回路を組み合わせて多彩な音を合成・演奏する機械)」が生まれ、実用的な装置(モーグ3)を用いて、冨田勲、エマーソン・レイク・パーマー、ワルターカーロスなどの初期のシンセサイザー奏者が「自然界に存在しない音源による、幻想的な音楽(テクノ系の基)」を生みます。その後デジタル回路技術の進展により音の波形を「デジタルデータ」として扱い、最後にDA変換器を通して電圧信号に変え、それをスピーカーなどを通して音にする「デジタルミュージックシンセサイザ」が生まれました。今はデジタルミュージックシンセサイザー(以後単にシンセサイザと略)は1チップの中に組み込むことも可能になり、また、DA変換器以降の部分を除けば「ソフトウェアで作る」ことも可能になりました。初期の携帯電話やゲーム機、身の回りの「ありとあらゆる、音の出る、電気製品」にシンセサイザは組み込まれており、大昔はチャイムやブザーと使っていた用途は、全て1チップデジタルシンセサイザが使われるようになります(いわゆるピコピコ音が1チップの8ビットデジタルシンセサイザの音です)。「コンピュータ」を搭載した機器ならば、シンセサイザ本体はソフトで作れますので、その(デジタル)出力を電圧(アナログ)に変換しスピーカー(音を出す装置)を繋げるだけにして、回路の簡略化をしています。また、高品質なものは、現実の楽器の音をサンプリングし、その波形を周波数を変換して扱うことによって「任意の楽器の音」を扱えるものなります。デジタルシンセサイザーが洗練されるに従い、シンセサイザーは「幻想的な電子音を奏でる、いわゆるテクノ系専用楽器」という位置づけから「全ての音楽に普通に使われる普通の(シンセサイザとは感じない)万能楽器」へと変貌を遂げていきます。
シンセサイザに音楽を演奏させるためには「楽譜」の情報が必要です。また様々な楽器を使い様々な演奏技法を使うのであれば「楽器のデータや演奏技法のデータ」も必要になります。これらは「電子楽器の中で共通に使いたい」ですので規格(共通の約束事)が作られました。それがMIDI規格です。電子楽器もコンピュータですから、ハードウェアに関する規格とソフトウェアに関する規格があり、MIDIメッセージと呼ばれる部分が「演奏機に送る命令」に相当します。MIDIメッセージ(命令:ビット列で表現)の集合体が「演奏データ(演奏プログラム)」であり、それを1つのファイルに格納したものをMIDIファイルと呼びます。コンピュータの仕組みと全く同じですね。
つまり「楽器(シンセサイザ)を操作する命令列(=コンピュータの機械語みたいなもの)」で「音楽」を表現します。この命令列変えれば「任意の曲を、1つの装置で演奏する」ことができます。なおこの時「音を出す部分は、楽器(シンセサイザ)が担っています」ので、同じデータでも装置(シンセサイザと音を出す部分)を変えると、音が変わります。ですから、安価なPC上のシンセサイザと「本格的なコンサートやレコーディングに使う高価なシンセサイザ」とは音質が違います...が、最終的の「音」を作らず、(先に説明した、mp3やAAC等の)音声データに変換するなら、そこらのノートPCで、レコーディングに使える音質の音楽も作れます。
なお、このようなデータを扱う(つまり、作曲したり演奏したりする)アプリケーションソフトとしては、手軽に使える簡単なものなら、たとえば、Domino(無料)など、また、本格的なものなら、(ユーザー登録での個人情報と引き換えに)無料で使えるBandLabのCakewalkなどが有名です。後者は、米津玄師、スキマスイッチ...等の方々も使っているようです。現在では、様々な音楽が、コンピュータを用いて作られています(日本では、DTM:Desk Top Music(和製英語) と呼ばれていますが、英語圏では普通に Programming(プログラミング) と呼ばれています)。
この方向で、楽器音楽以外にも、例えば楽器の音の代わりに「人間の声」を使う装置を使い「ボーカロイド(歌う機械)」や、「音声合成やそれを使った読み上げ」などが実現されています(なお余談ですが、最近、Youtube等に収益を得るための有料のボーカロイド作品を投稿することが、ボーカロイドソフトの販売会社より認められました。)。なお、人間が音声で言葉を話す時など「(表音文字であっても)読み実際の発音は大きく異なる」ことが音声合成の研究から深く認識されています。「人間にとって自然な発音と感じ取れるような音声合成」は、単純な(人間が作れる程度の)プログラムでは書ききれませんので、割と最近、ニューラルネットによるAI技術の進展によりようやくそのことが可能になりました。人が無意識にやっていることを機械で「作り出す」には、その無意識にやっていることを解明する必要があり、かなり難しい(現代的なあるいは近未来的な)技術になり、現在急速に進展している分野の1つになっています。なお、コンピュータによる「文章の読み上げ」や「聞き取り」なども、リアルタイム音声合成技術やリアルタイム音声認識技術の進展によって可能になったものであり、特にニューラルネットの技術を使うことにより、急速に進展しており、年々「自然」になってきています。そのような技術を使う前提でなら、「普通の、文字(コード)による文章自体が、音声を(文字によって)デジタル化したもの、と捉えることもできる」のかもしれない、と思います。
では次に「画像」データのデジタル化について簡単に見ていきましょう。ちょっと複雑なので、音よりも「大まかに」説明します。詳細についてもっと詳しく知りたい方は、Webで調べてください。ほぼ全ての完全な情報が、ネット上にあります。
1)人間が知覚する様々な「作品(作られたもの)」は、アナログ情報であることが多いが、これを人がその差を認識できないほど細かく分割し、デジタルで近似する。
写真など「既にある図や絵や写真」などを、デジタル化する方法は、「画面を、小さな点の集まりで近似する(デジタル化する)」という方法です。画面は2次元ですから縦方向x個、横方向y個に細かく分割します(縦横共に量子化)。すると、画面はxy個の「小さな点みたいなもの」の集まりになります。この小さな点みたいなものを「Pixel: ピクセル=画素」と呼びます。例えば縦1000個(=1k個)、横1000個(=1k個)に分割すれば、画素の個数は1000×1000個=1k×1k個=100万個=1M個になります。これを1Mピクセルあるいは百万画素と言います。よく使われるフルハイビジョンの画面は、1960×1024ですから、およそ2Mピクセルと思えば良いでしょう。
ピクセルに分割すると、絵は「各ピクセルの色」で構成されます。
初期の頃は「各ピクセルが白か黒か(2値=デジタル)」のデータから扱われ始めました。各ピクセルが白か黒かで0・1のビットを割り当て、そのデータを全画素分集めて一枚の絵を表現する方法です。白か黒で構成される画像(=白黒画像)は、この方法でデジタル化でき、特に「ファクシミリ」などで多用され、コンピュータからの出力を「グラフ」で表す時にも多用されました。この方式は「紙に(1種類の)ペンで書いたもの」のような場合には有効ですが「筆で書いた、濃い部分や薄い部分がある」画像は表現できません。そこで白と黒の間「灰色」を表現するために「明るさ(濃淡)」という量を量子化しデジタルで表す方法が生まれました。「単色:モノクローム」というべきですが、日本語ではこれを「白黒」と呼ぶ場合が多いと思います(そして本当の白と黒だけの場合は、白黒2階調と区別します)。よく使われるのは白と黒の間を256当分し8ビットで表す方法です。しかしこれでは「色」が表現されません。
色は客観的には光の波長ですが「人間は、目で光を感じ、脳で色を認識」します。人間の目の中の網膜には視細胞がありその中には「光を電気信号に変える色素分子」があり、この分子が光を受けてそれを電気信号に変え、視細胞から神経細胞にその信号を伝え、最終的に脳に到達し「色」と知覚されます。この「光を感じる色素分子」は特定の波長(色)の光に反応し生物進化の過程で「哺乳類は(赤と青に反応する)2種類の色素」を持つようになりました。その後、およそ3千年前ごろ人間の中で、突然変異により「緑に反応する色素」を持つ人間が生まれ、その後「赤、青、緑」の色素を持つ人が増え、多数派になっていきます(現在でも2つの色素の人も、結構高い割合で比較的多くいます。色盲と呼ばれますが、これは病気ではなく、それが本来の人間である、とも言えます)。いずれにせよ、人間は「赤、青、緑」の3つの波長の光しか視細胞で感じ取ることができません。そしてその「赤、青、緑」の組み合わせを脳で「色」とい感覚が生まれます。ですから、「赤、青、緑」の強度さえ再現されていれば、ほとんどの人間にとっては「同じ色」に見えます。これを「3原色(Red Blue Green: RGB)」と言います。
そこで、ピクセルの「色」を表現するために「赤、青、緑の強さの組み」が使われます。赤(R)青(B)緑(G)の強さをそれぞれ256段階に量子化し、それぞれ8bit合計24bitのデータで表現する方法が標準的です。この、24bit RGB表現を「フルカラー」と呼ぶ場合があります。これがコンピュータなどで「カラー画像」を扱うときの「基本」です。24bit RGBのピクセルデータを1画面分全部並べたものを「RGBデータ」あるいは「ピクセルマップデータ」あるいは「ビットマップデータ」あるいは「ラスタデータ」と呼びます。別名が多く、厳密に言うと少し違う意味で使われる用語もありますが、まあ大体全部同じ意味と思って良いと思います。それに画面の大きさ(x,y)の情報などを付加してファイルにしたものを、RGBファイル、PNGファイル、BMPファイル(.BMP)、TIFFファイルと言います(厳密にはPNG,BMPファイルは圧縮がかかっていますが、可逆圧縮なので、利用上は非圧縮と同じように考えて良いです。なお圧縮については後で説明します)。
なお、デジカメなどは、イメージセンサー内の受光素子に当たった光を電気信号に変えますので、まあ「目」と同じ仕組みと思って良いと思います。受光素子は半導体チップの表面にものすごく小さな碁盤の目のように配置され、それぞれの受光素子には赤、青、緑の光しか通さない小さなフィルタが取り付けられており、赤、青、緑の光の強さをAD変換器でデジタル化(量子化)し、各ピクセルの情報をコンピュータに伝えます。コンピュータはそれぞれのピクセルの色を受光素子から順に読み出し、それを順に格納することにより「写真データ」として保存します。
このような形式で「画像データ」を作り「拡大」すると、ピクセルごと拡大されますから画像は「ガタガタ、あるいはボツボツ」になります。画面と印刷では一般にドットの大きさが違いますので、画面ではきれいに見えるのに、印刷したらガタガタ、ということが起こります。こういう現象を起こしたくない場合には「ベクトルデータを使って作図する」か、あるいはビットマップデータを使う場合には「使うよりもずっと大きな図(例えば縦横4倍とか8倍とか)」を作って、それを「縮小して張り込むなどして使う」と、ガタガタが目立ちません。なお活字(フォント)にも、ビットマップデータで活字の形を定義している「ビットマップフォント」とベクトルデータとして各自の形を定義している「ベクトルフォント」があり、ベクトルフォントは拡大してもガタガタになりませんが、ビットマップフォントは拡大するとガタガタになります。このようなことは「きれいな印刷物を作りたい」時には必要不可欠の知識・テクニックになります。
ところで、ビットマップデータの場合、(縦横のドット数が多くなるに従い)画素数が多くなるに従い、画像データは大きくなります。そこで実際には「データを抑える工夫(圧縮)」が行われます。画像データの圧縮の仕方には、後でまとめて述べる「一般的な圧縮方法」を用いる場合と、「パレット」を使ってデータを削減する方法があります。「パレット」とは、絵を書く時に絵具を混ぜる、あの「パレット」です。コンピュータの中では「いろいろな色」に番号(パレット番号)を付け、画像データに内のピクセルは色そのものではなく「ピクセルの色のパレット番号」で指定する方法です。同じ色なら「同じパレット番号」が使われます。もし画像の中で使われている色の種類が少なければ(例えばポスターみたいな絵なら)、使われている色を例えば8ビット(256種類)の番号で表せば、画像データの大きさを約 1/3にできます。表示する時にはパレット(パレット番号と実際の色(RGB24bit)の表)を引いて本当の色(RGBの値)で表示しますので、色数が限られる以外は、画質に劣化はありません。ただし色数が256色を超える場合には表現できないあるいは似た色で代用する、ということが必要になります。
このような扱いをする絵を取り扱う主なソフトとしては、Windowsに標準添付されている「paint(ペイント)」などの簡易なものや、「Adobe PhotoShop(1年利用で1万円程度の価格)」等の「写真編集ソフト」などがあります。高性能なフリーソフトとしては「GIMP」がありますので、より詳しく知りたい、絵を書いてみたい漫画を書いてみたい、写真を編集してみたい...などの方は、GIMP(フリーソフト)を使ってみると良いでしょう(英語のサイト??? 安心してください(^^; 日本語対応していますし、日本語のインストール法説明サイトもたくさんあります)。
2)様々な作品を、コンピュータで「作る」ことを念頭におき「作り方」の情報をデジタル化する。
人が絵を書く場合、ペン(あるいは筆)を持ってペンを動かして、絵を書きますね? 手の代わりをする機械(例えば、XYプロッタ)」を作り、それをコンピュータで操作すれば、コンピュータで絵を書くことができます。これが「Computer Graphics : CG」の始まりです。様々な絵は、どのペンを使い、どこからどこまで線を引くか、そういう「ペンを動かす命令」の集まりで表現できます。ペンを降ろす場所や上げる場所は「座標」で表し、その座標の値(実数)は必要に応じて、整数、固定小数点数、浮動小数点数などで表現します。2点を結ぶ直線だけでなく、円弧も中心座標・半径・始点終点の角度などの数値と「ペンをコンパスに付けて円弧を書けという命令」で表現されます。また何点かの座標を与え、それを直線で繋いだり、「滑らかな曲線(例えばベジェ曲線)で」繋いだりとか、そういう命令も使われることがあります。いずれにしても「座標やペンの種類やペンの動かし方を指定する命令」を組み合わせて、命令通りに「絵を描かせる」という方式です。この方式のデータを「ベクトルデータ」と呼んでいます。音の場合の「楽譜やMIDIデータ」に似ていますね。この方式の特徴は、図を「正確な(あるいは十分な精度の)座標データ」として扱っているのでその図を「拡大・縮小することが容易(座標の値を何倍かするだけ)」という点です。また、「正確な座標データに基づき、表示・印刷装置により装置の精度で描画する」ので、拡大しても後で述べる「ギザギザ」が現れないことです。そこで「正確な拡大縮小図が必要となる図面(設計図など)」や「拡大しても滑らかな線が維持されることが必要な、芸術性の高い絵やイラスト、漫画、アニメ等」は、基本的に、このような図形データの扱いをするソフトウェアで作ります。
このような扱いをする絵を取り扱う主なソフトとしては、「Word, Excel, PowerPoint等の描画機能、 Windowsに付属の ペイント3D」や「Adobe Illustrator(1年利用で年2万円程度の価格)」や「CAD:設計用製図ソフト全般(AutoCAD, Jw_cad)」などが、あります。なお建築関係の分野などでは(日本の建築士が、自分が使うために作成した本格的なCADソフト)フリーの JwCAD が実質業界標準のような形で広く使われています。また、(一般目的の)高機能なフリーソフトとしては「Inkscape」がありますので、より詳しく知りたい方、拡大したり印刷したりしても綺麗な絵やイラストを書いてみたい方は、Inkscape(フリーソフト)で体験すると良いでしょう。ちなみに、最新のWeb規格(HTML5)で綺麗に拡大縮小できる画像形式(SVGファイル)は、ふつうはこれで作ります(お金の余っている人や業務などのために既に購入している人はAdobe Illustratorを使います)。なお、最近は、PowerPoint等MS_OfficeでもSVG形式での入出力が可能になりましたので、簡易的な作図に(比較的高価な有料ソフトですが、既に抱き合わせ商法などで購入している人は)PowerPoint等を使うのも良いでしょう。
では次に「動画」について見てみましょう。音声や画像よりもずっと複雑になりますので、ここでは大まかな概略の紹介のみの留めます。興味のある方はここで紹介するキーワードを元に、詳しいことはWebで調べてください。
1)人間が知覚する様々な「作品(作られたもの)」は、アナログ情報であることが多いが、これを人がその差を認識できないほど細かく分割し、デジタルで近似する。
動画をはじめて実現したのはエジソンのキネトグラフ・キネトスコープでしょう。原理は絵を素早く切り替えると「(素早い切り替えと知覚されず)動いているように見える」ベータ運動と呼ばれる錯視現象を利用したものです。この錯視現象のため、毎秒わずか数十回切り替える程度で、人間には「なめらかに動いている」ように見えます。まあ「パラパラ漫画」の原理です。ですから基本は、「画像データ」を表示順に並べたものが「動画」データになります。時間を短く区切るのは音声におけるサンプリングと同じですが、音声の場合は1秒間を数千~数十万に区切りますが、動画は1秒間に10枚から100枚程度で、音声の場合とは2桁~3桁ちがいます。動画の場合のサンプリング周波数(=フレームレート)は、通常(Hzは使わず)、毎秒のフレーム数(Frame Par Second:FPS)で表します。なお、標準的なフレームレイトは、NTSC(日本のアナログTV) 約30fps、PAL(欧米のアナログTV) 25fps、映画 24fps、フルハイビジョンTV 60fps 。フレームレイトが違う場合には「変換」が必要ですが、整数比でないと「内挿処理」が必要になり画質が落ちます。映画・NTSC・フルハイビジョン、どれも内挿演算無しで忠実に再現させるためその最小公倍数である120fpsが使われることも多いです。また、3D表示の場合には、片目用の画像は半分になるため、片目当たり実質60fpsを確保するためには、120fpsが必要で、それ以下だと通称「3D酔いの現象」が起こることがあります。
現在の通常のディスプレイ装置などは、この方法を利用しているため、下記の2)の方法を利用した場合でも「表示にあたっては」この方法に変換してj表示します。解像度が大きくフレームレートも高い場合にはデータ量が膨大になるため、次に述べる「データ圧縮」が至ることろで利用されます。
このような動画データを扱うソフトは、いわゆる「動画編集ソフト・ビデオ編集ソフト」です。
「Windows7のころまでWindowsに標準添付されていたWindows Movie Maker」が初心者向けに最適だったのですが現在は提供されておらず、さらにWindows10に標準添付されるようになった「フォト、の中の、ビデオエディター」が一応後継とのことですが(演習室のPCにはこれを入れてあります)、かなり機能が低く、さらに Windows 11では、Windows10標準添付だった「フォト(その中に「ビデオエディタ」の機能も含まれている)」も標準添付されていません。Windows11では「フォト レガシー」として別途手動でインストールすることが可能なソフト(初めからは入っていない)になっており、「Windows11に添付のフォト」は、名前は同じでもWindows10のフォトとは全く違う物が、標準添付されています。そして Windows11 には、ビデオエディタの代わりにClipchampが標準添付されています。なお Clipchamp は「有料のサブスクプランにアップグレードしないと、かなり機能限定されている(有料のMicrosoft365プランに登録していれば、その範囲で追加料金なしで使える)」ものです。Windows11標準添付の Clipchamp は、そのような「広告的意味合いの試用ソフト的なもの」であることに加え、「ネットに接続された状態で、マイクロソフトアカウントを使って、マイクロソフト社のサーバー上で画像処理する仕組み(編集する動画はクラウドにアップロードして、編集後の動画もクラウドからダウンロード)のため」かなり使いにくいと感じる人が多いようです。Microsoft社は、こういう「不便になるような面倒なこと」を良く行いますので、注意が必要です。なお、Macなら「iMovie」が標準添付で、こちらはそこそこ機能がありますし、コロコロ変わることも無いようですので、安心して標準的な動画編集ができると思います。なお、(Windows用)フリーソフトでは AVIUTL などがありますが、インストールや使い方が(ソフトの作り方に慣れていないと)やや難しいかもしれません(演習室PCには入れてあります)。ということで、Windowsでの実用的な動画編集は「有料の市販ソフト」を使うことが多いかもしれません。なお、映像スタジオなどでは「Davinch Resolve」と専用コンソール(ボタンやつまみ等で感覚的に操作しやすくし、専用の画像編集装置として機能する)などを使ってプロが仕事をしていますが、その機能限定無料版(家庭などで使うには十分な機能)がありますので、そのレベルの編集を学びたい人などは(例えば高校の放送部や映像部とか、将来プロを目指したい人もいるかもしれない、という人たちの活動に使うには)そういうもの(プロ向けの本物、の機能限定家庭レベルの無料版)を用いている人たちも多いようです(ただし、そこそこの性能のGPUを備えたPCでないと動作が重いかもしれません)。なお、Youtubeに投稿とかの場合には、投稿システムの中に簡易な編集機能が組み込まれていますので、そういう「動画投稿サービス」を利用する前提であれば、スマートフォンからでも、簡単な動画編集ができます。でもまあふつうは、Filmora 等の「あまり高くない(数千円~1万円程度の買取価格の)有料ソフト」を購入して、そこで編集してからアップロードする人が多いとは思いますが...
蛇足:本学の学生さんの場合には、「大学アカウントと紐付けられた、Microsoftアカウント」で、Microsoft365 を、無料で利用できますので、在学中は、それを利用して、Microsoft365を利用すれば、その範囲で MS-Office や teams(電子会議) と 同じく、Clipchamp も、無料で全機能使えます。ただし... 学生時代に「MS社の有料サブスクサービスを使わざるを得ない利用法だけに頼るように慣れてしまう」と、卒業後「Microsoft社にお金を払い続けないと、PCが使えない」という状況になりますし、それを狙って「大学などで無償で使わせる」ということを行っていますので、そのことは知っておいてください。
2)様々な作品を、コンピュータで「作る」ことを念頭におき「作り方」の情報をデジタル化する。
「アニメーション画像を計算で作る」方法です。これは「物体が動く現実の世界をコンピュータの中に作る」ことになりますので、現在では平面の世界(2次元)ではなく立体の世界(3次元)で世界を作り、そこから2次元投影し、ディスプレイなどに表示する方法が取られます。物体は「代表点を繋ぎ合わせた図形(ワイヤーフレーム)」の形でデータ化され、描画は代表点を3次元的に繋ぎ合わせた図形(ポリゴン)を組み合わせて行います。その際「滑らかに」繋いだり、光の透過や反射などを、光の透過・屈折・反射の物理法則法則にしたがい計算する(レイトレーシング)手法を使い、現実の見え方を再現し、最終的に1)の方法による動画データを生成します。また、物体の運動は、物体の運動法則(運動方程式)を解くことにより、現実の物体の運動と同じ運動を再現し、各時刻のポリゴンを作ります。
簡単に言えば「現実の世界の法則と同じ法則を用い、物理法則を(物理エンジンと呼ばれる仕組みで)高速に演算することにより、必要な時刻の物体の位置などを算出し、それに基づき、光が当たった時の見え方を、光の透過・屈折・反射の法則に基づいて計算する」ことにより、非常に「リアル」な画像を合成することが可能になります。現在のいわゆる「3DCG(3次元コンピュータグラフィック)」はこの手法で作られます。その中で、特にゲームなどでは「リアルタイムでこの計算をする必要がある」ため、かなりの演算能力が必要になります。GPUは、この中の「光の透過・屈折・反射の計算」や「ポリゴンの内挿計算」や「運動方程式(2階微分方程式)を解く」等演算を、大量かつ高速に行うように作られています(ハードウエアの説明で延べましたが、その性能は1昔前のスーパーコンピュータ並みです)。
なお、このようなことを行うソフトとしては、「Maya(1年利用あたり約25万円)」等があり、日本のほとんどのゲーム会社・アニメ映画制作会社等では、Mayaを使うことが多いようです。なお高機能なフリーソフトとしては、「Blender」があり、こちらは無料でだれでも使え、世界中(基本、英語圏)で広く使われていますが、ちょっと前まで日本語化や日本語での説明書が少なく、日本ではあまり広く使われていませんでした。しかし最近、とある日本のアニメ会社が「アニメ映画作成の道具を、(高価な有料ソフトから)全面的に(無料の)Brenderに移行する計画」を発表し、本格的にBlenderの開発支援(資金援助なども含む)もはじめ、現在急速に「日本語環境」が整いつつあります(主要なメニューなどはかなり日本語化され、日本語の説明書なども増えてきています)。ゲームやアニメは「大勢で手分けして、キャラクターなどのモデル化をする必要がある」ため、大勢が単一のソフトで作業する必要があるため、1つの作品を作るため、大勢の関係者が使うソフトの代金、は、かなり莫大な金額になります。さらに、高価なソフトがインストールされている会社のスタジオでの作業ならまなしも、それをテレワークで「自宅で」行うとすると...そのソフトウエアの利用ライセンス料だけで1か月2万円程度の支払いなりますので、たとえば、仕事を、バイト的な作業量に分けて大勢に各部分を担当してもらって進める方法を取ろうとすると、作業者はそれなりの収入が生まれるほど稼ぎませんと、それぞれの作業者のバイト代が全部ライセンス料だけでの吹っ飛びますから...(^^;; それが「無料」になれば、ソフト開発などに投資しても、かなりのコスト削減になりますし、「テレワーク(家のPCで、仕事のアニメを作ってもらう)」や分業化も、簡単にできます(そうでないと、家のPCに、きわめて高価なソフトを購入にて入れる必要があります)。そんな流れがありますので、もし「本格的な3DCGによるアニメーション」に興味のある方は、気軽に(無料で)Blenderを使って、3DCGの体験・勉強をしてみるのも面白いかもしれません(日本語での説明はかなり増えてきました(YouTube[blender 10分]等)。なお、3DCGは、いわゆるTVや映画の「アニメ作品」だけでなく、建築物を作る前の予想図とか、その他様々な開発業務や、宣伝・告知の道具として使われますので、簡単な物は作れるようになっておくと、あらゆる業務で、便利かもしれません。なお、このようなことを本格的に行うには「普通の安価なPC」ではちょっと能力不足になりがちですので、数十年前のスーパーコンピュータに匹敵するグラフィック性能を持つPCつまり、「高性能GPUを搭載したゲーム用PC等」を利用すると、現実的なスピードで作品を作れると思います。
なお、「Windowsに付属のペイント3D と 3Dビュアー」や、最近のバージョンの PowerPoint 等でも簡単な3Dアニメを扱えるようになってきていますが、サンプルを表示したり、移動したり回転させて「アニメーション」ということ以上のことは、あまりできないように思います(今後発展する可能性もありますが...「作品」と言えるレベルのものを作るには、現段階では力不足でしょう)。
なお、この手法でCGを作る場合、大本のワイヤーフレームの情報を作る作業を(画家やプログラマーなどが)手動で入力するのではなく、自動で行う技術もあります。例えば役者の体(や顔)の各所に位置を検出しするための仕組み(マークやセンサー等)を取り付けて演技し、その位置からワイヤーフレームモデルとして役者の演技や表情をデジタル化し、そのワイヤーフレームから別の肉付け(内挿)やテクスチャ(表面の質感)を組み合わせて、まるで猿が演技しているような3DCGを作ったりすることも可能です(モーションキャプチャーとか、フェイシャルキャプチャーとか言われている手法で、猿の惑星とかアバターとかの映画でも使われ、現在では多くのSF映画などで普通に使われる手法です)。また、役者にマークやセンサーを付けずに普通に撮影した写真や動画から(後で紹介するAI技術を利用して自動的に)3Dモデリングしてワイヤーフレームモデルとしてデジタル化することも、現在では、ある程度可能です。
なお、ZOZO(創業者:前澤友作)は、このモーションキャプシャーの技術(動画では無く静止画ですが)を簡便にして、「採寸して作るオーダーメイドの服を遠隔で作ることを可能にするシステム(ZOZOスーツ)」の開発をしています。初期バージョンは「面倒だったり、服飾用の採寸としては正確さに欠けていたり」で、結果として失敗しています(試作品レベルの品質)が、その後改良も進められているようで「簡略化と服飾用の妥当な採寸」が可能になれば、大化けする技術して注目している人も多いです。
音、画像、動画などのデータをデジタル化する手法には、どの情報に関しても、大きく分けて、2つの方向の技術があります。
1)人間が知覚する様々な「作品(作られたもの)」は、アナログ情報であることが多いが、これを人がその差を認識できないほど細かく分割し、デジタルで近似する。
2)様々な作品を、コンピュータで「作る」ことを念頭におき「作り方」の情報をデジタル化する。
精度よく表現しようとすると、1)の方法ではデータ量が大きくなるため(後で説明する)「データ圧縮」の技術が必要不可欠になります。また2)の方法は「音声(特に言語)、絵、物体の運動等についての深い理解(法則の解明)と、(法則に基づいた)高速の演算」が必要不可欠になります。
なお、それ以外の各種「(広い意味での)情報」のデジタル化についても、ここで学んだ大きく分けて2つの方向性があることを念頭に置くと、視野が広がるでしょう。たとえば会議のデジタル化。会議や合意形成や意思決定は自体は古臭い(アナクロな)方法で行い、その音声と映像を細かく分けた「デジタル映像」のリアルタイム配信で行う電子会議。もう一つの方法は、各人の承認や質問・提案・意思決定に必要な情報提供や情報交換を「文書やチャット等でデジタル化して共有」して、非同期に(オンデマンド式で)行い、それを集計して逐次「決定」していく方式。後者は「意思決定の仕組みやプロセス自体を、作る」という立場で、合意形成の作業自体を(モダンな方法で)デジタル化、前者はアナクロな業務スタイルのまま「既にある会議室の映像や音声」を細かく分割してデジタル化....同じ「デジタル化」という言葉を使っても、合理性、効率などに随分大きな差が出ます。ちなみに、(無駄の多い)パワーポイントによるプレゼンとか、(必要な説明が不十分になりがちな)箇条書きや絵などによる説明や提案を禁止にして、普通の文書を用いたメールやチャットで「合理的かつ効率的に意思決定を行うようにしている」世界的な巨大IT企業などもあるようです。
では、今回はこの辺にして、次回は「暗号や認証」等についての話に進んでいきます。旧時代(アナクロ)には「錠前と鍵」「判子」や「サイン」等によって実現されていた機能を、如何に「デジタル化」するか、という話です。
では、今日は、このへんで終わります。