データベースとアルゴリズム

(2005.11更新)

データの検索の為のデータ構造とアルゴリズム：

以下でインデックス処理のために、データベース内部で利用されているデータ処理アルゴリズムについて説明する。

データ検索アルゴリズム

データの検索を効率的に行う為に、データの格納方法を工夫する。
そこで、データを記録するときには規則的に記録すれことにする。
データを記録するための規則をデータ構造と呼ぶ。

代表的なデータ構造：

バイナリーツリー（２分木）
データを木構造を用いて記録したもの。データの登録順によって、検索効率が悪くなる場合がある。
ハッシュ
データを検索するためのキー値を計算で求め、登録に利用するもの。
Bツリー（２－３木）
バイナリーツリーを改良し、各葉のレベルが揃った木構造になるようにしたもの。データベースなどで広く利用される。
ヒープ
最小値（最大値）の登録・検索を木構造を用いて効率的に行えるようにしたもの。

２分木にデータを記録するときの規則：

根から順番に空いた場所を探してデータを追加します。
データを記録するときは　左側の子　＜　親　＜　右側の子　となるよう枝をたどって記録します。

２分木の検索手順：

根から順に、途中の節の値と目的のデータを比較して行きます。もし、現在の節の値と検索データが異なるなら、大小関係に応じて枝をたどり、更に下の節の検索を続けます。

２分木の問題点：

追加されるデータの値によっては、２分木の構造が検索に関して非効率になるので、再編成が必要になります。
※常に最適な構造に２分木を保ちながらデータを追加することも可能です（どうやれば良いでしょう？　各自で検討してください。
※データを直線的に並べて検索する場合と、２分木を使った場合では平均でどの程度差が出るでしょうか？　各自で検討してください。

２分木について確認する：
2分木の規則に従って以下の木にデータを追加する。その後、検索の効率について検討する。

10,6,3,4,8,2,7,9,13,16,15,11,17 の順に追加
2,3,4,6,7,8,9,10,11,13,15,16,17 の順に追加（途中で追加不能になる）

節の値を元に戻すには、ブラウザの「戻る」で戻って、再び「解説ページ」をクリックする。

深さ	小さい←	根	→大きい
1
2
3
4

検索の効率について：

上の例の様に、でたらめに並んだ１３個のデータからあるデータを見つける際には、平均６～７回データを取り出して調べる必要があるが、上の例では、最悪でも４回の調査で目的のデータがあるかどうかを確認できる。

また、データがあらかじめ順番に並んでいる場合は、順位が中央の値と比較し、その大小関係で次に検索すべき範囲を決め、同様に新たな範囲の中央の値と比較してて行くことで、データを検索することが出来る。
これは、２分探索法と呼ばれるデータ探索のアルゴリズムである。

データ並べ替えアルゴリズム

データを並べ替えることをソートといい、さまざまな手法が開発されている。

以下のものが有名、

挿入ソート
バブルソート
シェルソート
マージソート
ヒープソート
クィックソート

ソートの練習（挿入ソート・バブルソート）

下の図では、コンピュータのメモリ上にデータが格納されているものとし、メモリ上の各データは一度に2個だけ値を参照して、大小関係を比べることが出来るものとする。
比較した2個のメモリの値を必要があれば入れ替えることで、データ全体を最終的に並べ替えることを目標として、下の図の「隣接データを交換」ボタンを押す手順を考えてみよ。

ソート済みをチェック	1	2	3	4	5	6	7	8	9	10
配列内のデータ
隣接データを交換

元に戻すには、ブラウザの「戻る」で戻って、再び「解説ページ」をクリックする。

■挿入ソート：

ソート済みの領域に対し、値を順次挿入してゆく

比較対象	交換有無	並べ替え完了範囲
1 2	なし	1 - 2
2 3	なし	1 - 3
3 4	あり
2 3	あり
1 2	なし	1 - 4
4 5	あり
3 4	あり
2 3	あり
1 2	あり	1 - 5
		以下略

■バブルソート：

未ソートの領域から、最大値（または最小値）を１個づつ探し出して取り出してゆく

ソート済みをチェック	1	2	3	4	5	6	7	8	9	10
配列内のデータ
隣接データを交換

比較対象	交換有無	並べ替え完了範囲	比較対象	交換有無	並べ替え完了範囲
1 2	なし		1 2	なし
2 3	なし		2 3	あり
3 4	あり		3 4	なし
4 5	あり		4 5	あり
5 6	あり		5 6	あり
6 7	あり		6 7	あり
7 8	あり		7 8	あり	8 - 10
8 9	あり		1 2	あり
9 10	あり	10	2 3	なし
1 2	なし		3 4	あり
2 3	あり		4 5	なし
3 4	あり		5 6	あり
4 5	あり		6 7	あり	7 - 10
5 6	あり		1 2	なし
6 7	あり		2 3	あり
7 8	あり		3 4	なし
8 9	あり	9 - 10	4 5	あり
		右上に続く	5 6	あり	6 - 10 以下略

実は、上記の挿入ソートもバブルソートも、並べ替えるデータのサイズをＮとすると、並べ替えに要する手間がＮ自乗の爆発的に増えるという点で、効率の悪い手法である。

他のソートアルゴリズムについては略（この図では説明不能）。データベースでは、マージソートなど、より高速で大量のデータ向きのアルゴリズムが利用される。