画像検索について(特にContent-based image retrieval)(2)
banuです.
前回に引き続き画像検索について考えてみようと思います.前回は特に言葉の定義などを考えずに議論をしたため,議論自体が少々混乱したものになっていました.今回はもう少し丁寧に議論したいと思います.
まず,Content-Based Image Retrieval (以下CBIR) とは何か.適当なサーベイ論文(A survey of content-based image retrieval with high-level semantics [Liu et al. 2007],サブスクリプションが無いと読めません.が,google scholarで検索すると,PDFファイルが直接見付かります.このPDFは著者らが公開しているものではなさそうなのでリンクしません.)を参考にすると,Image retrievalについて
There are two frameworks: text-based and content-based.
と書いてあります.ここで言う”text-based”とは厳密にはgoogleイメージ検索のようなものではありませんでしたが,原理的には類似しています.画像に対してテキストでタグをつけて,それを使って検索するシステムをtext-basedと呼んでいます.これは1970年代から研究されてきたものですが,弱点があります:
- タグをつけるのはすごく大変(想像を絶する労働力が必要となる),
- タグが人間の主観に影響される.
労働力の問題は(ある程度は)どうにかなるとしても,主観の問題は非常に困難であることが予想されます.計算機は概して主観を扱うのが苦手です.
そこで,1980年代から,色,テクスチャ(模様のこと),形などの視覚的情報から画像を分類・検索するシステムの研究が行われてきました.近年では,”見た目が類似している”(色の分布が似ている)というよりは,その画像に含まれている物体の”意味が似ている”ものを検索することを主眼とした研究が主流です(前者は既にそれほど困難ではなくなったため).前回は”似ている”という言葉に対してGazoPaなどは(おそらく)前者,俺の好みでは後者の意味で使っていましたのでGazoPaでは物足りないのは当然でした.
Content-based image retrieval [Eakins et al. 1999](.docファイルです)によると,CBIRには3つのレベルがあって:
- この絵みたいなやつを見つけてよ(色などの類似性,GazoPaはこれ),
- 花の絵がほしいなあ(具体的な物体の指示),
- 楽しそうな人々の絵がほしいよ(抽象的な物体の指示),
となり,レベルが上がるほど難しくなります.レベル1とレベル2・3の間にはsemantic gap(高次の概念差)があります.色などのlow-levelな概念(numerical features)と人間の持つhigh-levelな概念(semantics)は簡単には結合できないので,難易度は急激に上がります.
さらに,前回の話では,”この絵と似た絵をくれよ”というのをレベル2の意味で使っていたので,実は,”この絵に含まれている物体を認識した上でレベル2のCBIRをやってくれ”というように,問題が多少複雑になっていました.つまり,
- ある画像に含まれる物体のsemanticsをlow-levelな概念で記述する,
- そのlow-levelな概念を用いて同じsemanticsをもつ画像を検索する,
という作業が必要です.これらを実現するにはsemantic gapを埋めなくてはならないということが分かります.
というわけで,次回と次々回でlow-level特徴をどのように定義し,semanticsとのgapをどのように埋めるのかを考えます.
(内容は基本的にA survey of content-based image retrieval with high-level semantics [Liu et al. 2007]に準拠しますので,興味のある方は参考にしてください.)