takataka/note/2020-03-10
をテンプレートにして作成
[
トップ
] [
新規
|
一覧
|
単語検索
|
最終更新
|
ヘルプ
|
ログイン
]
開始行:
データと前処理の説明ありがとう > [[m/2018/yohei]]
#contents
** okarin のデータその1: Fashion550k [#Fashion550k]
- okarin の使ったデータ
- cf. [[m/2018/yohei/experiments/fashion550k/data#Fashion550k]]
*** オリジナルデータセット [#pd0ac2c4]
- データセット https://esslab.jp/~ess/ja/data/fashion550k
- 論文
-- ``Multi-Label Fashion Image Classification with Minimal Human Supervision,''
Naoto Inoue, Edgar Simo-Serra, Toshihiko Yamasaki, Hiroshi Ishikawa, ICCVW2017
-- https://esslab.jp/~ess/publications/InoueICCVW2017.pdf
論文 Section 3 より
-- 550661の投稿,1投稿には1枚 ''以上'' の写真がある
-- 不適切な画像をフィルタリングして,一人の人物が中心に全身写った画像のみ残した.
最終的に得られたのは 407772 枚
-- 画像サイズに関する記述なし
okarin の説明 [[m/2018/yohei/study#w0c15a50]]
>
- データ数:405,589 枚
- サイズ:256x384
- 特徴:上記のデータクリーニングより,全身が写っているデータがほとんどと言える.ただし,同じ人間が複数の姿勢を取っているデータセットではない.ただし,後ろ向きのデータは少なく,男性よりも女性の数が多いと思われる.また,データサイズは256x384だがaspect ratioが対応してない場合は,縦を384へ合わせて横は空白で埋めている?
<
★ 要確認(済)
- 画像枚数の食い違い 407772 vs 405589 はどこから?
-- okarinより
>
実際に格納されていた画像は405,589 枚です.
オリジナルデータには407,772枚と書かれていますが,オリジナルデータをダウンロードした段階から405,589 枚しかありませんでした.
<
- 画像サイズは okarin の上記の説明を信じればよい?
-- okarinより
>
オリジナルの画像サイズは256x384です.
<
*** okarin による前処理 [#u3190de4]
以下は,[[m/2018/yohei/experiments/fashion550k/data#Fashion550k_preproc]] の補足
- 1. 各画像データにOpenPoseを適用しkeypointsを得る
- 2. keypointsによるデータ選択
-- 「OpenPoseより推定された各体部位の位置と確信度が1人分.」 → OpenPose で得られる keypoints は,一人分の keypoints の配列がさらに集まって検出された人数分の配列になってる.本当に複数人が写ってたり,誤検出があって二人以上検出されてる場合は,その画像は捨てる,ってこと.
- 3. 選択されたデータに対してセグメンテーションマップを作成
-- セグメンテーションマップとして保存された画像は,画素値が 0 から 10 までの11種類.たとえば画素値 1 は,頭部の楕円領域部分の値.
-- 「中心が各ペアの距離の中点」→ 「各ペアを成す2点の中点を中心とし」
★ 要確認(済)
- 元画像のサイズは 256x384 で,okarin が実験に使った画像は 128x192.単純に縮小して,それから OpenPose にかけた? 縮小のアルゴリズムは?
-- okarin より
>
元画像のサイズ256x384でOpenPoseにかけ,keypointを作成し,その後サイズ256x384のセグメンテーションマップを作成しました.
ディレクトリに保存されているデータ(画像,セグメンテーションマップ)は全てサイズ256x384です.
学習には,これらのデータを画像はBicubic法を,セグメンテーションマップは最近傍法を用いて128x192に縮小したものを用います.
<
*** okarin による前処理結果のディレクトリ構成 [#c14f1d04]
[[m/2018/yohei/experiments/fashion550k/data#Fashion550k_directory]]
★ 要確認(済)
- ここで説明されている fashion550k ディレクトリ内には,オリジナル Fashion550k のすべての画像があるわけではなく,上記前処理ができた(セグメンテーションマップが作れた)画像とそのセグメンテーションマップのみがある.という理解で正しい?
-- okarin より
>
そのとおりです.
<
- 全部で何枚?
-- okarin より
>
全部で211,080枚です.
<
- 画像の大きさは? (前処理のところ参照)
-- okarin より
>
256x384です.
<
2020-06-12 追記:
// Thanks okarin
>
T. Fashion550kについてはあと一点だけ.先日の話では,211,080枚を選ぶ(他を捨てる)ところでは,セグメンテーションマップのすべてのパーツが画像の範囲からはみ出ないものだけを残す
ということだったかと思いますが,それでよかったですか?
>
O. Fashion550kに対してはその操作をしていません.
そのため,データ内にパーツの一部が欠如しているデータがあります.
以下のページにそういうデータが何枚あるかについて記載しています.
[[m/2018/yohei/experiments/fashion550k/予備実験45#x6ed34cc]]
<
<
**okarin のデータその2: iPER [#mf821fb2]
- okarin の使ったデータ
- cf. [[m/2018/yohei/experiments/fashion550k/data#iPER]]
- cf. [[m/2018/yohei/study/iPER]]
***オリジナルデータセット [#b4c4d5a2]
- データセット: https://svip-lab.github.io/dataset/iPER_dataset.html
- 論文:
-- ``Liquid Warping GAN: A Unified Framework for Human Motion Imitation, Appearance Transfer and Novel View Synthesis,'' Wen Liu, Zhixin Piao, Jie Min, Wenhan Luo, Lin Ma, Shenghua Gao, ICCV2019
-- https://arxiv.org/abs/1909.12224
- データセットのページの Introduction より
-- 30人,合計で103の服装,A pose と Random pose の2種類(ページの動画参照),合計206本.フレーム数 241,564.
- 論文によるとフレームの大きさは 256x256
★ 要確認(済)
- [[m/2018/yohei/experiments/fashion550k/data#iPER]] の フレーム数 407772 は Fashin550k の数字では?
>
yes, フレーム数241,564が正しい
<
*** okarin による前処理 [#o173c65c]
[[m/2018/yohei/experiments/fashion550k/data#iPER_preproc]]
★ 要確認(済)
T: 以下の 252x168 は 168x252 の間違い? こうするなら,どこかで 256x384に拡大する必要があると思われる.ここのステップでやると思ってよい?
>
1. 各フレームをトリミング~
Fashion550kのアスペクト比と同じにするため、各フレームの中央部分252x168の領域を切り取る。
<
O: 168x252 の間違いです.今回の実験では全て128x192で行っていたため,モデルにデータを与えるタイミングで縮小しています.
縮小のアルゴリズムは画像がcv2.INTER_CUBIC ,セグメンテーションマップがcv2.INTER_NEAREST です.
<
T: 以下はどういうこと? Fashion550k でも,最終的に使う画像はこの条件を満たすように選択してるのではないの?だとしたら 2. の手順に含まれてるのではないの?
>
3. セグメンテーションマップによるフレームの選択~
姿勢変換時に各パーツの符号を利用するので、作成したセグメンテーションマップに全カテゴリ(11コ)があるフレームを選択する。
<
O: Fashion550kではこの条件による前処理を行っていません.
この条件はiPERに対してのみ適用しています.
T: 以下の件ですが,ここより上では,すべてのフレーム(除外されたものを除く)を対象として処理をしてるという理解でよいですか?また,Random Pose の「時間軸方向に等間隔」ですが,これ以前に除外が発生するわけで,そうすると,合理的な方法として,「本当の時間軸の意味で等間隔」,「除外したのを無視してフレーム番号をつけ直したとして番号を等間隔」の二種類が考えられます.どっち?(それともどっちも違う?)
>
4. 異なる姿勢をとったフレームを選択~
(中略)~
まず,A Pose に関しては最初のフレームのみ選択する. 次に,Random Pose は時間軸方向に等間隔に 10 枚ずつフレームを選択する. 最終的にある 1 人の動画から選び出されたフレームは 11 枚となる.
<
O: 1つ目の質問のについてはそのとおりで,除外されたものを除く全てのフレームを対象としています.
2つ目の質問については「除外したのを無視してフレーム番号をつけ直したとして番号を等間隔」です.
T: 以下は説明おかしいのでは?
>
5. 入力と正解の関係となるペアを作成 ~
(中略)~
その結果、 11P2=11,330 ペアが作られます。
<
O: 間違いです.11P2 x 103 = 11,330 です.
*** okarin による前処理結果のディレクトリ構成 [#e24584d6]
[[m/2018/yohei/experiments/fashion550k/data#iPER_directory]]
★ 要確認(済)
- 特になし
終了行:
データと前処理の説明ありがとう > [[m/2018/yohei]]
#contents
** okarin のデータその1: Fashion550k [#Fashion550k]
- okarin の使ったデータ
- cf. [[m/2018/yohei/experiments/fashion550k/data#Fashion550k]]
*** オリジナルデータセット [#pd0ac2c4]
- データセット https://esslab.jp/~ess/ja/data/fashion550k
- 論文
-- ``Multi-Label Fashion Image Classification with Minimal Human Supervision,''
Naoto Inoue, Edgar Simo-Serra, Toshihiko Yamasaki, Hiroshi Ishikawa, ICCVW2017
-- https://esslab.jp/~ess/publications/InoueICCVW2017.pdf
論文 Section 3 より
-- 550661の投稿,1投稿には1枚 ''以上'' の写真がある
-- 不適切な画像をフィルタリングして,一人の人物が中心に全身写った画像のみ残した.
最終的に得られたのは 407772 枚
-- 画像サイズに関する記述なし
okarin の説明 [[m/2018/yohei/study#w0c15a50]]
>
- データ数:405,589 枚
- サイズ:256x384
- 特徴:上記のデータクリーニングより,全身が写っているデータがほとんどと言える.ただし,同じ人間が複数の姿勢を取っているデータセットではない.ただし,後ろ向きのデータは少なく,男性よりも女性の数が多いと思われる.また,データサイズは256x384だがaspect ratioが対応してない場合は,縦を384へ合わせて横は空白で埋めている?
<
★ 要確認(済)
- 画像枚数の食い違い 407772 vs 405589 はどこから?
-- okarinより
>
実際に格納されていた画像は405,589 枚です.
オリジナルデータには407,772枚と書かれていますが,オリジナルデータをダウンロードした段階から405,589 枚しかありませんでした.
<
- 画像サイズは okarin の上記の説明を信じればよい?
-- okarinより
>
オリジナルの画像サイズは256x384です.
<
*** okarin による前処理 [#u3190de4]
以下は,[[m/2018/yohei/experiments/fashion550k/data#Fashion550k_preproc]] の補足
- 1. 各画像データにOpenPoseを適用しkeypointsを得る
- 2. keypointsによるデータ選択
-- 「OpenPoseより推定された各体部位の位置と確信度が1人分.」 → OpenPose で得られる keypoints は,一人分の keypoints の配列がさらに集まって検出された人数分の配列になってる.本当に複数人が写ってたり,誤検出があって二人以上検出されてる場合は,その画像は捨てる,ってこと.
- 3. 選択されたデータに対してセグメンテーションマップを作成
-- セグメンテーションマップとして保存された画像は,画素値が 0 から 10 までの11種類.たとえば画素値 1 は,頭部の楕円領域部分の値.
-- 「中心が各ペアの距離の中点」→ 「各ペアを成す2点の中点を中心とし」
★ 要確認(済)
- 元画像のサイズは 256x384 で,okarin が実験に使った画像は 128x192.単純に縮小して,それから OpenPose にかけた? 縮小のアルゴリズムは?
-- okarin より
>
元画像のサイズ256x384でOpenPoseにかけ,keypointを作成し,その後サイズ256x384のセグメンテーションマップを作成しました.
ディレクトリに保存されているデータ(画像,セグメンテーションマップ)は全てサイズ256x384です.
学習には,これらのデータを画像はBicubic法を,セグメンテーションマップは最近傍法を用いて128x192に縮小したものを用います.
<
*** okarin による前処理結果のディレクトリ構成 [#c14f1d04]
[[m/2018/yohei/experiments/fashion550k/data#Fashion550k_directory]]
★ 要確認(済)
- ここで説明されている fashion550k ディレクトリ内には,オリジナル Fashion550k のすべての画像があるわけではなく,上記前処理ができた(セグメンテーションマップが作れた)画像とそのセグメンテーションマップのみがある.という理解で正しい?
-- okarin より
>
そのとおりです.
<
- 全部で何枚?
-- okarin より
>
全部で211,080枚です.
<
- 画像の大きさは? (前処理のところ参照)
-- okarin より
>
256x384です.
<
2020-06-12 追記:
// Thanks okarin
>
T. Fashion550kについてはあと一点だけ.先日の話では,211,080枚を選ぶ(他を捨てる)ところでは,セグメンテーションマップのすべてのパーツが画像の範囲からはみ出ないものだけを残す
ということだったかと思いますが,それでよかったですか?
>
O. Fashion550kに対してはその操作をしていません.
そのため,データ内にパーツの一部が欠如しているデータがあります.
以下のページにそういうデータが何枚あるかについて記載しています.
[[m/2018/yohei/experiments/fashion550k/予備実験45#x6ed34cc]]
<
<
**okarin のデータその2: iPER [#mf821fb2]
- okarin の使ったデータ
- cf. [[m/2018/yohei/experiments/fashion550k/data#iPER]]
- cf. [[m/2018/yohei/study/iPER]]
***オリジナルデータセット [#b4c4d5a2]
- データセット: https://svip-lab.github.io/dataset/iPER_dataset.html
- 論文:
-- ``Liquid Warping GAN: A Unified Framework for Human Motion Imitation, Appearance Transfer and Novel View Synthesis,'' Wen Liu, Zhixin Piao, Jie Min, Wenhan Luo, Lin Ma, Shenghua Gao, ICCV2019
-- https://arxiv.org/abs/1909.12224
- データセットのページの Introduction より
-- 30人,合計で103の服装,A pose と Random pose の2種類(ページの動画参照),合計206本.フレーム数 241,564.
- 論文によるとフレームの大きさは 256x256
★ 要確認(済)
- [[m/2018/yohei/experiments/fashion550k/data#iPER]] の フレーム数 407772 は Fashin550k の数字では?
>
yes, フレーム数241,564が正しい
<
*** okarin による前処理 [#o173c65c]
[[m/2018/yohei/experiments/fashion550k/data#iPER_preproc]]
★ 要確認(済)
T: 以下の 252x168 は 168x252 の間違い? こうするなら,どこかで 256x384に拡大する必要があると思われる.ここのステップでやると思ってよい?
>
1. 各フレームをトリミング~
Fashion550kのアスペクト比と同じにするため、各フレームの中央部分252x168の領域を切り取る。
<
O: 168x252 の間違いです.今回の実験では全て128x192で行っていたため,モデルにデータを与えるタイミングで縮小しています.
縮小のアルゴリズムは画像がcv2.INTER_CUBIC ,セグメンテーションマップがcv2.INTER_NEAREST です.
<
T: 以下はどういうこと? Fashion550k でも,最終的に使う画像はこの条件を満たすように選択してるのではないの?だとしたら 2. の手順に含まれてるのではないの?
>
3. セグメンテーションマップによるフレームの選択~
姿勢変換時に各パーツの符号を利用するので、作成したセグメンテーションマップに全カテゴリ(11コ)があるフレームを選択する。
<
O: Fashion550kではこの条件による前処理を行っていません.
この条件はiPERに対してのみ適用しています.
T: 以下の件ですが,ここより上では,すべてのフレーム(除外されたものを除く)を対象として処理をしてるという理解でよいですか?また,Random Pose の「時間軸方向に等間隔」ですが,これ以前に除外が発生するわけで,そうすると,合理的な方法として,「本当の時間軸の意味で等間隔」,「除外したのを無視してフレーム番号をつけ直したとして番号を等間隔」の二種類が考えられます.どっち?(それともどっちも違う?)
>
4. 異なる姿勢をとったフレームを選択~
(中略)~
まず,A Pose に関しては最初のフレームのみ選択する. 次に,Random Pose は時間軸方向に等間隔に 10 枚ずつフレームを選択する. 最終的にある 1 人の動画から選び出されたフレームは 11 枚となる.
<
O: 1つ目の質問のについてはそのとおりで,除外されたものを除く全てのフレームを対象としています.
2つ目の質問については「除外したのを無視してフレーム番号をつけ直したとして番号を等間隔」です.
T: 以下は説明おかしいのでは?
>
5. 入力と正解の関係となるペアを作成 ~
(中略)~
その結果、 11P2=11,330 ペアが作られます。
<
O: 間違いです.11P2 x 103 = 11,330 です.
*** okarin による前処理結果のディレクトリ構成 [#e24584d6]
[[m/2018/yohei/experiments/fashion550k/data#iPER_directory]]
★ 要確認(済)
- 特になし
ページ名: