2025年03月06日
【共創研究】微小な鳥の自動検出!~国際会議コンペティション企画を通じた、コミュニティ全体でのコンピュータビジョン研究の推進~
トヨタ自動車株式会社 未来創生センターでは、ロボティクスやモビリティをはじめとする多岐にわたる応用を見据え、動画像を入力とし、人間の目のように周囲を認識・理解できる視覚システムの実現を目指すコンピュータビジョンの研究を進めています。特に、視覚システムが捉えにくい微小物体を高精度に認識する『微小物体検出(Small Object Detection)』は、依然として多くの挑戦的な学術的課題が残るとともに、実応用シーンでの需要が急速に高まっており、注目を集めています。今回は、国際会議Machine Vision Applications(MVA)2023のTechnical Event Chairとして微小物体検出のコンペティション(以下、コンペ)*1を開催した、近藤 佑樹さんに微小物体研究とその可能性、コンペ企画の詳細について伺いました。
微小物体検出の最前線
-微小物体検出とはどのようなものなのでしょうか?
- 近藤
『微小物体検出』とは、画像や動画に含まれる非常に小さな物体を認識し、その位置や大きさ、種類(クラス)を正確に推定する技術です。この技術は、コンピュータビジョンにおける広範なタスクである画像認識(Image Recognition)の中で、物体検出(Object Detection)というタスクに分類されます。
ここで画像認識とは、画像や動画に含まれる物体、人、テキスト、動作などを識別・分類する技術の総称です。その中で、物体検出は画像内の物体を特定し、それぞれの位置と大きさ、クラスを推定する技術を指します。さらに物体検出の中でも微小物体検出は、図1に示すように画素サイズが非常に小さい物体[1]に焦点を当て、これらを高精度で検出することを目的としています。
微小物体検出の応用先は非常に多岐にわたり、例えば以下のような分野があります。
- 医療分野 : 病理組織の解析やがんの早期検出
- 自動運転 : 遠距離の歩行者や障害物の認識
- 建築分野 : 構造物の欠陥自動検出
- セキュリティ分野 : 監視カメラでの不審物検出
- 航空分野 : 衛星画像からの建物の検出
このように、微小物体検出は従来の物体検出を補完し、より精密で網羅的な認識結果をアプリケーションに提供する可能性を秘めています。
-
- 図1(a)物体検出と(b)微小物体検出の問題設定の比較
- [1]
- 『物体を囲った面積が322pixel未満*3』、または『画像サイズに対する物体を囲った面積の比率が0.56%未満*4』が微小物体の代表的な定義である。
- [2]
- 当画像*5に付与されるCC BY 2.0ライセンスを遵守し、引用。
-現在の技術的課題について教えてください。
- 近藤
物体検出は、他のコンピュータビジョンタスクと同様、近年の深層学習の進化により大きく発展しました。特に畳み込みニューラルネットワーク(CNN)*6は、画像中の局所的な特徴を捉える能力に優れ、物体検出の精度向上に大きく寄与し、Transformer*7は、大域的なシーン情報を効果的に捉えることで、さらに高度な検出を可能にしています。これらの技術革新により、物体検出全体の性能は飛躍的に向上しました。
しかし、物体検出の発展にもかかわらず、微小物体検出には依然として多くの課題が残っています。まず、小さな物体は背景に埋もれやすく、視覚的特徴が限られるため、検出が非常に難しいです。さらに、モーションブラーや画像ノイズといった現象も精度を低下させる要因です。特に、無人航空機(UAV)や車載カメラ、手持ちカメラで撮影された動的なシーンでは、これらの劣化が顕著に現れます。
微小物体の認識課題は、社内の研究開発プロジェクトでも顕在化しています。例えば、ロボティクス研究では自己位置推定*8、*9やマニピュレーションのための物体認識で、また社内限定用途で開発されている社内交通流を最適化するためのナンバープレート認識において、いずれも物体の解像度が低い状況で影響がおよんでいます(図2)。
これらの課題に対処するために、今回、一個人の研究に留めず、社内外での課題を明確にしながら、その課題を定期的に共有しあいコミュニティ全体で発展を目指す、『共創研究的アプローチ』を選択しました。
-
- 図2 社内の研究開発プロジェクトでの微小物体の認識に関する失敗例
Small Object Detection for Spotting Birds(SOD4SB)Challenge@MVA2023
-2023年のコンペについて教えてください。
- 近藤
このコンペは、『国際会議MVA2023』の一環として開催されました。従来の多くの微小物体検出が主に人や建造物などを対象にしていたのに対し、今回はUAVから撮影された鳥の検出をテーマに設定し、新たに図3のSOD4SBデータセットを開発しました。本データセットは、鳥を対象とした微小物体検出に特有の課題を体系的に含んでおり、UAVから撮影された現実環境での検出精度向上に向けた挑戦的なタスクを提供します。
- 種類の多様性 : 鳥類は数多くの種類があり、見た目が多様
- 背景の多様性 : 農地、都市、公園など、さまざまな環境
- 見た目の変化 : 鳥の羽ばたきなどの動きに伴い、フレームごとに見た目が大きく変化
- 遮蔽と密集 : 複数の鳥が群れ、相互遮蔽が発生
- カモフラージュ : 鳥の外観が背景に同化
- モーションブラー : 鳥およびUAV双方の動きによる画像の劣化
これらの要因により、SOD4SBデータセットは微小物体検出全体に共通する未解決の学術的課題も含んでおり、この分野の技術発展を促すことを目的としています。この難関なタスクから生み出された技術が、他の微小物体検出タスク全体の技術の底上げに貢献し、汎用的な手法を生み出すことを期待しています。
-
- 図3 コンペで利用したSOD4SBデータセットの概要(*1より引用)
-コンペ開催までの取り組みを教えてください。
- 近藤
-
本企画はわたしの大学時代の指導教官である浮田 宗伯先生(豊田工業大学教授/豊田工業大学シカゴ校Adjoint Professor)からのお誘いがきっかけでした。MVAが掲げる『アカデミアとインダストリーの相互交流』の概念と、自身の企業研究者としての使命にもとづき、学術的価値と実用的価値の両立を目指したコンペ実現に向けて検討を開始しました。
ちょうど同時期にわたしが担当する空間知研究*10や、未来創生センターの他の研究プロジェクトで微小物体の認識が課題となっており、浮田研究室で研究していた鳥検出*11でも、同様の課題があったことを思い出しました。早速、その鳥検出データセットを確認した結果、前述の微小物体の定義を満たしている鳥が支配的であることを確認し、そこから微小物体検出に焦点を当てたコンペとして開催することに決定しました。さらに、コンペをより挑戦的で意義深いものとするため、データスケール、シーンの多様性の拡張と前述の挑戦的な要素を付加・強調したSOD4SBデータセットの作成を開始しました。
より多様なデータを準備するため、微小な鳥検出のアプリケーション応用の検討を深めるために、UAVを用いたスマート農業技術を研究されていた山口 貴之先生(当時 : 岩手農業研究センター上席専門研究員、現 : 岩手県沿岸広域振興局主任主査)にご協力いただきました。その結果、図4および以下に示すように、当初想定していたよりも幅広い応用先の検討ができました。
- 自律型UAVシステム : 鳥との衝突を検出・回避し、安全な飛行運用を実現
- 農業保護システム : 有害な鳥を特定・追跡し、農地や水田の被害を防止
- 自動生態モニタリングシステム : 鳥の個体数や移動を追跡し、環境保全を支援
さらに木戸出 正継先生(奈良先端科学技術大学院大学名誉教授/一財ATRメタリサーチイノベーション協会代表理事)にアドバイザー、浮田研究室の研究員や学生の皆さんにはスタッフとして参画いただき、計7名でコンペを推進しました(図5)。
また、本コンペを最大限に活性化できるよう、KaggleやSIGNATEといった世界的に有名なコンペプラットフォームをベンチマークしつつ、The Conference on Computer Vision and Pattern Recognition(CVPR)やEuropean Conference on Computer Vision(ECCV)、International Conference on Computer Vision(ICCV)などのトップ国際会議でのコンペ運営の知見も調査し、以下のような取り組みを行いました。
- 査読付き論文の採択や国際会議への無料招待、賞金、賞状などのインセンティブを用意
- 参加者が簡単に取り組めるよう、ベースラインモデルを公開
- Discordを活用した参加者間で議論できるプラットフォームの提供
- 国際会議MVAのSNSアカウントを活用し、リアルタイムで進行状況を共有
-
- 図4 微小な鳥検出の実応用先(素材は*12を利用)
-
- 図5 MVA2023 SOD4SB challenge委員(MVA2023チャレンジサイト*13より引用)
-コンペの成果について詳しく教えてください。
- 近藤
-
223名の方にご参加いただき、コンペ終了までに1,045件のご提出がありました。国内外、アカデミア・産業界まで参加者層は幅広く、本コンペの狙いである『コンピュータビジョンの学術的課題を提起するとともに、実社会で応用可能な技術開発を促進すること』に合致し、この結果、多数の洗練された微小物体検出手法が提案されました。本会議では、上位入賞者4名にTechnical eventセッションで口頭発表をいただきました(図6)。
定量評価では、運営側で提供したベースラインモデルに対して、参加チームの手法が図7に示すように大幅な改善を示しました。特に優勝したH. Y. HouらのElsa Lab Team*14は、0から100の範囲で評価される評価指標AP50において、ベースラインモデルに対し、Public testで46.4から77.6、Private testで15.4から30.3のスコア改善を達成しました。
入賞チームはいずれも効果的で新規性の高いアプローチを提案しており、その中にはアンサンブル手法*14やデータ拡張手法*1、*14、マルチスケール特徴量*1、*15の導入といった、多様な工夫が見られました。また、微小物体検出に特化した新たな評価指標の提案*16など、重要かつ本質的な課題に切り込むユニークな視点を示した事例も意義深い成果といえます。
本コンペで整備したベースラインコードやデータセット、ベンチマークシステムは現在も稼働中*13であり、研究者や技術者が自由に活用することで、さらに新たな手法の開発や性能評価が進められます。この基盤が、微小物体検出のさらなる発展と応用可能性の拡大に寄与することを期待しています。
-
- 図6 MVA2023当日のTechnical eventセッションのようす
-
- 図7 本コンペの入賞者の結果(*1より引用)
終わりに
-今後の計画を教えてください。
- 近藤
- 現在、MVA2025でSOD4SBをさらに発展させた“Small Object Tracking for Spotting Birds(SMOT4SB)Challenge”*17を開催しております。このコンペでは、単一画像の物体検出から動画内の複数物体追跡にタスクを発展させています。動画1に示すようにSOD4SBよりもさらに挑戦的かつ、動的環境での技術適用を見据えた実用的な内容ですので、ぜひ研究者、技術者の皆様はMVA2025公式チャレンジサイトで詳細をご確認いただき、ご参加いただければ幸いです。
今後、このような取り組みを通じて、微小物体認識技術の発展と社内外での実用化を促進していき、最終的には、本活動が社会課題の解決や新たな価値の創出につながることを目指していきます。
- 動画1 SMOT4SB Challengeで扱う鳥を対象とした複数物体追跡タスクの例(MVA2025チャレンジサイト*15より引用)
-未来創生センターで研究する魅力は何ですか?
- 近藤
- 未来創生センターでは、若手でも研究活動や国際会議の運営に積極的に関われる裁量があり、自由度の高い環境で挑戦ができます。学術的価値を追求しながら社会実装にも重点を置き、人を中心としたシステム作りを目指す研究に関心のある方は、ぜひ未来創生センターで共に未来の技術を創造していければ幸いです。
著者
近藤 佑樹(こんどう ゆうき)
2013年トヨタ自動車入社。2016年トヨタ工業学園高等部卒業後、エンジン開発業務に従事。2018年社内進学制度を利用し、豊田工業大学に進学。同大ではコンピュータビジョン、特に認識のための超解像の応用研究に取り組み、MVA’21 Best Practical Paper Awardなどを受賞。2022年豊田工業大学卒業後、トヨタ自動車へ復職し、ロボティクスビジョン、コンピュータビジョン研究に従事。現在は空間知研究メンバーとして、Image stitchingおよび微小物体認識の研究を進める傍ら、ロボティクスの自律移動研究にも携わる。
参考資料
*1 | Y. Kondo, N. Ukita, T. Yamaguchi, H.-Y. Hou, M.-Y. Shen, C.-C. Hsu, E.-M. Huang, Y.-C. Huang, Y.-C. Xia, C.-Y. Wang, C.-Y. Lee, D. Huo, M. A. Kastner, T. Liu, Y. Kawanishi, T. Hirayama, T. Komamizu, I. Ide, Y. Shinya, X. Liu, G. Liang, and S. Yasui, "MVA2023 Small Object Detection Challenge for Spotting Birds: Dataset, Methods, and Results," in Proceedings of the 18th International Conference on Machine Vision and Applications (MVA), 2023. |
---|---|
*2 | T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, P. Dollár, and C. L. Zitnick, "Microsoft COCO: Common Objects in Context," in Proceedings of the European Conference on Computer Vision (ECCV), 2014. |
*3 | A. Torralba, R. Fergus, and W. T. Freeman, "80 million tiny images: A large data set for nonparametric object and scene recognition," IEEE transactions on pattern analysis and machine intelligence (PAMI), vol. 30, no. 11, pp. 1958–1970, 2008. |
*4 | C. Chen, M.-Y. Liu, O. Tuzel, and J. Xiao, "R-cnn for small object detection," in Proceedings of the Asian Conference on Computer Vision (ACCV), 2017. |
*5 | Dirvish, "Husky Boarding," Flickr, CC BY 2.0 License., https://www.flickr.com/photos/dirvish/2273154848/. [Accessed: Feb. 5, 2025]. |
*6 | Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner, "Gradient-based learning applied to document recognition," Proceedings of the IEEE, vol. 86, no. 11, pp. 2278–2324, 1998. |
*7 | A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, Ł. Kaiser, and I. Polosukhin, "Attention is All You Need," in Proceedings of the Advances in Neural Information Processing Systems (NeurIPS), 2017. |
*8 | S. Matsuzaki, T. Sugino, K. Tanaka, Z. Sha, S. Nakaoka, S. Yoshizawa and K. Shintani, "CLIP-Loc: Multi-modal Landmark Association for Global Localization in Object-based Maps," in Proceedings of the IEEE International Conference on Robotics and Automation (ICRA), 2024. |
*9 | S. Matsuzaki, K. Tanaka and K. Shintani, "CLIP-Clique: Graph-Based Correspondence Matching Augmented by Vision Language Models for Object-Based Global Localization," IEEE Robotics and Automation Letters, vol. 9, no. 11, pp. 10399-10406, 2024. |
*10 | トヨタ自動車株式会社, 「空間知の研究~生命システムとしてのセル生産システムへの応用~」, https://global.toyota/jp/mobility/frontier-research/40802881.html.[参照日 : 2025年2月5日]. |
*11 | S. Fujii, K. Akita, N. Ukita, "Distant Bird Detection for Safe Drone Flight and Its Dataset", 17th International Conference on Machine Vision and Applications (MVA), 2021. |
*12 | いらすとや, “フリーイラスト素材サイト”, https://www.irasutoya.com/. [参照日 : 2023年3月20日]. |
*13 | MVA2023, "Small Object Detection Challenge for Spotting Birds 2023," https://www.mva-org.jp/mva2023/index.php?id=challenge. [Accessed: Feb. 5, 2025]. |
*14 | H.-Y. Hou, M.-Y. Shen, C.-C. Hsu, E.-M. Huang, Y.-C. Huang, Y.-C. Xia, C.-Y. Wang, and C.-Y. Lee, "Ensemble fusion for small object detection," in Proceedings of the 18th International Conference on Machine Vision and Applications (MVA), 2023. |
*15 | D. Huo, M. A. Kastner, T. Liu, Y. Kawanishi, T. Hirayama, T. Komamizu, and I. Ide, "Small object detection for bird with swin transformer," in Proceedings of the 18th International Conference on Machine Vision and Applications (MVA), 2023. |
*16 | Y. Shinya, "BandRe: Rethinking band-pass filters for scale-wise object detection evaluation," in Proceedings of the 18th International Conference on Machine Vision and Applications (MVA), 2023. |
*17 | MVA2025, "Small Multi-Object Tracking for Spotting Birds (SMOT4SB) Challenge 2025," https://mva-org.jp/mva2025/index.php?id=challenge. [Accessed: Feb. 5, 2025]. |
本件に関するお問い合わせ先
- 未来創生センター
- メールアドレスfrc_pr@mail.toyota.co.jp
関連コンテンツ
~生命システムとしてのセル生産システムへの応用~