Ep. 243 - Part 2 - June 9, 2024

https://is1-ssl.mzstatic.com/image/thumb/Podcasts126/v4/4a/9c/ef/4a9ceff8-5c1a-e15c-62d9-6360c52cd38a/mza_2283181023971434852.jpg/600x600bb.jpg

TechcraftingAI Computer Vision

Brad Edwards

315 episodes

5 days ago

TechcraftingAI Computer Vision brings you summaries of the latest arXiv research daily. Research is read by your virtual host, Sage. The podcast is produced by Brad Edwards, an AI Engineer from Vancouver, BC, and a graduate student of computer science studying AI at the University of York. Thank you to arXiv for use of its open access interoperability.

Technology

RSS

All content for TechcraftingAI Computer Vision is the property of Brad Edwards and is served directly from their servers with no modification, redirects, or rehosting. The podcast is not affiliated with or endorsed by Podjoint in any way.

Technology

https://d3t3ozftmdmh3i.cloudfront.net/staging/podcast_uploaded_nologo/39305030/39305030-1703089970889-aab16cf4a6955.jpg

Ep. 243 - Part 2 - June 9, 2024

TechcraftingAI Computer Vision

35 minutes 37 seconds

1 year ago

Ep. 243 - Part 2 - June 9, 2024

ArXiv Computer Vision research for Sunday, June 09, 2024.

00:20: ControlLoc: Physical-World Hijacking Attack on Visual Perception in Autonomous Driving

02:23: Unified Text-to-Image Generation and Retrieval

03:51: F-LMM: Grounding Frozen Large Multimodal Models

05:34: Multi-Stain Multi-Level Convolutional Network for Multi-Tissue Breast Cancer Image Segmentation

07:43: BOSC: A toolbox for aerial imagery mapping

08:27: Mamba YOLO: SSMs-Based YOLO For Object Detection

10:12: Solution for CVPR 2024 UG2+ Challenge Track on All Weather Semantic Segmentation

11:02: Scaling Graph Convolutions for Mobile Vision

12:59: RefGaussian: Disentangling Reflections from 3D Gaussian Splatting for Realistic Rendering

14:28: Self-supervised Adversarial Training of Monocular Depth Estimation against Physical-World Attacks

15:45: Procrastination Is All You Need: Exponent Indexed Accumulators for Floating Point, Posits and Logarithmic Numbers

16:40: OmniControlNet: Dual-stage Integration for Conditional Image Generation

17:51: GCtx-UNet: Efficient Network for Medical Image Segmentation

19:14: InfoGaussian: Structure-Aware Dynamic Gaussians through Lightweight Information Shaping

20:40: BD-SAT: High-resolution Land Use Land Cover Dataset & Benchmark Results for Developing Division: Dhaka, BD

22:19: Bits-to-Photon: End-to-End Learned Scalable Point Cloud Compression for Direct Rendering

23:28: MeanSparse: Post-Training Robustness Enhancement Through Mean-Centered Feature Sparsification

24:38: Solution for SMART-101 Challenge of CVPR Multi-modal Algorithmic Reasoning Task 2024

26:12: CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark

29:32: Inter-slice Super-resolution of Magnetic Resonance Images by Pre-training and Self-supervised Fine-tuning

31:04: Causality-inspired Latent Feature Augmentation for Single Domain Generalization

32:41: MHS-VM: Multi-Head Scanning in Parallel Subspaces for Vision Mamba

34:13: FLEUR: An Explainable Reference-Free Evaluation Metric for Image Captioning Using a Large Multimodal Model