본문 바로가기

전체 글

Disentangled Representation Image-to-Image Translation (DRIT) 1 Introduction 두 개의 visual domains 사이의 mapping을 학습하기 위해 두 가지 어려움 점 존재. aligned training image pairs 수집이 어려움. many such mappings are inherently multimodal single input에 대해 다수의 output 존재 가능성. multi modal 은 아래 그림과 같이 age로 변환된다고 하더라도 20대 input이 40대나 50대, 60대의 다양한 output으로 변환하는 것을 의미. 이를 해결하기 위해 stargan과 같은 방법론 제안되었지만, 주어진 input image에 대해 single output만 생성되는 한계 generator에 noise vectors를 input으로 추가하는 .. 더보기
COCO-FUNIT:Few-Shot Unsupervised Image Translation witha Content Conditioned Style Encoder coco-funit은 funit을 발전시킨 형태 FUNIT REVISIT 기존FUNIT을 먼저 살펴보면 content encoder Ec, style encoder Es, image decoder F 로 구성됨. Ec는 content image xc을 input 으로 받아서 content embedding code zc 을 output으로 Es는 style image xs를 input으로 받아서 style embedding code zs 를 output으로 image decoder F는 zc와 zs를 이용해서 이미지 생성. 이 때 zs는 F의 AdaIN의 mean 과 scale parameters를 계산하는데 사용됨. AdaIN design 은 domain-specific information 이 act.. 더보기
An Energy and GPU-Computation Efficient Backbone Networkfor Real-Time Object Detection densenet은 dense connection을 이용해서 기존 resnet보다 더 다양한 feature level 정보를 사용할 수 있다. 하지만 dense connection은 memory와 연산량 측면에서 overhead가 존재. ResNet은 elementwise sum 즉 out = out + x 초기 feature map 정보가 사라질 수 있음. densetnet은 concat 한다. 즉 out = torch.cat([out,x]) 초기 fature map 정보가 유지. 이를 해결하기 위해 One-Shot Aggregation (OSA)로 구성된 VoVNet 제안. DenseNet 단점 DenseNet이 적은 FLOPs을 갖지만 ResNet 대비 많은 리소스 소모 FLOPs 외에도 memory.. 더보기
Scalable Fine-grained Generated ImageClassification Based on Deep Metric Learning fake face를 구분 가능한 방법 제안. 새로운 형태의 이미지가 생겨도 대응 가능. Train stage에서 다양한 형태의 이미지를 이용해 학습 Fine-tunning stage에서 triplet loss를 이용해서 new type of few images를 이용해 학습. Training Center loss : to minimize the intra-class distance The role of cross entropy loss is to maximize the distance between classes and thus improve the separability between classes Fine-tuning 새로운 형태의 생성이미지에 대응하기 위해 fine tunning 수행. triple.. 더보기
Product Image Recognition with Guidance Learning and Noisy Supervision Product-90 dataset 생성. 사용자의 리뷰를 기반으로 labels 생성. label 생성 cost를 줄일 수 있음 90개 클래스에 대해 140K 이상의 이미지 수집. noisy가 포함된 label에 대해 guidance learning (GL)을 도입. Products-90 뿐 아니라 Food101, Food101N, Clothing1M 에서도 실험. Guidance Learning 아래 두 단계로 구성 1) teacher network training 2) student network training. teacher network training noisy가 포함된 전체 dataset에 대해 학습. cross entropy 학습 student Network dataset을 noisy sub.. 더보기
Sampling Matters in Deep Embedding Learning 기존의 방법들은 loss에 관심을 두었다면 제안하는 방법은 training examples의 구성도 중요함을 보여줌. distance weighted sampling We propose a simple margin-based loss as an extension to the contrastive loss. sampling and the loss function influence the overall training objective sampling 정리. contrastive loss : 모든 positive pair를 random하게 생성. triplet loss : semi-hard negative mining FaceNet에서는 전체 dataset에서 hard positive/negative를 구하.. 더보기