엄범


https://github.com/sbrugman/deep-learning-papers


CNN 기반 DNN

VGG

구성이 간단해서 응용하기 좋다.

GoogLeNet

가로 방향에 폭이 있는 인셉션 구조.

ResNet

층이 매우 깊어서 gradient vanishing 문제를 해결하기 위해 스킵 연결을 도입한 것이 특징.

https://arxiv.org/abs/1512.03385



강화학습 ( Reinforcement learning )

강화학습에서는 에이전트가 환경에 맞게 행동을 선택하고, 에이전트가 수행한 행동에 의해서 환경이 변화한다는 것을 전제로 한다.
환경이 변화하면 에이전트는 보상을 얻는데, 더 나은 보상을 얻는 방향으로 에이전트가 학습하는 것이 강화학습이다.
여기서 주의할 점은 보상은 정해져있는 것이 아니라 예상 보상이라는 점이다.
즉, 에이전트가 같은 행동을 하더라도 어떤 상황에서 한 것이냐에 따라 보상이 달라질 수 있다.
그래서 정해져 있는 명확한 지표로부터 역산해서 예상 보상을 정하게 된다.

강화학습에 대한 설명이 잘 나와있는 블로그.


알파고에 사용한 것도 강화학습.


Deep Q-Network


Q학습이라는 강화학습 알고리즘을 기초로 한다.
Q학습에서는 최적 행동 가치 함수로 최적인 행동을 정한다. 
이 함수를 CNN으로 비슷하게 흉내낸 것이 DQN이다.

CNN을 사용하기 때문에 게임의 프레임 즉 이미지 데이터만 입력으로 받으면 알아서 학습한다.

지도 학습 ( supervised learning )

이미지 생성

DCGAN ( Deep Convolutional Generative Adversarial Network )

Generator와 Discriminator라는 2개의 신경망을 서로 경쟁시킨다.
Generator는 이미지를 생성하고, Discriminator는 이게 진짜 이미지인지, 생성한 이미지인지를 판정한다.
이런 식으로 둘을 경쟁시키는 방식으로 학습하는 방식을 GAN( Generative Adversarial Network ) 기술 이라 한다.

사물 검출 ( Object Detection )

cs231n lecture 8

Faster R-CNN ( Regions with Convolutional Neural Network )

후보 영역을 추출하고, CNN으로 각 영역을 분류한다.

https://arxiv.org/abs/1506.01497


요즘은 YOLO나 SSD도 많이 거론된다.

https://telecombcn-dl.github.io/2017-dlcv/slides/D3L4-objects.pdf


Faster R-CNN은 Region Proposal Network가 존재하는 반면, YOLO와 SSD는 없다.

그래서 정확도는 더 낮지만 속도가 real-time에 사용해도 될 정도로 빠르다.


YOLO

https://pjreddie.com/darknet/yolo/

https://arxiv.org/abs/1612.08242

https://github.com/hizhangp/yolo_tensorflow


SDD

https://arxiv.org/abs/1512.02325


이미지 유사성 판별 ( Image Similarity )

Deep Ranking

이건 구식 알고리즘일 가능성이... 다른 알고리즘 한번 찾아봐야 함.

분할 ( Segmentation )

이미지를 픽셀 수준에서 분류(구분) 하는 것을 말한다. supervised learning의 한 종류.

* 이미지를 인식해서 영역별로 나눠주게 된다.

FCN ( Fully Convolutional Network )

FC layer를 없애고 이를 같은 기능을 하는 Conv layer로 처리했다.
따라서 마지막 출력까지 공간적 정보를 유지할 수 있다.

https://people.eecs.berkeley.edu/~jonlong/long_shelhamer_fcn.pdf


사진 캡션 생성

NIC ( Neural Image Caption )

NIC는 Deep CNN + RNN(Recurrent Neural Network)으로 구성된다.
이런 식으로 여러 종류의 정보를 조합하고 처리하는 것을 멀티모달(multimodal) 프로세싱이라고 한다.


화풍 변환

https://arxiv.org/abs/1508.06576


비지도 학습 ( unsupervised learning )

자율 주행

SegNet을 사용하는 듯.