책: 한 권으로 끝내는 딥러닝 텐서플로 요약

4 minute read

Ch1

대부분의 딥 아키텍처는 한정된 아키텍처 기본요소primitive를 결합해서 만듬. neural network layer라는 기본요소는 딥 네트워크의 구성요소building block임.

  • 완전연결 계층fully connected
    • 입력 목록을 출력 목록으로 변환. 모든 입력값이 모든 출력값에 영향.입력에 정해진 구조없다는 장점.
  • 합성곱 계층convolutional layer
    • 공간상 서로 가까이 있는 입력은 의미적으로 관련 있다고 가정. 이미지에 적합.
  • 책의 그림 여기서 다운로드 가능.

  • 순환 신경망recurrent neural network 계층은 update rule에 따라 입력이 단계적으로 전개. 이 갱신 규칙은 이전에 발생한 모든 상태반영, 즉 시퀀스에서 다음 상태 예측 가능. 데이터로부터 이러한 갱신 규칙 학습 가능. 언어 모델링같은 작업에 유용. 이전 기록으로부터 사용자가 타이핑 다음 단어 예측.

  • 장단기 기억long short-term memory 셀
    • RNN 먼 과거 영향 학습 불가. 정교한 언어 모델링 위해 먼거리 영향 매우 중요. LSTM셀은 RNN 계층 변형. 이러한 신호 현재로 전달.

딥러닝 아키텍처

  • LeNet
  • 최초로 널리 알려진 이미지 처리를 위한 deep CNN 아키텍처. 1988년 소개. 광학 문자 인식optical character recognitionOCR에 사용.

  • AlexNet
  • ILSVRC 챌린지 라는 시각 인식 시스템 성능 대결에서 처음 나옴. 2012년 GPU사용 LeNet변형. 에러율 기존 절반 수준. 8개 계층

  • ResNet
  • 위의 ILSVRC대회 2015 우승작. 합성공 아키텍처. 130개 계층. deep할수록 vanishing gradients problem발생. 이러한 감쇠attenuation로인해 유효 깊이 제한됨. ResNet 감쇠 제어위해 bypass connection도입.

  • 신경 캡셔닝 모델
  • 자동으로 이미지에 캡션을 생성. CNN + LSTM. end-to-end학습. 즉 CNN과 LSTM넷트워크 함께학습함.

-구글 신경망 기계번역GNMT

  • LSTM사용.

중요

  • One-shot Learning
  • 신약 개발같은 영역에서 몇가지 예데이터만으로 의미있는 예측 할수 있도록 학습.

  • 알파고
  • deep value network, deep policy network사용. 전자는 바둑판 위치의 가치 추정. 후자는 현재 상태에서 최선의 다음수 추정. 이 두가지 기술 + Monte Carlo tree search결합.

  • Generative adversarial networkGAN
  • 두개의 신경망의 서로 경쟁을 이용.
  • 생성자는 진짜 같은 새 이미지 만듬. 판별자는 이 새가 실제 새 이미지인지 생성자가 만든 가짜인지 구분함. GAN 매우 진짜같은 이미지 생성.

  • 신경 튜링머신

텐서플로우의 한계

텐서플로 사용하여 동적 구조변경하는 정교한 딥 아키텍처 구축 불편. 트리 LSTM 같은 아키텍처. 자연어처리 수행, 각 문장마다 다른 아키텍처 필요. Torch는 트리 LSTM모델을 쉽게 만들수 있음.

딥러닝 포함한 컴퓨터 과학은 경험적인 학문. 알고리즘을 이론상으로만 이해하는 것은 충분하지 않음. 텐서플로 등 프레임워크 사용해 직접 아이디어 구현하라

Ch2. 텐서플로 기초

스칼라는 실수로 된 하나의 상수. 스칼라는 랭크-0인 텐서. 랭크-1 텐서는 벡터. 실수들이 모인 목록. 고양이를 키, 몸무게, 색으로 기술한다면

\[\begin{pmatrix} height\\ weight\\ color \end{pmatrix}\]

이러한 표현방식 featurization라고 부름. 다시말해 실세계 개체를 벡터 또는 텐서로 표현.

  • 분자를 벡터로 변형하는 과정은 복잡함. 데이터를 어떻게 텐서 형식으로 변형할지 결정하는 것이 ML 시스템 구축에서 가장 어려움. 분자 형식은 변형이 어려움.

  • 랭크-2 텐서는 matrix.

  • 행렬곱. 교환법칙 성립안함.

  • 표준곱 중 중요한 특징은 linear operation. 함수 f(x+y) = f(x)+f(y) 이고 c가 스칼라일때, f(cx)=cf(x) 이면 선형이라고함. 스칼라곱이 선형임을 증명. a,b,c,d모두 실수일때, 다음 성립: $a\cdot (b\cdot c)=b\cdot (ac)$ $a\cdot(c+d)=ac+ad$


랭크-2 텐서인 행렬의 특정 원소를 선택하려면 행과 열을 알아야함. 따라서 랭크-3 텐서는 세 개의 인덱스 필요. 엄밀하지않게 숫자로된 직육면체가 랭크-3 텐서라고 기억.


224*224 픽셀의 흑백 이미지는 224,224형상의 행렬. 224*224의 컬러 이미지는 224,224,3 형상의 랭크-3 텐서로 인코딩. 60fps 1분길이 컬러 비디오는 224,224,3,3600형상의 랭크-4 텐서, 등등…