Amazon EC2 Inf1 インスタンスは、機械学習推論アプリケーションをサポートするため、1 から構築されました。Inf1 インスタンスでは、AWS が設計開発した高性能機械学習推論チップである AWS Inferentia を最大 16 個まで搭載できます。
Inf1 インスタンスはこれまでクラウドで利用可能な機械学習推論インスタンスの中で最も低コストな Amazon EC2 G4 インスタンスと比較して、推論処理あたり 最大 2.3倍 高いスループットと 70% 低いコストを実現しました。 Inf1 インスタンスを使用すれば、顧客は、画像認識、音声認識、自然言語処理、パーソナライズ、不正検知といった大規模な機械学習推論アプリケーションを、クラウドで最小のコストで実行することが可能となります。
機械学習のワークフローは、TensorFlow、PyTorch、MXNet といった一般的な機械学習フレームワークのいずれかでモデルを構築し、P3 や P3dn のような GPU インスタンスを使用してモデルの学習を行うことにより始めることができます。機械学習モデルの学習が、要件を満たせる程度まで進んだら、学習済みモデルを AWS Neuron SDK を使用してInf1インスタンス上にデプロイできます。 Neuron SDKは、Inferentia チップの機械学習推論のパフォーマンスを最適化するコンパイラ、ランタイム、およびプロファイリングツールから構成されています。Neuron SDK は、AWS Deep Learning AMI にプリインストールされており、またカスタム環境にも個別にインストール可能です。