IaaS, inférence, bureautique… Microsoft rend son cloud un peu plus « local »
Pas de VM à lancement fiable, de GPU sur AKS, d’actions de remédiation avec le moteur de politiques… En mode déconnecté, Azure Local a des limites fonctionnelles.
Pour autant, ce mode vient de passer en disponibilité générale. Il complète celui dit à « connectivité limitée », qui n’impose pas l’hébergement du plan de contrôle en local et qui envoie certaines données vers le cloud, à commencer par les logs.
En mode déconnecté, Azure Local permet pour le moment de créer des VM Windows (10 Enterprise ; Server 2022/2025) et Linux (Ubuntu 22.04/24.04 LTS). La gestion des clusters Kubernetes vanilla et AKS est en preview. Comme les VM à lancement fiable (secure boot, vTPM et attestation).
Le cluster de management doit comprendre au moins 3 nœuds physiques. Chacun avec 96 Go de RAM, 24 cœurs physiques et 2 To NVMe. Certaines opérations ne peuvent être effectuées sur le portail Azure, comme la création d’interfaces réseau et de clés SSH (pour AKS). On ne peut pas forcer la synchronisation des identités, réalisée toutes les 15 minutes.
Microsoft 365 adapté à Azure Local
Autre offre qui passe en disponibilité générale : Microsoft 365 Local. Elle permet de déployer Exchange Server, SharePoint Server et Skype for Business Server (Subscription Edition) sur des architectures de référence Azure Local. Impératif : utiliser du matériel certifié Premier (une vingtaine de configurations disponibles : du Dell AX et APEX, du Lenovo ThinkAgile et du HPE ProLiant).
Microsoft s’est engagé à supporter les trois produits au moins jusqu’à fin 2035.
Catalogue enrichi pour Foundry Local
Foundry Local reste en preview, mais accueille de plus gros modèles à son catalogue.
Cette version locale de Microsoft Foundry (ex-Azure AI Foundry) est installable sur Windows 10 (x64), Windows 11 (x64/Arm), Windows Server 2025 et macOS (Apple Silicon). Elle donne accès à une API et un serveur REST, un SDK (C#, Python, JavaScript) et un runtime ONNX. L’inférence est locale, mais le réseau peut être utilisé pour télécharger modèles et composants, et éventuellement partager des logs.
Pour le moment, l’API ne fonctionne qu’en mode chat/completions – le SDK permettant d’exploiter les modèles de reconnaissance vocale Whisper. Pensé pour un fonctionnement mononœud, Foundry Local ne gère ni l’autoscaling, ni la concurrence (le parallélisme est à contrôler au niveau applicatif), ni le batching continu. Quant à catalogue, avec 25 modèles, on est encore loin des plus de 8000 proposés sur la version cloud de Foundry.
Les 25 modèles disponibles
| Modèle | Taille | Licence | Variantes |
| Phi-3-mini-4k-instruct | 2,1 Go | MIT | CPU GPU (CUDA, WebGPU, OpenVINO, TensorRT) NPU (QNN, Vitis) |
| Phi-3-mini-128k-instruct | 2,1 Go | MIT | CPU GPU (CUDA, WebGPU, OpenVINO, TensorRT) NPU (QNN, Vitis) |
| Phi-3.5-mini-instruct | 2,1 Go | MIT | CPU GPU (CUDA, WebGPU, OpenVINO, TensorRT) NPU (QNN) |
| Phi-4-mini-instruct | 3,6 Go | MIT | CPU GPU (CUDA, WebGPU, OpenVINO) NPU (OpenVINO, Vitis) |
| Phi-4-mini-reasoning | 3,1 Go | MIT | CPU GPU (CUDA, WebGPU, OpenVINO) NPU (OpenVINO, Vitis) |
| Phi-4 | 8,4 Go | MIT | CPU GPU (CUDA, WebGPU, OpenVINO, TensorRT) |
| Phi-4-reasoning | 8,4 Go | MIT | CPU GPU (CUDA, WebGPU) |
| DeepSeek-R1-Distill-Qwen-1.5B | 1,4 Go | MIT | GPU (TensorRT) |
| DeepSeek-R1-Distill-Qwen-7B | 5,3 Go | MIT | CPU GPU (CUDA, WebGPU, OpenVINO, TensorRT) NPU (OpenVINO, Vitis) |
| DeepSeek-R1-Distill-Qwen-14B | 9,8 Go | MIT | CPU GPU (CUDA, WebGPU, OpenVINO, TensorRT) NPU (QNN) |
| Qwen2.5-0.5B-Instruct | 0,5 Go | Apache 2.0 | CPU GPU (CUDA, WebGPU, OpenVINO, TensorRT) NPU (OpenVINO, Vitis) |
| Qwen2.5-Coder-0.5B-Instruct | 0,5 Go | Apache 2.0 | CPU GPU (CUDA, WebGPU, OpenVINO, TensorRT) NPU (OpenVINO, Vitis) |
| Qwen2.5-1.5B-Instruct | 1,3 Go | Apache 2.0 | CPU GPU (CUDA, WebGPU, OpenVINO, TensorRT) NPU (OpenVINO, QNN) |
| Qwen2.5-Coder-1.5B-Instruct | 1,3 Go | Apache 2.0 | CPU GPU (CUDA, WebGPU, OpenVINO, TensorRT) NPU (OpenVINO, Vitis) |
| Qwen2.5-7B-Instruct | 4,7 Go | Apache 2.0 | CPU GPU (CUDA, WebGPU, OpenVINO, TensorRT) NPU (Vitis) |
| Qwen2.5-Coder-7B-Instruct | 4,7 Go | Apache 2.0 | CPU GPU (CUDA, WebGPU, OpenVINO, TensorRT) NPU (OpenVINO, Vitis) |
| Qwen2.5-14B-Instruct | 8,8 Go | Apache 2.0 | CPU GPU (CUDA, WebGPU, OpenVINO, TensorRT) |
| Qwen2.5-Coder-14B-Instruct | 8,8 Go | Apache 2.0 | CPU GPU (CUDA, WebGPU, OpenVINO, TensorRT) |
| Mistral-7B-Instruct-v0.2 | 4,3 Go | Apache 2.0 | GPU (OpenVINO) NPU (OpenVINO, Vitis) |
| gpt-oss-20b | 9,7 Go | Apache 2.0 | CPU GPU (CUDA) |
Illustration © Greentech – Adobe Stock
The post IaaS, inférence, bureautique… Microsoft rend son cloud un peu plus « local » appeared first on Silicon.fr.
