Une Nouvelle Perspective sur la Course à l'IA entre les États-Unis et la Chine : Comparaison des Déploiements Ollama en 2025 et Insights sur les Tendances Mondiales des Modèles d'IA

Ollama est un outil open source populaire conçu pour simplifier le processus d'exécution, de création et de partage de grands modèles linguistiques (LLM) localement. Il regroupe les poids, la configuration et les données du modèle dans un package défini par un Modelfile, et fournit une API pour interagir avec ces modèles. Cela permet aux développeurs et aux chercheurs de déployer et d'expérimenter facilement divers modèles d'IA avancés sur des ordinateurs personnels ou des serveurs.

1. Introduction

Ce rapport vise à révéler les tendances de déploiement, les préférences de modèles, la distribution géographique et les caractéristiques réseau en analysant les données de 174 590 instances Ollama déployées à l'échelle mondiale.

Note : Les statistiques de données dans le Chapitre 5 et le Chapitre 7 proviennent des 174 590 instances. Les données du Chapitre 6 proviennent des instances accessibles. Pour des raisons de sécurité, nous n'avons pas listé les statistiques sur les versions d'Ollama.

Données au : 24 avril 2025.
Source du rapport : Tenthe AI https://tenthe.com
Auteur : Ryan

2. Résumé Exécutif

Ce rapport est basé sur l'analyse des données de scan et de sondage API des instances Ollama publiquement disponibles dans le monde entier. Les principales conclusions incluent :

À l'échelle mondiale, parmi environ 174 590 enregistrements initialement identifiés via Fofa (99 412 IPs uniques), 41 021 instances Ollama avec des APIs accessibles ont été sondées avec succès, réparties sur 24 038 adresses IP uniques (un taux d'accessibilité d'environ 24,18 %).
Géographiquement, les États-Unis et la Chine sont les pays avec le plus grand nombre de déploiements Ollama. Les fournisseurs de services cloud, en particulier AWS, Alibaba Cloud et Tencent Cloud, sont les principaux hôtes des instances Ollama.
Les déploiements de modèles montrent une grande diversité, avec les modèles des séries llama3, deepseek-r1, mistral et qwen étant très populaires. Parmi eux, llama3:latest et deepseek-r1:latest sont les deux tags de modèle les plus largement déployés.
Les modèles avec 7B-8B paramètres sont le premier choix des utilisateurs, tandis que les modèles quantifiés en 4 bits comme Q4_K_M et Q4_0 sont largement adoptés pour leur bon équilibre entre performance et consommation de ressources.
Le port par défaut 11434 est le plus couramment utilisé, et la plupart des instances exposent leurs services via le protocole HTTP.

3. Sources de Données et Méthodologie

Les données de ce rapport proviennent principalement de deux étapes :

Scan Initial : Utilisation de moteurs de recherche d'espace réseau comme Fofa, avec la condition app="Ollama" && is_domain=false, pour identifier initialement les instances Ollama potentielles déployées à l'échelle mondiale. Cette étape a trouvé 174 590 enregistrements, impliquant 99 412 IPs uniques après déduplication.
Vérification API et Enrichissement des Données : Sondage du point de terminaison API ip:port/api/tags pour les adresses IP initialement scannées afin de confirmer l'accessibilité des services Ollama et d'obtenir des informations sur les modèles d'IA spécifiques déployés. Cette étape a confirmé 41 021 instances Ollama ayant répondu avec succès (à partir de 24 038 IPs uniques, avec les données stockées dans la table ollama).
Les données finales sont stockées dans la table ollama.

L'analyse dans ce rapport est principalement basée sur les données de la table ollama, qui contient les enregistrements des APIs sondées avec succès et leurs informations détaillées, y compris l'IP, le port, la localisation géographique et la réponse JSON (contenant la liste des modèles), etc.

4. Statistiques Générales de Déploiement

Nombre d'enregistrements initiaux du scan Fofa : 174 590
Nombre d'IPs uniques du scan initial Fofa : 99 412
Nombre d'instances Ollama accédant avec succès à /api/tags : 41 021 (à partir des enregistrements où status = 'success' dans la table ollama)
Nombre d'adresses IP uniques correspondantes : 24 038 (à partir des enregistrements où status = 'success' dans la table ollama)
Ratio des IPs accessibles aux IPs initialement identifiées : (24038 / 99412) * 100% ≈ 24,18 %

Cela indique que parmi toutes les instances Ollama identifiées via Fofa, environ un quart ont leur interface /api/tags publiquement accessible, nous permettant de récupérer des informations sur les modèles déployés.

5. Analyse de la Distribution Géographique

5.1 Top 20 des Pays/Régions de Déploiement

Le tableau ci-dessous présente le top 20 des pays/régions classés par le nombre d'IPs uniques avec des instances Ollama.

Rang	Pays/Région	Nombre d'IPs Uniques
1	États-Unis	29195
2	Chine	16464
3	Japon	5849
4	Allemagne	5438
5	Royaume-Uni	4014
6	Inde	3939
7	Singapour	3914
8	Corée du Sud	3773
9	Irlande	3636
10	France	3599
11	Australie	3558
12	Brésil	2909
13	Canada	2763
14	Afrique du Sud	2742
15	Suède	2113
16	R.A.S. de Hong Kong, Chine	1277
17	Israël	675
18	Taïwan, Chine	513
19	Russie	475
20	Finlande	308

Ollama Top 20 Deployment Countries/Regions

5.2 Top 20 des Déploiements par Ville Mondiale

Le tableau ci-dessous présente le top 20 des villes mondiales classées par le nombre d'IPs uniques avec des instances Ollama.

Rang	Ville	Pays/Région	Nombre d'IPs Uniques
1	Ashburn	États-Unis	5808
2	Portland	États-Unis	5130
3	Singapour	Singapour	3914
4	Francfort-sur-le-Main	Allemagne	3908
5	Pékin	Chine	3906
6	Londres	Royaume-Uni	3685
7	Columbus	États-Unis	3672
8	Mumbai	Inde	3637
9	Dublin	Irlande	3631
10	Tokyo	Japon	3620
11	Sydney	Australie	3487
12	Paris	France	3175
13	San Jose	États-Unis	2815
14	Sao Paulo	Brésil	2753
15	Le Cap	Afrique du Sud	2692
16	Montréal	Canada	2535
17	Seattle	États-Unis	2534
18	Hangzhou	Chine	2447
19	Séoul	Corée du Sud	2327
20	Osaka	Japon	2184

5.3 Top 10 des Villes Américaines

Rang	Ville	Nombre d'IPs Uniques
1	Ashburn	5808
2	Portland	5130
3	Columbus	3672
4	San Jose	2815
5	Seattle	2534
6	Westlake Village	1714
7	Boardman	855
8	Florence	776
9	San Francisco	753
10	Boulder	642

5.4 Top 10 des Villes de Chine Continentale

Les déploiements à Hong Kong et Taïwan ne sont pas reflétés dans le tableau des 10 premières villes car ils sont déjà inclus dans les statistiques par pays/région.

Rang	Ville	Pays (`country_name`)	Nombre d'IPs Uniques
1	Pékin	Chine	3906
2	Hangzhou	Chine	2447
3	Shanghai	Chine	1335
4	Guangzhou	Chine	1296
5	Shenzhen	Chine	768
6	Chengdu	Chine	469
7	Nanjing	Chine	329
8	Chongqing	Chine	259
9	Suzhou	Chine	257
10	Wuhan	Chine	249

5.5 Comparaison des Déploiements Ollama par Ville entre les États-Unis et la Chine

Pour comparer plus intuitivement les déploiements Ollama au niveau des villes aux États-Unis et en Chine, le tableau ci-dessous juxtapose le nombre de déploiements par IP unique pour les 10 premières villes des deux pays :

Rang	Ville Américaine (Top 10)	Nombre d'IPs Uniques aux États-Unis	Ville Chinoise (Top 10)	Nombre d'IPs Uniques en Chine
1	Ashburn	5808	Pékin	3906
2	Portland	5130	Hangzhou	2447
3	Columbus	3672	Shanghai	1335
4	San Jose	2815	Guangzhou	1296
5	Seattle	2534	Shenzhen	768
6	Westlake Village	1714	Chengdu	469
7	Boardman	855	Nanjing	329
8	Florence	776	Chongqing	259
9	San Francisco	753	Suzhou	257
10	Boulder	642	Wuhan	249

Ollama US-China Top 10 City Deployment Comparison

Bref Commentaire :

Volume des Villes en Tête : Les 3 premières villes américaines (Ashburn, Portland, Columbus) comptent chacune plus de 3 000 IPs uniques avec des déploiements Ollama. La première ville chinoise (Pékin) a plus de 3 000 déploiements, et sa deuxième ville (Hangzhou) en a plus de 2 000.
Pôles Technologiques et Économiques : De nombreuses villes listées dans les deux pays sont des centres d'innovation technologique bien connus ou des régions économiques importantes.
Régions de Centres de Données : L'inclusion de villes américaines comme Ashburn reflète également que les instances Ollama peuvent être largement déployées dans des serveurs cloud et des centres de données.
Différences de Distribution : Globalement, le nombre total d'IPs dans les 10 premières villes américaines est significativement plus élevé que dans les 10 premières villes chinoises. Cependant, les deux pays montrent un schéma où quelques villes centrales représentent la grande majorité des déploiements Ollama.

Cette comparaison au niveau des villes révèle en outre que la promotion et l'application d'Ollama, en tant qu'outil de développement, sont étroitement liées aux écosystèmes technologiques régionaux et au développement industriel.

6. Analyse des Modèles

6.1 Bref Aperçu des Modèles d'IA, des Paramètres et de la Quantification

Ollama prend en charge une variété de grands modèles linguistiques open source. Ces modèles se distinguent généralement par les caractéristiques suivantes :

6.1.1 Familles de Modèles Courantes

La communauté open source a vu émerger une multitude d'excellentes familles de LLM, chacune avec ses propres caractéristiques :

Série Llama (Meta AI) : Tels que Llama 2, Llama 3, Code Llama. Connus pour leurs puissantes capacités générales et leur large soutien communautaire, conduisant à de nombreuses versions affinées. Les modèles comme llama3.1, hermes3 vus dans nos données sont souvent basés sur l'architecture Llama.
Série Mistral (Mistral AI) : Tels que Mistral 7B, Mixtral 8x7B. Gagne en attention pour son efficacité et ses hautes performances, en particulier ses modèles MoE (Mixture of Experts).
Série Gemma (Google) : Tels que Gemma 2B, Gemma 7B. Modèles à poids ouverts publiés par Google, avec une technologie dérivée de leurs modèles Gemini plus puissants.
Série Phi (Microsoft) : Tels que Phi-2, Phi-3. Se concentre sur des modèles de petite taille mais performants, mettant l'accent sur les "SLM (Small Language Models)".
Série DeepSeek (DeepSeek AI) : Tels que DeepSeek Coder, DeepSeek LLM. Modèles d'IA chinois qui excellent dans le codage et les tâches générales.
Série Qwen (Alibaba Tongyi Qianwen) : Tels que Qwen1.5. Une série de modèles lancée par Alibaba DAMO Academy, prenant en charge plusieurs langues et tâches.
Il existe de nombreux autres excellents modèles, tels que Yi (01.AI), Command R (Cohere), etc.

Ollama, grâce à son mécanisme Modelfile, permet aux utilisateurs d'utiliser facilement ces modèles de base ou leurs versions affinées. Les noms de modèles suivent souvent le format famille:taille-variante-quantification, par exemple, llama3:8b-instruct-q4_K_M.

6.1.2 Paramètres du Modèle (Taille des Paramètres)

Le nombre de paramètres du modèle (généralement en B - Milliards ; ou M - Millions) est un indicateur important de l'échelle et de la capacité potentielle d'un modèle. Les tailles de paramètres courantes incluent :

Petits Modèles : < 7B (par exemple, 1.5B, 2B, 3B). S'exécutent généralement rapidement avec une faible consommation de ressources, adaptés aux tâches spécifiques ou aux environnements contraints en ressources.
Modèles Moyens : 7B, 8B, 13B. Atteignent un bon équilibre entre capacité et consommation de ressources, actuellement l'une des tailles les plus populaires dans la communauté.
Grands Modèles : 30B, 33B, 40B, 70B+. Généralement plus capables mais nécessitent également plus de ressources computationnelles (RAM, VRAM) et des temps d'inférence plus longs.

Le champ parameter_size dans nos données (par exemple, "8.0B", "7B", "134.52M") l'indique.

6.1.3 Versions de Quantification (Niveau de Quantification)

La quantification est une technique visant à réduire la taille du modèle et à accélérer l'inférence en diminuant la précision numérique des poids du modèle (par exemple, de la virgule flottante 16 bits FP16 à l'entier 4 bits INT4).

Niveaux de Quantification Courants : Ollama et le format GGUF (utilisé par Llama.cpp) prennent en charge diverses stratégies de quantification, telles que Q2_K, Q3_K_S, Q3_K_M, Q3_K_L, Q4_0, Q4_K_M, Q5_K_M, Q6_K, Q8_0, etc.
- Le nombre (par exemple, 2, 3, 4, 5, 6, 8) indique approximativement le nombre de bits.
- Les quantifications de la série K (par exemple, Q4_K_M) sont des méthodes de quantification améliorées introduites dans llama.cpp, obtenant généralement de meilleures performances avec le même nombre de bits.
- _S, _M, _L désignent généralement différentes variantes des K-quants, affectant différentes parties du modèle.
- F16 (FP16) représente la virgule flottante 16 bits, souvent considérée comme non quantifiée ou une version de quantification de base. F32 (FP32) est la pleine précision.
Compromis : Une quantification plus élevée (moins de bits) entraîne des modèles plus petits et plus rapides, mais s'accompagne généralement d'une certaine perte de performance (le modèle fonctionne moins bien). Les utilisateurs doivent choisir en fonction de leur matériel et de leurs exigences en matière de qualité de modèle.

Le champ quantization_level dans nos données (par exemple, "Q4_K_M", "F16") l'indique.

6.2 Noms de Modèles Populaires

Le tableau ci-dessous présente les 10 premiers tags de modèle classés par le nombre de déploiements par IP unique, y compris les informations sur leur famille, la taille des paramètres et le niveau de quantification.

Rang	Nom du Modèle (model_name)	Déploiements par IP Unique	Instances de Déploiement Totales
1	`llama3:latest`	12659	24628
2	`deepseek-r1:latest`	12572	24578
3	`mistral:latest`	11163	22638
4	`qwen:latest`	9868	21007
5	`llama3:8b-text-q4_K_S`	9845	20980
6	`smollm2:135m`	4058	5016
7	`llama2:latest`	3124	3928
8	`hermes3:8b`	2856	3372
9	`llama3.1:8b`	2714	3321
10	`qwen2.5:1.5b`	2668	3391

(Note : Les Déploiements par IP Unique font référence au nombre d'adresses IP uniques qui ont déployé au moins une instance de ce tag de modèle. Les Instances de Déploiement Totales font référence au nombre total de fois où ce tag de modèle apparaît dans la liste models sur toutes les IPs. Une IP peut pointer plusieurs fois vers le même tag de modèle par différents moyens ou enregistrements, ou une IP peut exécuter plusieurs instances de tags différents appartenant au même modèle de base.)

Observations Initiales (Noms de Modèles Populaires) :

Les modèles avec le tag :latest sont très courants, tels que llama3:latest, deepseek-r1:latest, mistral:latest, qwen:latest. Cela indique que de nombreux utilisateurs préfèrent télécharger directement la dernière version des modèles.
Les modèles de la série Llama (par exemple, llama3:latest, llama3:8b-text-q4_K_S, llama2:latest, llama3.1:8b) occupent plusieurs places, montrant leur forte popularité.
Les modèles d'IA chinois comme deepseek-r1:latest (série DeepSeek) et qwen:latest (série Tongyi Qianwen) affichent également des performances impressionnantes, se classant en tête.
Des versions quantifiées spécifiques comme llama3:8b-text-q4_K_S sont également entrées dans le top dix, indiquant la préférence des utilisateurs pour des équilibres performance/consommation de ressources spécifiques.
Les petits modèles comme smollm2:135m et qwen2.5:1.5b ont également un nombre considérable de déploiements, répondant à la demande de modèles légers.

6.3 Familles de Modèles Populaires

La famille de modèles (details.family) représente l'architecture de base ou la lignée technologique principale du modèle. Ci-dessous se trouvent les familles de modèles avec un nombre plus élevé de déploiements selon notre analyse de données :

Rang	Famille de Modèles (family)	Déploiements par IP Unique (Estimé)	Instances de Déploiement Totales (Estimé)
1	`llama`	~20250	~103480
2	`qwen2`	~17881	~61452
3	`nomic-bert`	~1479	~1714
4	`gemma3`	~1363	~2493
5	`bert`	~1228	~2217
6	`mllama`	~943	~1455
7	`gemma`	~596	~750
8	`deepseek2`	~484	~761
9	`phi3`	~368	~732
10	`gemma2`	~244	~680

(Note : Les valeurs spécifiques ici sont estimées et résumées sur la base de la liste détaillée des 50 premiers modèles précédemment interrogée et peuvent légèrement différer des statistiques globales précises, mais la tendance est représentative.)

Observations Initiales (Familles de Modèles Populaires) :

La famille llama détient une position dominante absolue, ce qui est cohérent avec les modèles de la série Llama qui sont à la base de nombreux LLM open source modernes et de leur application généralisée. Son vaste écosystème et ses nombreuses versions affinées en font le choix le plus populaire.
qwen2 (série Tongyi Qianwen Qwen2), en tant que deuxième plus grande famille, montre sa forte compétitivité en Chine et même à l'échelle mondiale.
L'apparition de nomic-bert et bert est remarquable. Bien qu'ils ne soient pas typiquement considérés comme de "grands modèles linguistiques" (conversationnels), mais plutôt comme des modèles de base pour l'intégration de texte ou d'autres traitements du langage naturel, leur volume de déploiement élevé suggère qu'Ollama est également largement utilisé pour de telles tâches. Ollama télécharge automatiquement un modèle d'intégration par défaut (par exemple, nomic-embed-text) lors de certaines opérations (comme la génération de vecteurs d'intégration), ce qui est probablement la raison principale de leur classement élevé.
La série gemma de Google (y compris gemma3, gemma, gemma2) montre également des taux d'adoption décents.
D'autres familles de modèles bien connues comme deepseek2 et phi3 figurent également parmi les dix premières.
mllama peut représenter une collection de divers modèles hybrides, modifiés ou nommés par la communauté basés sur Llama.

6.4 Statistiques des Tailles de Paramètres Originales Populaires

La taille des paramètres du modèle (details.parameter_size) est un indicateur important de l'échelle du modèle. En raison de la représentation variée des tailles de paramètres dans les données brutes (par exemple, "8.0B", "7B", "134.52M"), nous comptons directement ces chaînes de caractères originales. Ci-dessous se trouvent les représentations de tailles de paramètres avec un nombre plus élevé de déploiements :

Rang	Taille des Paramètres (Chaîne Originale)	Déploiements par IP Unique (Estimé)	Instances de Déploiement Totales (Estimé)
1	`8.0B`	~14480	~52577
2	`7.6B`	~14358	~28105
3	`7.2B`	~11233	~22907
4	`4B`	~9895	~21058
5	`7B`	~4943	~11738
6	`134.52M`	~4062	~5266
7	`1.5B`	~2759	~3596
8	`13B`	~2477	~3311
9	`1.8B`	~2034	~2476
10	`3.2B`	~1553	~2244
11	`137M`	~1477	~1708
12	`12.2B`	~1421	~2000
13	`32.8B`	~1254	~2840
14	`14.8B`	~1123	~2091
15	`4.3B`	~943	~1194

Ollama Top Original Parameter Size Statistics

(Note : Les valeurs sont estimées sur la base d'un résumé des informations de paramètres de la liste détaillée des 50 premiers modèles précédemment interrogée.)

Observations Initiales (Tailles de Paramètres Populaires) :

Les modèles de taille 7B à 8B sont le courant dominant absolu : "8.0B", "7.6B", "7.2B", "7B" occupent la grande majorité des déploiements. Cela correspond généralement aux modèles très populaires dans la communauté, tels que les séries Llama 2/3 7B/8B, Mistral 7B, et leurs diverses versions affinées. Ils offrent un bon équilibre entre performance et consommation de ressources.
Les modèles de taille 4B occupent également une position importante : Le déploiement élevé de "4B" est remarquable.
Les modèles légers au niveau million de paramètres (M) sont répandus : Le classement élevé de "134.52M" et "137M" est probablement lié à la popularité des modèles d'intégration (comme nomic-embed-text) ou de très petits modèles spécialisés (comme la série smollm). Ces modèles sont petits, rapides et adaptés aux scénarios contraints en ressources ou sensibles à la latence.
Demande stable pour les petits modèles dans la gamme 1B-4B : Les modèles avec des tailles de paramètres comme "1.5B", "1.8B", "3.2B", "4.3B" sont également favorisés par une partie des utilisateurs.
Grands modèles supérieurs à 10B : Tels que "13B", "12.2B", "32.8B", "14.8B", bien qu'ils n'aient pas autant de déploiements par IP unique que le niveau 7-8B, ont toujours un volume de déploiement considérable, indiquant une demande communautaire pour des modèles plus performants, malgré leurs exigences matérielles plus élevées.

6.5 Statistiques des Niveaux de Quantification Populaires

Le niveau de quantification du modèle (details.quantization_level) reflète la précision des poids adoptée par le modèle pour réduire la taille et accélérer l'inférence. Ci-dessous se trouvent les niveaux de quantification avec un nombre plus élevé de déploiements :

Rang	Niveau de Quantification (Chaîne Originale)	Déploiements par IP Unique (Estimé)	Instances de Déploiement Totales (Estimé)
1	`Q4_K_M`	~20966	~53688
2	`Q4_0`	~18385	~88653
3	`Q4_K_S`	~9860	~21028
4	`F16`	~5793	~9837
5	`Q8_0`	~596	~1574
6	`unknown`	~266	~1318
7	`Q5_K_M`	~97	~283
8	`F32`	~85	~100
9	`Q6_K`	~60	~178
10	`Q2_K`	~54	~140

Ollama Top Quantization Level Statistics

(Note : Les valeurs sont estimées sur la base d'un résumé des informations de quantification de la liste détaillée des 50 premiers modèles précédemment interrogée.)

Observations Initiales (Niveaux de Quantification Populaires) :

La quantification 4 bits est la solution dominante : Q4_K_M, Q4_0 et Q4_K_S, ces trois niveaux de quantification 4 bits, dominent absolument les classements. Cela indique clairement que la communauté adopte largement la quantification 4 bits comme solution privilégiée pour obtenir le meilleur équilibre entre performance du modèle, vitesse d'inférence et occupation des ressources (en particulier la VRAM).
F16 (virgule flottante 16 bits) conserve une place importante : En tant que version non quantifiée (ou seulement quantifiée de manière basique), le déploiement élevé de F16 montre qu'un nombre considérable d'utilisateurs le choisissent pour rechercher la plus haute fidélité du modèle ou parce qu'ils disposent de ressources matérielles suffisantes.
Q8_0 (quantification 8 bits) comme supplément : Offre une option entre le 4 bits et F16.
Apparition de valeurs unknown : Indique que les informations de niveau de quantification sont manquantes ou non standard dans certaines métadonnées de modèle.

6.6 Distribution de la Puissance de Calcul IA (par Taille de Paramètres de Modèle) : Chine vs États-Unis

Pour mieux comprendre comment les modèles de différentes échelles sont déployés dans les principaux pays, nous avons catégorisé et compté les tailles de paramètres des modèles déployés sur les instances Ollama aux États-Unis et en Chine. La taille des paramètres est souvent considérée comme un indicateur important de la complexité du modèle et de la demande potentielle en puissance de calcul IA.

Norme de Classification des Échelles de Paramètres :

Petits : < 1 Milliard de paramètres (< 1B)
Moyens : 1 Milliard à < 10 Milliards de paramètres (1B à < 10B)
Grands : 10 Milliards à < 50 Milliards de paramètres (10B à < 50B)
Très Grands : >= 50 Milliards de paramètres (>= 50B)

Le tableau ci-dessous présente le nombre d'IPs uniques déployant des modèles de différentes échelles de paramètres aux États-Unis et en Chine :

Pays	Catégorie d'Échelle de Paramètres	Nombre d'IPs Uniques
Chine	Petits (<1B)	3313
Chine	Moyens (1B à <10B)	4481
Chine	Grands (10B à <50B)	1548
Chine	Très Grands (>=50B)	280
États-Unis	Petits (<1B)	1368
États-Unis	Moyens (1B à <10B)	6495
États-Unis	Grands (10B à <50B)	1301
États-Unis	Très Grands (>=50B)	58

The table below shows the number of unique IPs deploying models of different parameter scales in the US and China

Insights et Analyse des Données :

Les modèles de taille moyenne sont le courant dominant, mais avec des accents différents :
- États-Unis : Les déploiements de modèles de taille moyenne (1B-10B) sont absolument dominants aux États-Unis (6495 IPs uniques).
- Chine : Les modèles de taille moyenne (4481 IPs uniques) sont également le type le plus déployé en Chine, mais le déploiement de petits modèles (<1B) en Chine (3313 IPs uniques) est très considérable.
Différence significative dans les petits modèles : Le déploiement à grande échelle de petits modèles en Chine pourrait refléter une préférence pour l'edge computing, les applications d'IA mobiles et des scénarios similaires.
Déploiement de grands et très grands modèles : La Chine montre une activité plus élevée dans l'exploration des grands et très grands modèles (bien que partant d'une base plus petite).
Inférence sur l'investissement global en puissance de calcul : La base américaine dans les modèles de taille moyenne montre la prévalence des applications d'IA pratiques. La Chine a un avantage dans les petits modèles et explore activement les grands modèles.
Implications pour les tendances mondiales : Les modèles de taille moyenne sont probablement populaires à l'échelle mondiale. Différentes régions peuvent avoir des stratégies d'adoption de modèles variables en fonction de leurs écosystèmes et de leurs conditions de ressources.

En segmentant les échelles de paramètres des modèles en Chine et aux États-Unis, nous pouvons voir les différents accents et potentiels de développement des applications Ollama dans les deux pays.

7. Informations sur le Réseau

7.1 Utilisation des Ports

11434 (port par défaut) : La grande majorité (30 722 IPs uniques) des instances Ollama fonctionnent sur le port par défaut 11434.
Autres ports courants : Des ports comme 80 (1 619 IPs uniques), 8080 (1 571 IPs uniques), 443 (1 339 IPs uniques), etc., sont également utilisés, ce qui peut indiquer que certaines instances sont déployées derrière un proxy inverse ou que les utilisateurs ont personnalisé le port.

7.2 Utilisation du Protocole

HTTP : Environ 65 506 IPs uniques ont des instances servant via le protocole HTTP.
HTTPS : Environ 43 765 IPs uniques ont des instances servant via le protocole HTTPS.

La plupart des instances sont toujours exposées via HTTP non chiffré, ce qui pourrait présenter certains risques de sécurité. (Veuillez noter : Une IP peut prendre en charge à la fois HTTP et HTTPS, donc la somme des nombres d'IPs ici peut dépasser le nombre total d'IPs uniques)

7.3 Principaux Fournisseurs d'Hébergement (Organisation AS)

L'hébergement des instances Ollama est fortement concentré parmi les fournisseurs de services cloud.

Rang	Organisation AS	Nombre d'IPs Uniques	Principal Fournisseur Associé
1	AMAZON-02	53658	AWS
2	AMAZON-AES	5539	AWS
3	Chinanet	4964	China Telecom
4	Hangzhou Alibaba Advertising Co.,Ltd.	2647	Alibaba Cloud
5	HENGTONG-IDC-LLC	2391	Fournisseur d'Hébergement
6	Shenzhen Tencent Computer Systems Company Limited	1682	Tencent Cloud
7	CHINA UNICOM China169 Backbone	1606	China Unicom
8	Hetzner Online GmbH	972	Hetzner
9	China Unicom Beijing Province Network	746	China Unicom (Pékin)
10	LEASEWEB-USA-LAX	735	Leaseweb

Ollama instance hosting is highly concentrated among cloud service providers

AWS (AMAZON-02, AMAZON-AES) détient la plus grande part, suivi par les principaux opérateurs de télécommunications et fournisseurs de services cloud chinois (comme Alibaba Cloud, Tencent Cloud). D'autres fournisseurs d'hébergement comme Hetzner et Leaseweb ont également des parts significatives.

8. Sécurité et Autres Observations

Informations sur la Version : Pour des raisons de sécurité, nous n'avons pas listé les statistiques sur les versions d'Ollama.
Risque d'Exposition HTTP : Comme mentionné précédemment, un grand nombre d'instances Ollama sont exposées via HTTP sans chiffrement TLS, ce qui peut rendre le contenu de la communication (par exemple, les interactions avec les modèles) vulnérable à l'écoute clandestine ou à la falsification. Il est conseillé aux utilisateurs de configurer un proxy inverse et d'activer HTTPS.
Accessibilité de l'API : Les données de ce rapport sont basées sur les instances Ollama dont l'interface /api/tags est publiquement accessible. Le nombre réel de déploiements peut être plus élevé, mais certaines instances peuvent être déployées dans des réseaux privés ou avoir un accès externe restreint par des pare-feu.

9. Conclusion et Bref Examen

Ce rapport, en analysant les données de 99 412 instances Ollama publiquement accessibles à l'échelle mondiale (via leur interface /api/tags), tire les principales conclusions et observations suivantes :

1. Aperçu du Déploiement Global et Distribution Géographique :

Ollama, en tant qu'outil pratique pour exécuter de grands modèles localement, a été largement déployé à l'échelle mondiale. Cette analyse a identifié 99 412 IPs uniques publiquement accessibles.
Forte Concentration Géographique : Les États-Unis et la Chine sont les deux pays/régions avec le plus grand nombre de déploiements Ollama, représentant collectivement une part significative du total des instances accessibles (États-Unis 29 195, Chine 16 464). Des pays comme le Japon, l'Allemagne, le Royaume-Uni, l'Inde et Singapour ont également des nombres de déploiement notables.
Points Chauds Urbains : Aux États-Unis, des villes comme Ashburn, Portland et Columbus sont en tête des déploiements ; en Chine, des villes technologiquement avancées telles que Pékin, Hangzhou, Shanghai et Guangzhou sont les principaux lieux de déploiement. Cela est souvent lié à la concentration d'entreprises technologiques, de centres de données et de communautés de développeurs.

2. Tendances de Déploiement des Modèles d'IA :

Tags de Modèles Populaires : Les tags généraux les plus récents comme llama3:latest, deepseek-r1:latest, mistral:latest, qwen:latest sont les plus populaires. Des versions spécifiquement optimisées comme llama3:8b-text-q4_K_S sont également favorisées pour leur bon équilibre.
Familles de Modèles Dominantes : La famille llama mène avec une marge absolue, suivie par qwen2. Le classement élevé des familles de modèles d'intégration comme nomic-bert et bert est notable, possiblement lié au comportement par défaut d'Ollama.
Préférences de Taille des Paramètres : Les modèles avec 7B-8B paramètres sont actuellement le courant dominant. Les modèles légers au niveau million de paramètres et les grands modèles supérieurs à 10B ont également leurs marchés respectifs. Une comparaison entre les États-Unis et la Chine montre que les États-Unis déploient plus de modèles de taille moyenne, tandis que la Chine est plus active dans l'exploration des petits et très grands modèles.
Choix des Niveaux de Quantification : La quantification 4 bits (en particulier Q4_K_M et Q4_0) est le choix écrasant. F16, en tant qu'option de fidélité supérieure, occupe également une position importante.
Complexité des Métadonnées : L'analyse des métadonnées des modèles (par exemple, l'interprétation du champ famille de modèles) révèle parfois des complexités entre ses enregistrements et les noms de modèles ou la compréhension courante, soulignant la diversité de la gestion des métadonnées dans l'écosystème open source.

3. Infrastructure Technique :

Environnements d'Hébergement : Un grand nombre d'instances Ollama sont hébergées sur les principaux fournisseurs de services cloud comme AWS, Alibaba Cloud, Tencent Cloud, ainsi que dans les réseaux des principaux opérateurs de télécommunications nationaux.
Ports de Service : Le port par défaut d'Ollama 11434 est le plus couramment utilisé, mais un nombre considérable d'instances sont également exposées via des ports web standard.

4. Évaluation Objective :

Popularité d'Ollama : Les données montrent clairement le taux d'adoption élevé d'Ollama parmi les développeurs et les passionnés d'IA du monde entier.
Dynamisme de l'Écosystème Open Source : La diversité des modèles populaires et l'utilisation généralisée de diverses versions de paramètres et de quantification reflètent le développement florissant de l'écosystème des modèles d'IA open source.
Équilibre dans les Préférences des Utilisateurs : Lors du choix des modèles, les utilisateurs ont tendance à rechercher un équilibre entre la capacité du modèle, l'efficacité opérationnelle et les coûts matériels.
Sécurité et Ouverture : Un grand nombre d'instances permettent un accès public à leurs listes de modèles, ce qui, bien que pratique pour la communauté, peut également présenter des risques de sécurité.

5. Perspectives Futures :

Avec l'émergence de modèles plus efficaces et plus petits et les progrès supplémentaires dans la technologie de quantification, la barrière de déploiement pour Ollama devrait continuer à diminuer.
La standardisation des métadonnées de modèles et des modèles partagés par la communauté est cruciale pour améliorer la transparence et la convivialité de l'écosystème.

En résumé, Ollama devient un pont important reliant les grands modèles linguistiques de pointe à un large éventail de développeurs, de chercheurs et même d'utilisateurs généraux. Cette analyse de données fournit des informations précieuses pour comprendre son état de déploiement mondial actuel et les préférences des utilisateurs.