Eine neue Perspektive auf das US-China KI-Rennen: Vergleich der Ollama-Bereitstellung 2025 und Einblicke in globale KI-Modelltrends

Ollama ist ein beliebtes Open-Source-Tool, das entwickelt wurde, um das lokale Ausführen, Erstellen und Teilen großer Sprachmodelle (LLMs) zu vereinfachen. Es bündelt Modellgewichte, Konfiguration und Daten in einem durch eine Modelfile definierten Paket und stellt eine API für die Interaktion mit diesen Modellen bereit. Dies ermöglicht Entwicklern und Forschern, verschiedene fortschrittliche KI-Modelle einfach auf Personal Computern oder Servern bereitzustellen und zu experimentieren.

1. Einleitung

Dieser Bericht zielt darauf ab, Bereitstellungstrends, Modellpräferenzen, geografische Verteilung und Netzwerkeigenschaften durch die Analyse von Daten von 174.590 global bereitgestellten Ollama-Instanzen aufzudecken.

Hinweis: Die Datenstatistiken in Kapitel 5 und Kapitel 7 stammen von allen 174.590 Instanzen. Die Daten in Kapitel 6 stammen von zugänglichen Instanzen. Aus Sicherheitsgründen haben wir keine Statistiken zu den Ollama-Versionen aufgeführt.

Datenstand: 24. April 2025.
Berichtsquelle: Tenthe AI https://tenthe.com
Autor: Ryan

2. Zusammenfassung

Dieser Bericht basiert auf der Analyse von Scandaten und API-Probing von öffentlich zugänglichen Ollama-Instanzen weltweit. Die wichtigsten Ergebnisse sind:

Global wurden unter den anfänglich über Fofa identifizierten ca. 174.590 Datensätzen (99.412 eindeutige IPs) 41.021 Ollama-Instanzen mit zugänglichen APIs erfolgreich geprüft, verteilt auf 24.038 eindeutige IP-Adressen (eine Zugänglichkeitsrate von ca. 24,18%).
Geografisch sind die Vereinigten Staaten und China die Länder mit der höchsten Anzahl an Ollama-Bereitstellungen. Cloud-Service-Anbieter, insbesondere AWS, Alibaba Cloud und Tencent Cloud, sind die primären Hosts für Ollama-Instanzen.
Modellbereitstellungen zeigen Vielfalt, wobei Modelle der Reihen llama3, deepseek-r1, mistral und qwen sehr beliebt sind. Darunter sind llama3:latest und deepseek-r1:latest die beiden am weitesten verbreiteten Modell-Tags.
Modelle mit 7B-8B Parametern sind die erste Wahl für Benutzer, während 4-Bit quantisierte Modelle wie Q4_K_M und Q4_0 aufgrund ihrer guten Balance zwischen Leistung und Ressourcenverbrauch weit verbreitet übernommen werden.
Der Standard-Port 11434 ist der am häufigsten verwendete, und die meisten Instanzen stellen Dienste über das HTTP-Protokoll bereit.

3. Datenquellen und Methodik

Die Daten für diesen Bericht stammen hauptsächlich aus zwei Phasen:

Erster Scan: Verwendung von Suchmaschinen für den Netzwerkraum wie Fofa, mit der Bedingung app="Ollama" && is_domain=false, um anfänglich potenziell global bereitgestellte Ollama-Instanzen zu identifizieren. In dieser Phase wurden 174.590 Datensätze gefunden, die nach der Deduplizierung 99.412 eindeutige IPs umfassten.
API-Verifizierung und Datenanreicherung: Prüfung des ip:port/api/tags API-Endpunkts für die anfänglich gescannten IP-Adressen, um die Zugänglichkeit der Ollama-Dienste zu bestätigen und Informationen über die spezifisch bereitgestellten KI-Modelle zu erhalten. In dieser Phase wurden 41.021 erfolgreich reagierende Ollama-Instanzen bestätigt (von 24.038 eindeutigen IPs, wobei die Daten in der Tabelle ollama gespeichert sind).
Die endgültigen Daten sind in der Tabelle ollama gespeichert.

Die Analyse in diesem Bericht basiert hauptsächlich auf Daten aus der Tabelle ollama, die Datensätze von erfolgreich geprüften APIs und deren detaillierte Informationen enthält, einschließlich IP, Port, geografischer Standort und der JSON-Antwort (mit der Modellliste) usw.

4. Gesamtstatistik der Bereitstellung

Anzahl der anfänglichen Datensätze aus dem Fofa-Scan: 174.590
Anzahl der eindeutigen IPs aus dem anfänglichen Fofa-Scan: 99.412
Anzahl der Ollama-Instanzen, die erfolgreich auf /api/tags zugreifen können: 41.021 (aus Datensätzen, bei denen status = 'success' in der Tabelle ollama ist)
Anzahl der entsprechenden eindeutigen IP-Adressen: 24.038 (aus Datensätzen, bei denen status = 'success' in der Tabelle ollama ist)
Verhältnis zugänglicher IPs zu anfänglich identifizierten IPs: (24038 / 99412) * 100% ≈ 24,18%

Dies deutet darauf hin, dass unter allen über Fofa identifizierten Ollama-Instanzen etwa ein Viertel ihre /api/tags-Schnittstelle öffentlich zugänglich hat, was es uns ermöglicht, Informationen über ihre bereitgestellten Modelle abzurufen.

5. Analyse der geografischen Verteilung

5.1 Top 20 Bereitstellungsländer/-regionen

Die folgende Tabelle zeigt die Top 20 Länder/Regionen, sortiert nach der Anzahl der eindeutigen IPs mit Ollama-Instanzen.

Rang	Land/Region	Anzahl eindeutiger IPs
1	Vereinigte Staaten	29195
2	China	16464
3	Japan	5849
4	Deutschland	5438
5	Vereinigtes Königreich	4014
6	Indien	3939
7	Singapur	3914
8	Südkorea	3773
9	Irland	3636
10	Frankreich	3599
11	Australien	3558
12	Brasilien	2909
13	Kanada	2763
14	Südafrika	2742
15	Schweden	2113
16	Sonderverwaltungszone Hongkong, China	1277
17	Israel	675
18	Taiwan, China	513
19	Russland	475
20	Finnland	308

Ollama Top 20 Deployment Countries/Regions

5.2 Top 20 globale Stadtbereitstellungen

Die folgende Tabelle zeigt die Top 20 Städte weltweit, sortiert nach der Anzahl der eindeutigen IPs mit Ollama-Instanzen.

Rang	Stadt	Land/Region	Anzahl eindeutiger IPs
1	Ashburn	Vereinigte Staaten	5808
2	Portland	Vereinigte Staaten	5130
3	Singapur	Singapur	3914
4	Frankfurt am Main	Deutschland	3908
5	Peking	China	3906
6	London	Vereinigtes Königreich	3685
7	Columbus	Vereinigte Staaten	3672
8	Mumbai	Indien	3637
9	Dublin	Irland	3631
10	Tokio	Japan	3620
11	Sydney	Australien	3487
12	Paris	Frankreich	3175
13	San Jose	Vereinigte Staaten	2815
14	Sao Paulo	Brasilien	2753
15	Kapstadt	Südafrika	2692
16	Montreal	Kanada	2535
17	Seattle	Vereinigte Staaten	2534
18	Hangzhou	China	2447
19	Seoul	Südkorea	2327
20	Osaka	Japan	2184

5.3 Top 10 US-Stadtverteilung

Rang	Stadt	Anzahl eindeutiger IPs
1	Ashburn	5808
2	Portland	5130
3	Columbus	3672
4	San Jose	2815
5	Seattle	2534
6	Westlake Village	1714
7	Boardman	855
8	Florence	776
9	San Francisco	753
10	Boulder	642

5.4 Top 10 Stadtverteilung auf dem chinesischen Festland

Bereitstellungen in Hongkong und Taiwan sind in der Tabelle der Top 10 Städte nicht aufgeführt, da sie bereits in den Länder-/Regionsstatistiken enthalten sind.

Rang	Stadt	Land `country_name`)	Anzahl eindeutiger IPs
1	Peking	China	3906
2	Hangzhou	China	2447
3	Shanghai	China	1335
4	Guangzhou	China	1296
5	Shenzhen	China	768
6	Chengdu	China	469
7	Nanjing	China	329
8	Chongqing	China	259
9	Suzhou	China	257
10	Wuhan	China	249

5.5 Vergleich der Top 10 Stadtbereitstellungen in den USA und China

Um die Ollama-Bereitstellungen auf Stadtebene in den USA und China intuitiver zu vergleichen, stellt die folgende Tabelle die Anzahl der eindeutigen IP-Bereitstellungen für die Top 10 Städte in beiden Ländern gegenüber:

Rang	US-Stadt (Top 10)	Anzahl eindeutiger US-IPs	Chinesische Stadt (Top 10)	Anzahl eindeutiger chinesischer IPs
1	Ashburn	5808	Peking	3906
2	Portland	5130	Hangzhou	2447
3	Columbus	3672	Shanghai	1335
4	San Jose	2815	Guangzhou	1296
5	Seattle	2534	Shenzhen	768
6	Westlake Village	1714	Chengdu	469
7	Boardman	855	Nanjing	329
8	Florence	776	Chongqing	259
9	San Francisco	753	Suzhou	257
10	Boulder	642	Wuhan	249

Ollama US-China Top 10 City Deployment Comparison

Kurzer Kommentar:

Führendes Stadtvolumen: Die Top 3 US-Städte (Ashburn, Portland, Columbus) haben jeweils über 3.000 eindeutige IPs mit Ollama-Bereitstellungen. Chinas Top-Stadt (Peking) hat über 3.000 Bereitstellungen, und die zweite Stadt (Hangzhou) hat über 2.000.
Technologie- und Wirtschaftszentren: Viele der aufgeführten Städte in beiden Ländern sind bekannte Technologie-Innovationszentren oder wichtige Wirtschaftsregionen.
Rechenzentrumsregionen: Die Einbeziehung von US-Städten wie Ashburn spiegelt auch wider, dass Ollama-Instanzen wahrscheinlich größtenteils auf Cloud-Servern und in Rechenzentren bereitgestellt werden.
Unterschiede in der Verteilung: Insgesamt ist die Gesamtzahl der IPs in den Top 10 US-Städten signifikant höher als in den Top 10 Städten Chinas. Beide Länder zeigen jedoch ein Muster, bei dem einige Kernstädte die überwiegende Mehrheit der Ollama-Bereitstellungen ausmachen.

Dieser Vergleich auf Stadtebene zeigt weiter, dass die Förderung und Anwendung von Ollama als Entwicklertool eng mit regionalen technologischen Ökosystemen und der industriellen Entwicklung verbunden ist.

6. Modellanalyse

6.1 Kurzer Überblick über KI-Modelle, Parameter und Quantisierung

Ollama unterstützt eine Vielzahl von Open-Source-Großsprachmodellen. Diese Modelle unterscheiden sich typischerweise durch die folgenden Merkmale:

6.1.1 Gängige Modellfamilien

Die aktuelle Open-Source-Community hat einen Anstieg exzellenter LLM-Familien erlebt, jede mit ihren eigenen Eigenschaften:

Llama-Serie (Meta AI): Wie Llama 2, Llama 3, Code Llama. Bekannt für seine leistungsstarken allgemeinen Fähigkeiten und umfangreiche Community-Unterstützung, was zu zahlreichen feinabgestimmten Versionen führt. Modelle wie llama3.1, hermes3, die in unseren Daten zu sehen sind, basieren oft auf der Llama-Architektur.
Mistral-Serie (Mistral AI): Wie Mistral 7B, Mixtral 8x7B. Gewinnt an Aufmerksamkeit für Effizienz und hohe Leistung, insbesondere seine MoE (Mixture of Experts)-Modelle.
Gemma-Serie (Google): Wie Gemma 2B, Gemma 7B. Von Google veröffentlichte Modelle mit offenem Gewicht, deren Technologie von ihren leistungsstärkeren Gemini-Modellen abgeleitet ist.
Phi-Serie (Microsoft): Wie Phi-2, Phi-3. Konzentriert sich auf kleine, aber leistungsfähige Modelle und betont "SLMs (Small Language Models)".
DeepSeek-Serie (DeepSeek AI): Wie DeepSeek Coder, DeepSeek LLM. Chinesische KI-Modelle, die sich in Coding und allgemeinen Aufgaben auszeichnen.
Qwen-Serie (Alibaba Tongyi Qianwen): Wie Qwen1.5. Eine Reihe von Modellen, die von Alibaba DAMO Academy gestartet wurden und mehrere Sprachen und Aufgaben unterstützen.
Es gibt viele andere exzellente Modelle, wie Yi (01.AI), Command R (Cohere), etc.

Ollama ermöglicht es Benutzern durch seinen Modelfile-Mechanismus, diese Basismodelle oder ihre feinabgestimmten Versionen einfach zu verwenden. Modellnamen folgen oft dem Format Familie:Größe-Variante-Quantisierung, zum Beispiel llama3:8b-instruct-q4_K_M.

6.1.2 Modellparameter (Parametergröße)

Die Anzahl der Modellparameter (üblicherweise in B - Milliarden; oder M - Millionen) ist ein wichtiger Indikator für die Größe und potenzielle Fähigkeit eines Modells. Gängige Parametergrößen sind:

Kleine Modelle: < 7B (z.B. 1.5B, 2B, 3B). Laufen normalerweise schnell mit geringem Ressourcenverbrauch und sind geeignet für spezifische Aufgaben oder Umgebungen mit begrenzten Ressourcen.
Mittelgroße Modelle: 7B, 8B, 13B. Erreichen eine gute Balance zwischen Fähigkeit und Ressourcenverbrauch, derzeit eine der beliebtesten Größen in der Community.
Große Modelle: 30B, 33B, 40B, 70B+. Im Allgemeinen leistungsfähiger, benötigen aber auch mehr Rechenressourcen (RAM, VRAM) und längere Inferenzzeiten.

Das Feld parameter_size in unseren Daten (z.B. "8.0B", "7B", "134.52M") gibt dies an.

6.1.3 Quantisierungsversionen (Quantisierungsgrad)

Quantisierung ist eine Technik zur Reduzierung der Modellgröße und Beschleunigung der Inferenz durch Senkung der numerischen Präzision der Modellgewichte (z.B. von 16-Bit-Gleitkomma FP16 auf 4-Bit-Ganzzahl INT4).

Gängige Quantisierungsgrade: Ollama und das GGUF-Format (verwendet von Llama.cpp) unterstützen verschiedene Quantisierungsstrategien, wie Q2_K, Q3_K_S, Q3_K_M, Q3_K_L, Q4_0, Q4_K_M, Q5_K_M, Q6_K, Q8_0, etc.
- Die Zahl (z.B. 2, 3, 4, 5, 6, 8) gibt grob die Anzahl der Bits an.
- Quantisierung der K-Serie (z.B. Q4_K_M) sind verbesserte Quantisierungsmethoden, die in llama.cpp eingeführt wurden und im Allgemeinen eine bessere Leistung bei gleicher Bitzahl erzielen.
- _S, _M, _L bezeichnen in der Regel verschiedene Varianten von K-Quants, die verschiedene Teile des Modells beeinflussen.
- F16 (FP16) repräsentiert 16-Bit-Gleitkomma, oft als unquantisiert oder eine Basis-Quantisierungsversion betrachtet. F32 (FP32) ist volle Präzision.
Kompromiss: Höhere Quantisierung (niedrigere Bitzahl) führt zu kleineren, schnelleren Modellen, geht aber in der Regel mit einem gewissen Leistungsverlust einher (Modellleistung verschlechtert sich). Benutzer müssen basierend auf ihrer Hardware und ihren Anforderungen an die Modellqualität wählen.

Das Feld quantization_level in unseren Daten (z.B. "Q4_K_M", "F16") gibt dies an.

6.2 Die beliebtesten Modellnamen

Die folgende Tabelle zeigt die Top 10 Modell-Tags, sortiert nach der Anzahl der eindeutigen IP-Bereitstellungen, einschließlich ihrer Familien-, Parametergrößen- und Quantisierungsgradinformationen.

Rang	Modellname (model_name)	Eindeutige IP-Bereitstellungen	Gesamtzahl der Bereitstellungsinstanzen
1	`llama3:latest`	12659	24628
2	`deepseek-r1:latest`	12572	24578
3	`mistral:latest`	11163	22638
4	`qwen:latest`	9868	21007
5	`llama3:8b-text-q4_K_S`	9845	20980
6	`smollm2:135m`	4058	5016
7	`llama2:latest`	3124	3928
8	`hermes3:8b`	2856	3372
9	`llama3.1:8b`	2714	3321
10	`qwen2.5:1.5b`	2668	3391

(Hinweis: Eindeutige IP-Bereitstellungen bezieht sich auf die Anzahl der eindeutigen IP-Adressen, die mindestens eine Instanz dieses Modell-Tags bereitgestellt haben. Gesamtzahl der Bereitstellungsinstanzen bezieht sich auf die Gesamtzahl, wie oft dieser Modell-Tag in der models-Liste über alle IPs hinweg erscheint. Eine IP kann auf dieselbe Modell-Tag mehrmals über verschiedene Mittel oder Datensätze verweisen, oder eine IP kann mehrere Instanzen verschiedener Tags ausführen, die zum selben Basismodell gehören.)

Erste Beobachtungen (Beliebte Modellnamen):

Modelle mit dem Tag :latest sind sehr verbreitet, wie llama3:latest, deepseek-r1:latest, mistral:latest, qwen:latest. Dies deutet darauf hin, dass viele Benutzer es vorziehen, die neueste Version der Modelle direkt zu ziehen.
Modelle der Llama-Serie (z.B. llama3:latest, llama3:8b-text-q4_K_S, llama2:latest, llama3.1:8b) belegen mehrere Plätze und zeigen ihre starke Popularität.
Chinesische KI-Modelle wie deepseek-r1:latest (DeepSeek-Serie) und qwen:latest (Tongyi Qianwen-Serie) schneiden ebenfalls beeindruckend ab und rangieren hoch.
Spezifische quantisierte Versionen wie llama3:8b-text-q4_K_S haben es ebenfalls in die Top Ten geschafft, was auf die Benutzerpräferenz für spezifische Leistungs-/Ressourcenverbrauchs-Balancen hinweist.
Kleine Modelle wie smollm2:135m und qwen2.5:1.5b haben ebenfalls eine beträchtliche Anzahl von Bereitstellungen und decken den Bedarf an schlanken Modellen.

6.3 Top-Modellfamilien

Modellfamilie details.family-Feld) repräsentiert die Basisarchitektur oder primäre technologische Linie des Modells. Unten sind die Modellfamilien mit einer höheren Anzahl von Bereitstellungen basierend auf unserer Datenanalyse aufgeführt:

Rang	Modellfamilie (family)	Eindeutige IP-Bereitstellungen (Geschätzt)	Gesamtzahl der Bereitstellungsinstanzen (Geschätzt)
1	`llama`	~20250	~103480
2	`qwen2`	~17881	~61452
3	`nomic-bert`	~1479	~1714
4	`gemma3`	~1363	~2493
5	`bert`	~1228	~2217
6	`mllama`	~943	~1455
7	`gemma`	~596	~750
8	`deepseek2`	~484	~761
9	`phi3`	~368	~732
10	`gemma2`	~244	~680

(Hinweis: Die spezifischen Werte hier sind Schätzungen, die auf der Zusammenfassung der zuvor abgefragten Top 50 Modell-Detail-Liste basieren und können leicht von präzisen globalen Statistiken abweichen, aber der Trend ist repräsentativ.)

Erste Beobachtungen (Beliebte Modellfamilien):

Die llama-Familie hat eine absolut dominante Position inne, was mit der Tatsache übereinstimmt, dass Modelle der Llama-Serie die Grundlage für viele moderne Open-Source-LLMs und deren eigene weite Verbreitung sind. Ihr riesiges Ökosystem und zahlreiche feinabgestimmte Versionen machen sie zur beliebtesten Wahl.
qwen2 (Tongyi Qianwen Qwen2-Serie) zeigt als zweitgrößte Familie seine starke Wettbewerbsfähigkeit in China und sogar global.
Das Erscheinen von nomic-bert und bert ist bemerkenswert. Obwohl sie typischerweise nicht als "große Sprachmodelle" (konversationell) betrachtet werden, sondern eher als Text-Embedding- oder andere Basismodelle für die Verarbeitung natürlicher Sprache, deutet ihr hohes Bereitstellungsvolumen darauf hin, dass Ollama auch für solche Aufgaben weit verbreitet verwendet wird. Ollama lädt automatisch ein Standard-Embedding-Modell herunter (z.B. nomic-embed-text), wenn bestimmte Operationen (wie die Generierung von Embedding-Vektoren) durchgeführt werden, was wahrscheinlich der Hauptgrund dafür ist, dass diese Familien hoch rangieren.
Googles gemma-Serie (einschließlich gemma3, gemma, gemma2) zeigt ebenfalls ordentliche Akzeptanzraten.
Andere bekannte Modellfamilien wie deepseek2 und phi3 haben es ebenfalls in die Top Ten geschafft.
mllama könnte eine Sammlung verschiedener Llama-basierter Hybrid-, modifizierter oder von der Community benannter Modelle repräsentieren.

6.4 Top-Statistik der ursprünglichen Parametergröße

Die Modellparametergröße details.parameter_size-Feld) ist ein wichtiger Indikator für die Modellgröße. Aufgrund der unterschiedlichen Darstellung von Parametergrößen in den Rohdaten (z.B. "8.0B", "7B", "134.52M") zählen wir diese ursprünglichen Zeichenketten direkt. Unten sind die Parametergrößenrepräsentationen mit einer höheren Anzahl von Bereitstellungen aufgeführt:

Rang	Parametergröße (Ursprüngliche Zeichenkette)	Eindeutige IP-Bereitstellungen (Geschätzt)	Gesamtzahl der Bereitstellungsinstanzen (Geschätzt)
1	`8.0B`	~14480	~52577
2	`7.6B`	~14358	~28105
3	`7.2B`	~11233	~22907
4	`4B`	~9895	~21058
5	`7B`	~4943	~11738
6	`134.52M`	~4062	~5266
7	`1.5B`	~2759	~3596
8	`13B`	~2477	~3311
9	`1.8B`	~2034	~2476
10	`3.2B`	~1553	~2244
11	`137M`	~1477	~1708
12	`12.2B`	~1421	~2000
13	`32.8B`	~1254	~2840
14	`14.8B`	~1123	~2091
15	`4.3B`	~943	~1194

Ollama Top Original Parameter Size Statistics

(Hinweis: Die Werte sind Schätzungen, die auf einer Zusammenfassung der Parameterinformationen aus der zuvor abgefragten Top 50 Modell-Detail-Liste basieren.)

Erste Beobachtungen (Beliebte Parametergrößen):

Modelle im Bereich von 7B bis 8B sind der absolute Mainstream: "8.0B", "7.6B", "7.2B", "7B" nehmen die überwiegende Mehrheit der Bereitstellungen ein. Dies entspricht typischerweise sehr beliebten Modellen in der Community, wie Llama 2/3 7B/8B-Serien, Mistral 7B und deren verschiedenen feinabgestimmten Versionen. Sie erzielen eine gute Balance zwischen Leistung und Ressourcenverbrauch.
Modelle im 4B-Bereich haben ebenfalls eine wichtige Position inne: Die hohe Bereitstellung von "4B" ist bemerkenswert.
Schlanke Modelle auf Million-Parameter-Ebene (M) sind weit verbreitet: Der hohe Rang von "134.52M" und "137M" hängt wahrscheinlich mit der Popularität von Embedding-Modellen (wie nomic-embed-text) oder sehr kleinen spezialisierten Modellen (wie der smollm-Serie) zusammen. Diese Modelle sind klein, schnell und geeignet für ressourcenbeschränkte oder latenzempfindliche Szenarien.
Stabile Nachfrage nach kleinen Modellen im Bereich von 1B-4B: Modelle mit Parametergrößen wie "1.5B", "1.8B", "3.2B", "4.3B" werden ebenfalls von einem Teil der Benutzer bevorzugt.
Große Modelle über 10B: Wie "13B", "12.2B", "32.8B", "14.8B" haben zwar nicht so viele eindeutige IP-Bereitstellungen wie der 7-8B-Bereich, aber dennoch ein beträchtliches Bereitstellungsvolumen, was auf eine Nachfrage der Community nach leistungsfähigeren Modellen hinweist, trotz ihrer höheren Hardware-Anforderungen.

6.5 Top-Statistik der Quantisierungsgrade

Der Modell-Quantisierungsgrad details.quantization_level-Feld) spiegelt die Gewichtspräzision wider, die das Modell zur Reduzierung der Größe und Beschleunigung der Inferenz verwendet. Unten sind die Quantisierungsgrade mit einer höheren Anzahl von Bereitstellungen aufgeführt:

Rang	Quantisierungsgrad (Ursprüngliche Zeichenkette)	Eindeutige IP-Bereitstellungen (Geschätzt)	Gesamtzahl der Bereitstellungsinstanzen (Geschätzt)
1	`Q4_K_M`	~20966	~53688
2	`Q4_0`	~18385	~88653
3	`Q4_K_S`	~9860	~21028
4	`F16`	~5793	~9837
5	`Q8_0`	~596	~1574
6	`unknown`	~266	~1318
7	`Q5_K_M`	~97	~283
8	`F32`	~85	~100
9	`Q6_K`	~60	~178
10	`Q2_K`	~54	~140

Ollama Top Quantization Level Statistics

(Hinweis: Die Werte sind Schätzungen, die auf einer Zusammenfassung der Quantisierungsinformationen aus der zuvor abgefragten Top 50 Modell-Detail-Liste basieren.)

Erste Beobachtungen (Beliebte Quantisierungsgrade):

4-Bit-Quantisierung ist die dominante Lösung: Q4_K_M, Q4_0 und Q4_K_S, diese drei 4-Bit-Quantisierungsgrade, führen die Charts absolut an. Dies zeigt deutlich, dass die Community die 4-Bit-Quantisierung als bevorzugte Lösung ansieht, um die beste Balance zwischen Modellleistung, Inferenzgeschwindigkeit und Ressourcenbelegung (insbesondere VRAM) zu erreichen.
F16 (16-Bit-Gleitkomma) hat immer noch einen bedeutenden Platz: Als unquantisierte (oder nur grundlegend quantisierte) Version zeigt die hohe Bereitstellung von F16, dass eine beträchtliche Anzahl von Benutzern diese wählt, um die höchste Modelltreue zu verfolgen oder weil sie über ausreichende Hardware-Ressourcen verfügen.
Q8_0 (8-Bit-Quantisierung) als Ergänzung: Bietet eine Option zwischen 4-Bit und F16.
Erscheinen von unknown-Werten: Zeigt an, dass Quantisierungsgradinformationen in einigen Modellmetadaten fehlen oder nicht standardisiert sind.

6.6 Verteilung der KI-Rechenleistung (nach Modellparametergröße): China vs. USA

Um ein tieferes Verständnis dafür zu gewinnen, wie Modelle unterschiedlicher Größenordnungen in wichtigen Ländern bereitgestellt werden, haben wir die Parametergrößen der auf Ollama-Instanzen in den Vereinigten Staaten und China bereitgestellten Modelle kategorisiert und gezählt. Die Parametergröße wird oft als wichtiger Indikator für die Modellkomplexität und den potenziellen Bedarf an KI-Rechenleistung betrachtet.

Klassifizierungsstandard für Parameterskalen:

Klein: < 1 Milliarde Parameter (< 1B)
Mittel: 1 Milliarde bis < 10 Milliarden Parameter (1B bis < 10B)
Groß: 10 Milliarden bis < 50 Milliarden Parameter (10B bis < 50B)
Extra Groß: >= 50 Milliarden Parameter (>= 50B)

Die folgende Tabelle zeigt die Anzahl der eindeutigen IPs, die Modelle unterschiedlicher Parameterskalen in den USA und China bereitstellen:

Land	Kategorie der Parameterskala	Anzahl eindeutiger IPs
China	Klein (<1B)	3313
China	Mittel (1B bis <10B)	4481
China	Groß (10B bis <50B)	1548
China	Extra Groß (>=50B)	280
Vereinigte Staaten	Klein (<1B)	1368
Vereinigte Staaten	Mittel (1B bis <10B)	6495
Vereinigte Staaten	Groß (10B bis <50B)	1301
Vereinigte Staaten	Extra Groß (>=50B)	58

The table below shows the number of unique IPs deploying models of different parameter scales in the US and China

Dateneinblicke und Analyse:

Mittelgroße Modelle sind Mainstream, aber mit unterschiedlichen Schwerpunkten:
- Vereinigte Staaten: Die Bereitstellung mittelgroßer Modelle (1B-10B) ist in den USA absolut dominant (6495 eindeutige IPs).
- China: Mittelgroße Modelle (4481 eindeutige IPs) sind auch in China der am häufigsten bereitgestellte Typ, aber die Bereitstellung kleiner Modelle (<1B) in China (3313 eindeutige IPs) ist sehr beträchtlich.
Signifikanter Unterschied bei kleinen Modellen: Chinas großflächige Bereitstellung kleiner Modelle könnte eine Präferenz für Edge Computing, mobile KI-Anwendungen und ähnliche Szenarien widerspiegeln.
Bereitstellung großer und extra großer Modelle: China zeigt eine höhere Aktivität bei der Erkundung großer und extra großer Modelle (wenn auch von einer kleineren Basis aus).
Rückschlüsse auf die Gesamtinvestition in Rechenleistung: Die US-Basis bei mittelgroßen Modellen zeigt die Verbreitung praktischer KI-Anwendungen. China hat einen Vorteil bei kleinen Modellen und erkundet aktiv große Modelle.
Auswirkungen auf globale Trends: Mittelgroße Modelle sind wahrscheinlich weltweit beliebt. Verschiedene Regionen können unterschiedliche Strategien zur Modellübernahme basierend auf ihren Ökosystemen und Ressourcenbedingungen haben.

Durch die Segmentierung der Modellparameterskalen in China und den USA können wir die unterschiedlichen Schwerpunkte und Entwicklungspotenziale von Ollama-Anwendungen in den beiden Ländern erkennen.

7. Netzwerkeinblicke

7.1 Port-Nutzung

11434 (Standard-Port): Die überwiegende Mehrheit (30.722 eindeutige IPs) der Ollama-Instanzen läuft auf dem Standard-Port 11434.
Andere gängige Ports: Ports wie 80 (1.619 eindeutige IPs), 8080 (1.571 eindeutige IPs), 443 (1.339 eindeutige IPs) usw. werden ebenfalls verwendet, was darauf hindeuten kann, dass einige Instanzen hinter einem Reverse Proxy bereitgestellt werden oder Benutzer den Port angepasst haben.

7.2 Protokollnutzung

HTTP: Ca. 65.506 eindeutige IPs haben Instanzen, die über das HTTP-Protokoll Dienste anbieten.
HTTPS: Ca. 43.765 eindeutige IPs haben Instanzen, die über das HTTPS-Protokoll Dienste anbieten.

Die meisten Instanzen sind immer noch über unverschlüsseltes HTTP verfügbar, was bestimmte Sicherheitsrisiken bergen kann. (Bitte beachten Sie: Eine IP kann sowohl HTTP als auch HTTPS unterstützen, daher kann die Summe der IP-Anzahlen hier die Gesamtzahl der eindeutigen IPs überschreiten)

7.3 Haupt-Hosting-Anbieter (AS-Organisation)

Das Hosting von Ollama-Instanzen ist stark bei Cloud-Service-Anbietern konzentriert.

Rang	AS-Organisation	Anzahl eindeutiger IPs	Hauptzugehöriger Anbieter
1	AMAZON-02	53658	AWS
2	AMAZON-AES	5539	AWS
3	Chinanet	4964	China Telecom
4	Hangzhou Alibaba Advertising Co.,Ltd.	2647	Alibaba Cloud
5	HENGTONG-IDC-LLC	2391	Hosting Provider
6	Shenzhen Tencent Computer Systems Company Limited	1682	Tencent Cloud
7	CHINA UNICOM China169 Backbone	1606	China Unicom
8	Hetzner Online GmbH	972	Hetzner
9	China Unicom Beijing Province Network	746	China Unicom (Peking)
10	LEASEWEB-USA-LAX	735	Leaseweb

Ollama instance hosting is highly concentrated among cloud service providers

AWS (AMAZON-02, AMAZON-AES) hält den größten Anteil, gefolgt von großen chinesischen Telekommunikationsbetreibern und Cloud-Service-Anbietern (wie Alibaba Cloud, Tencent Cloud). Andere Hosting-Anbieter wie Hetzner und Leaseweb haben ebenfalls signifikante Anteile.

8. Sicherheit und weitere Beobachtungen

Versionsinformationen: Aus Sicherheitsgründen haben wir keine Statistiken zu den Ollama-Versionen aufgeführt.
HTTP-Expositionsrisiko: Wie bereits erwähnt, sind eine große Anzahl von Ollama-Instanzen über HTTP ohne TLS-Verschlüsselung verfügbar, was Kommunikationsinhalte (z.B. Interaktionen mit Modellen) anfällig für Abhören oder Manipulation machen kann. Benutzern wird empfohlen, einen Reverse Proxy zu konfigurieren und HTTPS zu aktivieren.
API-Zugänglichkeit: Die Daten in diesem Bericht basieren auf Ollama-Instanzen, deren /api/tags-Schnittstelle öffentlich zugänglich ist. Die tatsächliche Anzahl der Bereitstellungen kann höher sein, aber einige Instanzen sind möglicherweise in privaten Netzwerken bereitgestellt oder haben externen Zugriff durch Firewalls eingeschränkt.

9. Fazit und kurzer Überblick

Dieser Bericht zieht durch die Analyse von Daten von 99.412 global öffentlich zugänglichen Ollama-Instanzen (über ihre /api/tags-Schnittstelle) die folgenden Hauptschlussfolgerungen und Beobachtungen:

1. Globaler Bereitstellungsüberblick und geografische Verteilung:

Ollama hat sich als praktisches Tool für das lokale Ausführen großer Modelle weltweit weit verbreitet. Diese Analyse identifizierte 99.412 öffentlich zugängliche eindeutige IPs.
Hohe geografische Konzentration: Die Vereinigten Staaten und China sind die beiden Länder/Regionen mit den meisten konzentrierten Ollama-Bereitstellungen und machen zusammen einen bedeutenden Teil der gesamten zugänglichen Instanzen aus (USA 29.195, China 16.464). Länder wie Japan, Deutschland, das Vereinigte Königreich, Indien und Singapur haben ebenfalls bemerkenswerte Bereitstellungszahlen.
Stadt-Hotspots: In den USA führen Städte wie Ashburn, Portland und Columbus bei den Bereitstellungen; in China sind technologisch fortschrittliche Städte wie Peking, Hangzhou, Shanghai und Guangzhou die Hauptbereitstellungsorte. Dies hängt oft mit der Konzentration von Technologieunternehmen, Rechenzentren und Entwicklergemeinschaften zusammen.

2. Trends bei der Bereitstellung von KI-Modellen:

Beliebte Modell-Tags: Allgemeine neueste Tags wie llama3:latest, deepseek-r1:latest, mistral:latest, qwen:latest sind am beliebtesten. Speziell optimierte Versionen wie llama3:8b-text-q4_K_S werden ebenfalls wegen ihrer guten Balance bevorzugt.
Dominante Modellfamilien: Die llama-Familie führt mit absolutem Abstand, gefolgt von qwen2. Der hohe Rang von Embedding-Modellfamilien wie nomic-bert und bert ist bemerkenswert, möglicherweise im Zusammenhang mit dem Standardverhalten von Ollama.
Präferenzen bei der Parametergröße: Modelle mit 7B-8B Parametern sind derzeit der Mainstream. Schlanke Modelle auf Million-Parameter-Ebene und große Modelle über 10B haben ebenfalls ihre jeweiligen Märkte. Ein US-China-Vergleich zeigt, dass die USA mehr mittelgroße Modelle bereitstellen, während China aktiver bei der Erkundung kleiner und extra großer Modelle ist.
Wahl der Quantisierungsgrade: 4-Bit-Quantisierung (insbesondere Q4_K_M und Q4_0) ist die überwältigende Wahl. F16 hat als Option mit höherer Wiedergabetreue ebenfalls eine wichtige Position inne.
Metadaten-Komplexität: Die Analyse von Modellmetadaten (z.B. die Interpretation des Modellfamilienfeldes) zeigt manchmal Komplexitäten zwischen seinen Datensätzen und Modellnamen oder dem allgemeinen Verständnis auf, was die Vielfalt des Metadatenmanagements im Open-Source-Ökosystem hervorhebt.

3. Technische Infrastruktur:

Hosting-Umgebungen: Eine große Anzahl von Ollama-Instanzen wird bei großen Cloud-Service-Anbietern wie AWS, Alibaba Cloud, Tencent Cloud sowie in den Netzwerken großer nationaler Telekommunikationsbetreiber gehostet.
Dienst-Ports: Ollamas Standard-Port 11434 wird am häufigsten verwendet, aber eine beträchtliche Anzahl von Instanzen ist auch über Standard-Web-Ports verfügbar.

4. Objektive Bewertung:

Popularität von Ollama: Die Daten zeigen deutlich die hohe Akzeptanzrate von Ollama unter Entwicklern und KI-Enthusiasten weltweit.
Lebendigkeit des Open-Source-Ökosystems: Die Vielfalt beliebter Modelle und die weite Verbreitung verschiedener Parameter- und Quantisierungsversionen spiegeln die boomende Entwicklung des Open-Source-KI-Modell-Ökosystems wider.
Balance bei den Benutzerpräferenzen: Bei der Wahl der Modelle neigen Benutzer dazu, eine Balance zwischen Modellfähigkeit, Betriebseffizienz und Hardwarekosten zu suchen.
Sicherheit und Offenheit: Eine große Anzahl von Instanzen ermöglicht öffentlichen Zugriff auf ihre Modelllisten, was, obwohl praktisch für die Community, auch Sicherheitsrisiken bergen kann.

5. Zukunftsaussichten:

Mit dem Aufkommen effizienterer, kleinerer Modelle und weiteren Fortschritten in der Quantisierungstechnologie wird erwartet, dass die Bereitstellungshürde für Ollama weiter sinkt.
Die Standardisierung von Modellmetadaten und von der Community geteilten Modellen ist entscheidend für die Verbesserung der Transparenz und Benutzerfreundlichkeit des Ökosystems.

Zusammenfassend lässt sich sagen, dass Ollama eine wichtige Brücke wird, die modernste große Sprachmodelle mit einem breiten Spektrum von Entwicklern, Forschern und sogar allgemeinen Benutzern verbindet. Diese Datenanalyse liefert wertvolle Einblicke zum Verständnis ihres aktuellen globalen Bereitstellungsstatus und der Benutzerpräferenzen.