Tenthe ai directory logo
Eine neue Perspektive auf das US-China KI-Rennen: Vergleich der Ollama-Bereitstellung 2025 und Einblicke in globale KI-Modelltrends

Eine neue Perspektive auf das US-China KI-Rennen: Vergleich der Ollama-Bereitstellung 2025 und Einblicke in globale KI-Modelltrends

Ryan@ryan
0 Aufrufe0 Kommentare

Ollama ist ein beliebtes Open-Source-Tool, das entwickelt wurde, um das lokale Ausführen, Erstellen und Teilen großer Sprachmodelle (LLMs) zu vereinfachen. Es bündelt Modellgewichte, Konfiguration und Daten in einem durch eine Modelfile definierten Paket und stellt eine API für die Interaktion mit diesen Modellen bereit. Dies ermöglicht Entwicklern und Forschern, verschiedene fortschrittliche KI-Modelle einfach auf Personal Computern oder Servern bereitzustellen und zu experimentieren.

1. Einleitung

Ollama ist ein beliebtes Open-Source-Tool, das entwickelt wurde, um das lokale Ausführen, Erstellen und Teilen großer Sprachmodelle (LLMs) zu vereinfachen. Es bündelt Modellgewichte, Konfiguration und Daten in einem durch eine Modelfile definierten Paket und stellt eine API für die Interaktion mit diesen Modellen bereit. Dies ermöglicht Entwicklern und Forschern, verschiedene fortschrittliche KI-Modelle einfach auf Personal Computern oder Servern bereitzustellen und zu experimentieren.

Dieser Bericht zielt darauf ab, Bereitstellungstrends, Modellpräferenzen, geografische Verteilung und Netzwerkeigenschaften durch die Analyse von Daten von 174.590 global bereitgestellten Ollama-Instanzen aufzudecken.

Hinweis: Die Datenstatistiken in Kapitel 5 und Kapitel 7 stammen von allen 174.590 Instanzen. Die Daten in Kapitel 6 stammen von zugänglichen Instanzen. Aus Sicherheitsgründen haben wir keine Statistiken zu den Ollama-Versionen aufgeführt.

  • Datenstand: 24. April 2025.

  • Berichtsquelle: Tenthe AI https://tenthe.com

  • Autor: Ryan

2. Zusammenfassung

Dieser Bericht basiert auf der Analyse von Scandaten und API-Probing von öffentlich zugänglichen Ollama-Instanzen weltweit. Die wichtigsten Ergebnisse sind:

  • Global wurden unter den anfänglich über Fofa identifizierten ca. 174.590 Datensätzen (99.412 eindeutige IPs) 41.021 Ollama-Instanzen mit zugänglichen APIs erfolgreich geprüft, verteilt auf 24.038 eindeutige IP-Adressen (eine Zugänglichkeitsrate von ca. 24,18%).

  • Geografisch sind die Vereinigten Staaten und China die Länder mit der höchsten Anzahl an Ollama-Bereitstellungen. Cloud-Service-Anbieter, insbesondere AWS, Alibaba Cloud und Tencent Cloud, sind die primären Hosts für Ollama-Instanzen.

  • Modellbereitstellungen zeigen Vielfalt, wobei Modelle der Reihen llama3, deepseek-r1, mistral und qwen sehr beliebt sind. Darunter sind llama3:latest und deepseek-r1:latest die beiden am weitesten verbreiteten Modell-Tags.

  • Modelle mit 7B-8B Parametern sind die erste Wahl für Benutzer, während 4-Bit quantisierte Modelle wie Q4_K_M und Q4_0 aufgrund ihrer guten Balance zwischen Leistung und Ressourcenverbrauch weit verbreitet übernommen werden.

  • Der Standard-Port 11434 ist der am häufigsten verwendete, und die meisten Instanzen stellen Dienste über das HTTP-Protokoll bereit.

3. Datenquellen und Methodik

Die Daten für diesen Bericht stammen hauptsächlich aus zwei Phasen:

  1. Erster Scan: Verwendung von Suchmaschinen für den Netzwerkraum wie Fofa, mit der Bedingung app="Ollama" && is_domain=false, um anfänglich potenziell global bereitgestellte Ollama-Instanzen zu identifizieren. In dieser Phase wurden 174.590 Datensätze gefunden, die nach der Deduplizierung 99.412 eindeutige IPs umfassten.

  2. API-Verifizierung und Datenanreicherung: Prüfung des ip:port/api/tags API-Endpunkts für die anfänglich gescannten IP-Adressen, um die Zugänglichkeit der Ollama-Dienste zu bestätigen und Informationen über die spezifisch bereitgestellten KI-Modelle zu erhalten. In dieser Phase wurden 41.021 erfolgreich reagierende Ollama-Instanzen bestätigt (von 24.038 eindeutigen IPs, wobei die Daten in der Tabelle ollama gespeichert sind).

  3. Die endgültigen Daten sind in der Tabelle ollama gespeichert.

Die Analyse in diesem Bericht basiert hauptsächlich auf Daten aus der Tabelle ollama, die Datensätze von erfolgreich geprüften APIs und deren detaillierte Informationen enthält, einschließlich IP, Port, geografischer Standort und der JSON-Antwort (mit der Modellliste) usw.

4. Gesamtstatistik der Bereitstellung

  • Anzahl der anfänglichen Datensätze aus dem Fofa-Scan: 174.590

  • Anzahl der eindeutigen IPs aus dem anfänglichen Fofa-Scan: 99.412

  • Anzahl der Ollama-Instanzen, die erfolgreich auf /api/tags zugreifen können: 41.021 (aus Datensätzen, bei denen status = 'success' in der Tabelle ollama ist)

  • Anzahl der entsprechenden eindeutigen IP-Adressen: 24.038 (aus Datensätzen, bei denen status = 'success' in der Tabelle ollama ist)

  • Verhältnis zugänglicher IPs zu anfänglich identifizierten IPs: (24038 / 99412) * 100% ≈ 24,18%

Dies deutet darauf hin, dass unter allen über Fofa identifizierten Ollama-Instanzen etwa ein Viertel ihre /api/tags-Schnittstelle öffentlich zugänglich hat, was es uns ermöglicht, Informationen über ihre bereitgestellten Modelle abzurufen.

5. Analyse der geografischen Verteilung

5.1 Top 20 Bereitstellungsländer/-regionen

Die folgende Tabelle zeigt die Top 20 Länder/Regionen, sortiert nach der Anzahl der eindeutigen IPs mit Ollama-Instanzen.

Rang

Land/Region

Anzahl eindeutiger IPs

1

Vereinigte Staaten

29195

2

China

16464

3

Japan

5849

4

Deutschland

5438

5

Vereinigtes Königreich

4014

6

Indien

3939

7

Singapur

3914

8

Südkorea

3773

9

Irland

3636

10

Frankreich

3599

11

Australien

3558

12

Brasilien

2909

13

Kanada

2763

14

Südafrika

2742

15

Schweden

2113

16

Sonderverwaltungszone Hongkong, China

1277

17

Israel

675

18

Taiwan, China

513

19

Russland

475

20

Finnland

308

Ollama Top 20 Deployment Countries/Regions

5.2 Top 20 globale Stadtbereitstellungen

Die folgende Tabelle zeigt die Top 20 Städte weltweit, sortiert nach der Anzahl der eindeutigen IPs mit Ollama-Instanzen.

Rang

Stadt

Land/Region

Anzahl eindeutiger IPs

1

Ashburn

Vereinigte Staaten

5808

2

Portland

Vereinigte Staaten

5130

3

Singapur

Singapur

3914

4

Frankfurt am Main

Deutschland

3908

5

Peking

China

3906

6

London

Vereinigtes Königreich

3685

7

Columbus

Vereinigte Staaten

3672

8

Mumbai

Indien

3637

9

Dublin

Irland

3631

10

Tokio

Japan

3620

11

Sydney

Australien

3487

12

Paris

Frankreich

3175

13

San Jose

Vereinigte Staaten

2815

14

Sao Paulo

Brasilien

2753

15

Kapstadt

Südafrika

2692

16

Montreal

Kanada

2535

17

Seattle

Vereinigte Staaten

2534

18

Hangzhou

China

2447

19

Seoul

Südkorea

2327

20

Osaka

Japan

2184

5.3 Top 10 US-Stadtverteilung

Rang

Stadt

Anzahl eindeutiger IPs

1

Ashburn

5808

2

Portland

5130

3

Columbus

3672

4

San Jose

2815

5

Seattle

2534

6

Westlake Village

1714

7

Boardman

855

8

Florence

776

9

San Francisco

753

10

Boulder

642

Ollama Top 10 US City Distribution

5.4 Top 10 Stadtverteilung auf dem chinesischen Festland

Bereitstellungen in Hongkong und Taiwan sind in der Tabelle der Top 10 Städte nicht aufgeführt, da sie bereits in den Länder-/Regionsstatistiken enthalten sind.

Rang

Stadt

Land country_name)

Anzahl eindeutiger IPs

1

Peking

China

3906

2

Hangzhou

China

2447

3

Shanghai

China

1335

4

Guangzhou

China

1296

5

Shenzhen

China

768

6

Chengdu

China

469

7

Nanjing

China

329

8

Chongqing

China

259

9

Suzhou

China

257

10

Wuhan

China

249

Ollama Top 20 Global City Deployments

5.5 Vergleich der Top 10 Stadtbereitstellungen in den USA und China

Um die Ollama-Bereitstellungen auf Stadtebene in den USA und China intuitiver zu vergleichen, stellt die folgende Tabelle die Anzahl der eindeutigen IP-Bereitstellungen für die Top 10 Städte in beiden Ländern gegenüber:

Rang

US-Stadt (Top 10)

Anzahl eindeutiger US-IPs

Chinesische Stadt (Top 10)

Anzahl eindeutiger chinesischer IPs

1

Ashburn

5808

Peking

3906

2

Portland

5130

Hangzhou

2447

3

Columbus

3672

Shanghai

1335

4

San Jose

2815

Guangzhou

1296

5

Seattle

2534

Shenzhen

768

6

Westlake Village

1714

Chengdu

469

7

Boardman

855

Nanjing

329

8

Florence

776

Chongqing

259

9

San Francisco

753

Suzhou

257

10

Boulder

642

Wuhan

249

Ollama US-China Top 10 City Deployment Comparison

Kurzer Kommentar:

  • Führendes Stadtvolumen: Die Top 3 US-Städte (Ashburn, Portland, Columbus) haben jeweils über 3.000 eindeutige IPs mit Ollama-Bereitstellungen. Chinas Top-Stadt (Peking) hat über 3.000 Bereitstellungen, und die zweite Stadt (Hangzhou) hat über 2.000.

  • Technologie- und Wirtschaftszentren: Viele der aufgeführten Städte in beiden Ländern sind bekannte Technologie-Innovationszentren oder wichtige Wirtschaftsregionen.

  • Rechenzentrumsregionen: Die Einbeziehung von US-Städten wie Ashburn spiegelt auch wider, dass Ollama-Instanzen wahrscheinlich größtenteils auf Cloud-Servern und in Rechenzentren bereitgestellt werden.

  • Unterschiede in der Verteilung: Insgesamt ist die Gesamtzahl der IPs in den Top 10 US-Städten signifikant höher als in den Top 10 Städten Chinas. Beide Länder zeigen jedoch ein Muster, bei dem einige Kernstädte die überwiegende Mehrheit der Ollama-Bereitstellungen ausmachen.

Dieser Vergleich auf Stadtebene zeigt weiter, dass die Förderung und Anwendung von Ollama als Entwicklertool eng mit regionalen technologischen Ökosystemen und der industriellen Entwicklung verbunden ist.

6. Modellanalyse

6.1 Kurzer Überblick über KI-Modelle, Parameter und Quantisierung

Ollama unterstützt eine Vielzahl von Open-Source-Großsprachmodellen. Diese Modelle unterscheiden sich typischerweise durch die folgenden Merkmale:

6.1.1 Gängige Modellfamilien

Die aktuelle Open-Source-Community hat einen Anstieg exzellenter LLM-Familien erlebt, jede mit ihren eigenen Eigenschaften:

  • Llama-Serie (Meta AI): Wie Llama 2, Llama 3, Code Llama. Bekannt für seine leistungsstarken allgemeinen Fähigkeiten und umfangreiche Community-Unterstützung, was zu zahlreichen feinabgestimmten Versionen führt. Modelle wie llama3.1, hermes3, die in unseren Daten zu sehen sind, basieren oft auf der Llama-Architektur.

  • Mistral-Serie (Mistral AI): Wie Mistral 7B, Mixtral 8x7B. Gewinnt an Aufmerksamkeit für Effizienz und hohe Leistung, insbesondere seine MoE (Mixture of Experts)-Modelle.

  • Gemma-Serie (Google): Wie Gemma 2B, Gemma 7B. Von Google veröffentlichte Modelle mit offenem Gewicht, deren Technologie von ihren leistungsstärkeren Gemini-Modellen abgeleitet ist.

  • Phi-Serie (Microsoft): Wie Phi-2, Phi-3. Konzentriert sich auf kleine, aber leistungsfähige Modelle und betont "SLMs (Small Language Models)".

  • DeepSeek-Serie (DeepSeek AI): Wie DeepSeek Coder, DeepSeek LLM. Chinesische KI-Modelle, die sich in Coding und allgemeinen Aufgaben auszeichnen.

  • Qwen-Serie (Alibaba Tongyi Qianwen): Wie Qwen1.5. Eine Reihe von Modellen, die von Alibaba DAMO Academy gestartet wurden und mehrere Sprachen und Aufgaben unterstützen.

  • Es gibt viele andere exzellente Modelle, wie Yi (01.AI), Command R (Cohere), etc.

Ollama ermöglicht es Benutzern durch seinen Modelfile-Mechanismus, diese Basismodelle oder ihre feinabgestimmten Versionen einfach zu verwenden. Modellnamen folgen oft dem Format Familie:Größe-Variante-Quantisierung, zum Beispiel llama3:8b-instruct-q4_K_M.

6.1.2 Modellparameter (Parametergröße)

Die Anzahl der Modellparameter (üblicherweise in B - Milliarden; oder M - Millionen) ist ein wichtiger Indikator für die Größe und potenzielle Fähigkeit eines Modells. Gängige Parametergrößen sind:

  • Kleine Modelle: < 7B (z.B. 1.5B, 2B, 3B). Laufen normalerweise schnell mit geringem Ressourcenverbrauch und sind geeignet für spezifische Aufgaben oder Umgebungen mit begrenzten Ressourcen.

  • Mittelgroße Modelle: 7B, 8B, 13B. Erreichen eine gute Balance zwischen Fähigkeit und Ressourcenverbrauch, derzeit eine der beliebtesten Größen in der Community.

  • Große Modelle: 30B, 33B, 40B, 70B+. Im Allgemeinen leistungsfähiger, benötigen aber auch mehr Rechenressourcen (RAM, VRAM) und längere Inferenzzeiten.

Das Feld parameter_size in unseren Daten (z.B. "8.0B", "7B", "134.52M") gibt dies an.

6.1.3 Quantisierungsversionen (Quantisierungsgrad)

Quantisierung ist eine Technik zur Reduzierung der Modellgröße und Beschleunigung der Inferenz durch Senkung der numerischen Präzision der Modellgewichte (z.B. von 16-Bit-Gleitkomma FP16 auf 4-Bit-Ganzzahl INT4).

  • Gängige Quantisierungsgrade: Ollama und das GGUF-Format (verwendet von Llama.cpp) unterstützen verschiedene Quantisierungsstrategien, wie Q2_K, Q3_K_S, Q3_K_M, Q3_K_L, Q4_0, Q4_K_M, Q5_K_M, Q6_K, Q8_0, etc.

    • Die Zahl (z.B. 2, 3, 4, 5, 6, 8) gibt grob die Anzahl der Bits an.

    • Quantisierung der K-Serie (z.B. Q4_K_M) sind verbesserte Quantisierungsmethoden, die in llama.cpp eingeführt wurden und im Allgemeinen eine bessere Leistung bei gleicher Bitzahl erzielen.

    • _S, _M, _L bezeichnen in der Regel verschiedene Varianten von K-Quants, die verschiedene Teile des Modells beeinflussen.

    • F16 (FP16) repräsentiert 16-Bit-Gleitkomma, oft als unquantisiert oder eine Basis-Quantisierungsversion betrachtet. F32 (FP32) ist volle Präzision.

  • Kompromiss: Höhere Quantisierung (niedrigere Bitzahl) führt zu kleineren, schnelleren Modellen, geht aber in der Regel mit einem gewissen Leistungsverlust einher (Modellleistung verschlechtert sich). Benutzer müssen basierend auf ihrer Hardware und ihren Anforderungen an die Modellqualität wählen.

Das Feld quantization_level in unseren Daten (z.B. "Q4_K_M", "F16") gibt dies an.

6.2 Die beliebtesten Modellnamen

Die folgende Tabelle zeigt die Top 10 Modell-Tags, sortiert nach der Anzahl der eindeutigen IP-Bereitstellungen, einschließlich ihrer Familien-, Parametergrößen- und Quantisierungsgradinformationen.

Rang

Modellname (model_name)

Eindeutige IP-Bereitstellungen

Gesamtzahl der Bereitstellungsinstanzen

1

llama3:latest

12659

24628

2

deepseek-r1:latest

12572

24578

3

mistral:latest

11163

22638

4

qwen:latest

9868

21007

5

llama3:8b-text-q4_K_S

9845

20980

6

smollm2:135m

4058

5016

7

llama2:latest

3124

3928

8

hermes3:8b

2856

3372

9

llama3.1:8b

2714

3321

10

qwen2.5:1.5b

2668

3391

Ollama Top Popular Model Names

(Hinweis: Eindeutige IP-Bereitstellungen bezieht sich auf die Anzahl der eindeutigen IP-Adressen, die mindestens eine Instanz dieses Modell-Tags bereitgestellt haben. Gesamtzahl der Bereitstellungsinstanzen bezieht sich auf die Gesamtzahl, wie oft dieser Modell-Tag in der models-Liste über alle IPs hinweg erscheint. Eine IP kann auf dieselbe Modell-Tag mehrmals über verschiedene Mittel oder Datensätze verweisen, oder eine IP kann mehrere Instanzen verschiedener Tags ausführen, die zum selben Basismodell gehören.)

Erste Beobachtungen (Beliebte Modellnamen):

  • Modelle mit dem Tag :latest sind sehr verbreitet, wie llama3:latest, deepseek-r1:latest, mistral:latest, qwen:latest. Dies deutet darauf hin, dass viele Benutzer es vorziehen, die neueste Version der Modelle direkt zu ziehen.

  • Modelle der Llama-Serie (z.B. llama3:latest, llama3:8b-text-q4_K_S, llama2:latest, llama3.1:8b) belegen mehrere Plätze und zeigen ihre starke Popularität.

  • Chinesische KI-Modelle wie deepseek-r1:latest (DeepSeek-Serie) und qwen:latest (Tongyi Qianwen-Serie) schneiden ebenfalls beeindruckend ab und rangieren hoch.

  • Spezifische quantisierte Versionen wie llama3:8b-text-q4_K_S haben es ebenfalls in die Top Ten geschafft, was auf die Benutzerpräferenz für spezifische Leistungs-/Ressourcenverbrauchs-Balancen hinweist.

  • Kleine Modelle wie smollm2:135m und qwen2.5:1.5b haben ebenfalls eine beträchtliche Anzahl von Bereitstellungen und decken den Bedarf an schlanken Modellen.

6.3 Top-Modellfamilien

Modellfamilie details.family-Feld) repräsentiert die Basisarchitektur oder primäre technologische Linie des Modells. Unten sind die Modellfamilien mit einer höheren Anzahl von Bereitstellungen basierend auf unserer Datenanalyse aufgeführt:

Rang

Modellfamilie (family)

Eindeutige IP-Bereitstellungen (Geschätzt)

Gesamtzahl der Bereitstellungsinstanzen (Geschätzt)

1

llama

~20250

~103480

2

qwen2

~17881

~61452

3

nomic-bert

~1479

~1714

4

gemma3

~1363

~2493

5

bert

~1228

~2217

6

mllama

~943

~1455

7

gemma

~596

~750

8

deepseek2

~484

~761

9

phi3

~368

~732

10

gemma2

~244

~680

Ollama Top Model Families

(Hinweis: Die spezifischen Werte hier sind Schätzungen, die auf der Zusammenfassung der zuvor abgefragten Top 50 Modell-Detail-Liste basieren und können leicht von präzisen globalen Statistiken abweichen, aber der Trend ist repräsentativ.)

Erste Beobachtungen (Beliebte Modellfamilien):

  • Die llama-Familie hat eine absolut dominante Position inne, was mit der Tatsache übereinstimmt, dass Modelle der Llama-Serie die Grundlage für viele moderne Open-Source-LLMs und deren eigene weite Verbreitung sind. Ihr riesiges Ökosystem und zahlreiche feinabgestimmte Versionen machen sie zur beliebtesten Wahl.

  • qwen2 (Tongyi Qianwen Qwen2-Serie) zeigt als zweitgrößte Familie seine starke Wettbewerbsfähigkeit in China und sogar global.

  • Das Erscheinen von nomic-bert und bert ist bemerkenswert. Obwohl sie typischerweise nicht als "große Sprachmodelle" (konversationell) betrachtet werden, sondern eher als Text-Embedding- oder andere Basismodelle für die Verarbeitung natürlicher Sprache, deutet ihr hohes Bereitstellungsvolumen darauf hin, dass Ollama auch für solche Aufgaben weit verbreitet verwendet wird. Ollama lädt automatisch ein Standard-Embedding-Modell herunter (z.B. nomic-embed-text), wenn bestimmte Operationen (wie die Generierung von Embedding-Vektoren) durchgeführt werden, was wahrscheinlich der Hauptgrund dafür ist, dass diese Familien hoch rangieren.

  • Googles gemma-Serie (einschließlich gemma3, gemma, gemma2) zeigt ebenfalls ordentliche Akzeptanzraten.

  • Andere bekannte Modellfamilien wie deepseek2 und phi3 haben es ebenfalls in die Top Ten geschafft.

  • mllama könnte eine Sammlung verschiedener Llama-basierter Hybrid-, modifizierter oder von der Community benannter Modelle repräsentieren.

6.4 Top-Statistik der ursprünglichen Parametergröße

Die Modellparametergröße details.parameter_size-Feld) ist ein wichtiger Indikator für die Modellgröße. Aufgrund der unterschiedlichen Darstellung von Parametergrößen in den Rohdaten (z.B. "8.0B", "7B", "134.52M") zählen wir diese ursprünglichen Zeichenketten direkt. Unten sind die Parametergrößenrepräsentationen mit einer höheren Anzahl von Bereitstellungen aufgeführt:

Rang

Parametergröße (Ursprüngliche Zeichenkette)

Eindeutige IP-Bereitstellungen (Geschätzt)

Gesamtzahl der Bereitstellungsinstanzen (Geschätzt)

1

8.0B

~14480

~52577

2

7.6B

~14358

~28105

3

7.2B

~11233

~22907

4

4B

~9895

~21058

5

7B

~4943

~11738

6

134.52M

~4062

~5266

7

1.5B

~2759

~3596

8

13B

~2477

~3311

9

1.8B

~2034

~2476

10

3.2B

~1553

~2244

11

137M

~1477

~1708

12

12.2B

~1421

~2000

13

32.8B

~1254

~2840

14

14.8B

~1123

~2091

15

4.3B

~943

~1194

Ollama Top Original Parameter Size Statistics

(Hinweis: Die Werte sind Schätzungen, die auf einer Zusammenfassung der Parameterinformationen aus der zuvor abgefragten Top 50 Modell-Detail-Liste basieren.)

Erste Beobachtungen (Beliebte Parametergrößen):

  • Modelle im Bereich von 7B bis 8B sind der absolute Mainstream: "8.0B", "7.6B", "7.2B", "7B" nehmen die überwiegende Mehrheit der Bereitstellungen ein. Dies entspricht typischerweise sehr beliebten Modellen in der Community, wie Llama 2/3 7B/8B-Serien, Mistral 7B und deren verschiedenen feinabgestimmten Versionen. Sie erzielen eine gute Balance zwischen Leistung und Ressourcenverbrauch.

  • Modelle im 4B-Bereich haben ebenfalls eine wichtige Position inne: Die hohe Bereitstellung von "4B" ist bemerkenswert.

  • Schlanke Modelle auf Million-Parameter-Ebene (M) sind weit verbreitet: Der hohe Rang von "134.52M" und "137M" hängt wahrscheinlich mit der Popularität von Embedding-Modellen (wie nomic-embed-text) oder sehr kleinen spezialisierten Modellen (wie der smollm-Serie) zusammen. Diese Modelle sind klein, schnell und geeignet für ressourcenbeschränkte oder latenzempfindliche Szenarien.

  • Stabile Nachfrage nach kleinen Modellen im Bereich von 1B-4B: Modelle mit Parametergrößen wie "1.5B", "1.8B", "3.2B", "4.3B" werden ebenfalls von einem Teil der Benutzer bevorzugt.

  • Große Modelle über 10B: Wie "13B", "12.2B", "32.8B", "14.8B" haben zwar nicht so viele eindeutige IP-Bereitstellungen wie der 7-8B-Bereich, aber dennoch ein beträchtliches Bereitstellungsvolumen, was auf eine Nachfrage der Community nach leistungsfähigeren Modellen hinweist, trotz ihrer höheren Hardware-Anforderungen.

6.5 Top-Statistik der Quantisierungsgrade

Der Modell-Quantisierungsgrad details.quantization_level-Feld) spiegelt die Gewichtspräzision wider, die das Modell zur Reduzierung der Größe und Beschleunigung der Inferenz verwendet. Unten sind die Quantisierungsgrade mit einer höheren Anzahl von Bereitstellungen aufgeführt:

Rang

Quantisierungsgrad (Ursprüngliche Zeichenkette)

Eindeutige IP-Bereitstellungen (Geschätzt)

Gesamtzahl der Bereitstellungsinstanzen (Geschätzt)

1

Q4_K_M

~20966

~53688

2

Q4_0

~18385

~88653

3

Q4_K_S

~9860

~21028

4

F16

~5793

~9837

5

Q8_0

~596

~1574

6

unknown

~266

~1318

7

Q5_K_M

~97

~283

8

F32

~85

~100

9

Q6_K

~60

~178

10

Q2_K

~54

~140

Ollama Top Quantization Level Statistics

(Hinweis: Die Werte sind Schätzungen, die auf einer Zusammenfassung der Quantisierungsinformationen aus der zuvor abgefragten Top 50 Modell-Detail-Liste basieren.)

Erste Beobachtungen (Beliebte Quantisierungsgrade):

  • 4-Bit-Quantisierung ist die dominante Lösung: Q4_K_M, Q4_0 und Q4_K_S, diese drei 4-Bit-Quantisierungsgrade, führen die Charts absolut an. Dies zeigt deutlich, dass die Community die 4-Bit-Quantisierung als bevorzugte Lösung ansieht, um die beste Balance zwischen Modellleistung, Inferenzgeschwindigkeit und Ressourcenbelegung (insbesondere VRAM) zu erreichen.

  • F16 (16-Bit-Gleitkomma) hat immer noch einen bedeutenden Platz: Als unquantisierte (oder nur grundlegend quantisierte) Version zeigt die hohe Bereitstellung von F16, dass eine beträchtliche Anzahl von Benutzern diese wählt, um die höchste Modelltreue zu verfolgen oder weil sie über ausreichende Hardware-Ressourcen verfügen.

  • Q8_0 (8-Bit-Quantisierung) als Ergänzung: Bietet eine Option zwischen 4-Bit und F16.

  • Erscheinen von unknown-Werten: Zeigt an, dass Quantisierungsgradinformationen in einigen Modellmetadaten fehlen oder nicht standardisiert sind.

6.6 Verteilung der KI-Rechenleistung (nach Modellparametergröße): China vs. USA

Um ein tieferes Verständnis dafür zu gewinnen, wie Modelle unterschiedlicher Größenordnungen in wichtigen Ländern bereitgestellt werden, haben wir die Parametergrößen der auf Ollama-Instanzen in den Vereinigten Staaten und China bereitgestellten Modelle kategorisiert und gezählt. Die Parametergröße wird oft als wichtiger Indikator für die Modellkomplexität und den potenziellen Bedarf an KI-Rechenleistung betrachtet.

Klassifizierungsstandard für Parameterskalen:

  • Klein: < 1 Milliarde Parameter (< 1B)

  • Mittel: 1 Milliarde bis < 10 Milliarden Parameter (1B bis < 10B)

  • Groß: 10 Milliarden bis < 50 Milliarden Parameter (10B bis < 50B)

  • Extra Groß: >= 50 Milliarden Parameter (>= 50B)

Die folgende Tabelle zeigt die Anzahl der eindeutigen IPs, die Modelle unterschiedlicher Parameterskalen in den USA und China bereitstellen:

Land

Kategorie der Parameterskala

Anzahl eindeutiger IPs

China

Klein (<1B)

3313

China

Mittel (1B bis <10B)

4481

China

Groß (10B bis <50B)

1548

China

Extra Groß (>=50B)

280

Vereinigte Staaten

Klein (<1B)

1368

Vereinigte Staaten

Mittel (1B bis <10B)

6495

Vereinigte Staaten

Groß (10B bis <50B)

1301

Vereinigte Staaten

Extra Groß (>=50B)

58

The table below shows the number of unique IPs deploying models of different parameter scales in the US and China

Dateneinblicke und Analyse:

  1. Mittelgroße Modelle sind Mainstream, aber mit unterschiedlichen Schwerpunkten:

    • Vereinigte Staaten: Die Bereitstellung mittelgroßer Modelle (1B-10B) ist in den USA absolut dominant (6495 eindeutige IPs).

    • China: Mittelgroße Modelle (4481 eindeutige IPs) sind auch in China der am häufigsten bereitgestellte Typ, aber die Bereitstellung kleiner Modelle (<1B) in China (3313 eindeutige IPs) ist sehr beträchtlich.

  2. Signifikanter Unterschied bei kleinen Modellen: Chinas großflächige Bereitstellung kleiner Modelle könnte eine Präferenz für Edge Computing, mobile KI-Anwendungen und ähnliche Szenarien widerspiegeln.

  3. Bereitstellung großer und extra großer Modelle: China zeigt eine höhere Aktivität bei der Erkundung großer und extra großer Modelle (wenn auch von einer kleineren Basis aus).

  4. Rückschlüsse auf die Gesamtinvestition in Rechenleistung: Die US-Basis bei mittelgroßen Modellen zeigt die Verbreitung praktischer KI-Anwendungen. China hat einen Vorteil bei kleinen Modellen und erkundet aktiv große Modelle.

  5. Auswirkungen auf globale Trends: Mittelgroße Modelle sind wahrscheinlich weltweit beliebt. Verschiedene Regionen können unterschiedliche Strategien zur Modellübernahme basierend auf ihren Ökosystemen und Ressourcenbedingungen haben.

Durch die Segmentierung der Modellparameterskalen in China und den USA können wir die unterschiedlichen Schwerpunkte und Entwicklungspotenziale von Ollama-Anwendungen in den beiden Ländern erkennen.

7. Netzwerkeinblicke

7.1 Port-Nutzung

  • 11434 (Standard-Port): Die überwiegende Mehrheit (30.722 eindeutige IPs) der Ollama-Instanzen läuft auf dem Standard-Port 11434.

  • Andere gängige Ports: Ports wie 80 (1.619 eindeutige IPs), 8080 (1.571 eindeutige IPs), 443 (1.339 eindeutige IPs) usw. werden ebenfalls verwendet, was darauf hindeuten kann, dass einige Instanzen hinter einem Reverse Proxy bereitgestellt werden oder Benutzer den Port angepasst haben.

7.2 Protokollnutzung

  • HTTP: Ca. 65.506 eindeutige IPs haben Instanzen, die über das HTTP-Protokoll Dienste anbieten.

  • HTTPS: Ca. 43.765 eindeutige IPs haben Instanzen, die über das HTTPS-Protokoll Dienste anbieten.

Die meisten Instanzen sind immer noch über unverschlüsseltes HTTP verfügbar, was bestimmte Sicherheitsrisiken bergen kann. (Bitte beachten Sie: Eine IP kann sowohl HTTP als auch HTTPS unterstützen, daher kann die Summe der IP-Anzahlen hier die Gesamtzahl der eindeutigen IPs überschreiten)

7.3 Haupt-Hosting-Anbieter (AS-Organisation)

Das Hosting von Ollama-Instanzen ist stark bei Cloud-Service-Anbietern konzentriert.

Rang

AS-Organisation

Anzahl eindeutiger IPs

Hauptzugehöriger Anbieter

1

AMAZON-02

53658

AWS

2

AMAZON-AES

5539

AWS

3

Chinanet

4964

China Telecom

4

Hangzhou Alibaba Advertising Co.,Ltd.

2647

Alibaba Cloud

5

HENGTONG-IDC-LLC

2391

Hosting Provider

6

Shenzhen Tencent Computer Systems Company Limited

1682

Tencent Cloud

7

CHINA UNICOM China169 Backbone

1606

China Unicom

8

Hetzner Online GmbH

972

Hetzner

9

China Unicom Beijing Province Network

746

China Unicom (Peking)

10

LEASEWEB-USA-LAX

735

Leaseweb

Ollama instance hosting is highly concentrated among cloud service providers

AWS (AMAZON-02, AMAZON-AES) hält den größten Anteil, gefolgt von großen chinesischen Telekommunikationsbetreibern und Cloud-Service-Anbietern (wie Alibaba Cloud, Tencent Cloud). Andere Hosting-Anbieter wie Hetzner und Leaseweb haben ebenfalls signifikante Anteile.

8. Sicherheit und weitere Beobachtungen

  • Versionsinformationen: Aus Sicherheitsgründen haben wir keine Statistiken zu den Ollama-Versionen aufgeführt.

  • HTTP-Expositionsrisiko: Wie bereits erwähnt, sind eine große Anzahl von Ollama-Instanzen über HTTP ohne TLS-Verschlüsselung verfügbar, was Kommunikationsinhalte (z.B. Interaktionen mit Modellen) anfällig für Abhören oder Manipulation machen kann. Benutzern wird empfohlen, einen Reverse Proxy zu konfigurieren und HTTPS zu aktivieren.

  • API-Zugänglichkeit: Die Daten in diesem Bericht basieren auf Ollama-Instanzen, deren /api/tags-Schnittstelle öffentlich zugänglich ist. Die tatsächliche Anzahl der Bereitstellungen kann höher sein, aber einige Instanzen sind möglicherweise in privaten Netzwerken bereitgestellt oder haben externen Zugriff durch Firewalls eingeschränkt.

9. Fazit und kurzer Überblick

Dieser Bericht zieht durch die Analyse von Daten von 99.412 global öffentlich zugänglichen Ollama-Instanzen (über ihre /api/tags-Schnittstelle) die folgenden Hauptschlussfolgerungen und Beobachtungen:

1. Globaler Bereitstellungsüberblick und geografische Verteilung:

  • Ollama hat sich als praktisches Tool für das lokale Ausführen großer Modelle weltweit weit verbreitet. Diese Analyse identifizierte 99.412 öffentlich zugängliche eindeutige IPs.

  • Hohe geografische Konzentration: Die Vereinigten Staaten und China sind die beiden Länder/Regionen mit den meisten konzentrierten Ollama-Bereitstellungen und machen zusammen einen bedeutenden Teil der gesamten zugänglichen Instanzen aus (USA 29.195, China 16.464). Länder wie Japan, Deutschland, das Vereinigte Königreich, Indien und Singapur haben ebenfalls bemerkenswerte Bereitstellungszahlen.

  • Stadt-Hotspots: In den USA führen Städte wie Ashburn, Portland und Columbus bei den Bereitstellungen; in China sind technologisch fortschrittliche Städte wie Peking, Hangzhou, Shanghai und Guangzhou die Hauptbereitstellungsorte. Dies hängt oft mit der Konzentration von Technologieunternehmen, Rechenzentren und Entwicklergemeinschaften zusammen.

2. Trends bei der Bereitstellung von KI-Modellen:

  • Beliebte Modell-Tags: Allgemeine neueste Tags wie llama3:latest, deepseek-r1:latest, mistral:latest, qwen:latest sind am beliebtesten. Speziell optimierte Versionen wie llama3:8b-text-q4_K_S werden ebenfalls wegen ihrer guten Balance bevorzugt.

  • Dominante Modellfamilien: Die llama-Familie führt mit absolutem Abstand, gefolgt von qwen2. Der hohe Rang von Embedding-Modellfamilien wie nomic-bert und bert ist bemerkenswert, möglicherweise im Zusammenhang mit dem Standardverhalten von Ollama.

  • Präferenzen bei der Parametergröße: Modelle mit 7B-8B Parametern sind derzeit der Mainstream. Schlanke Modelle auf Million-Parameter-Ebene und große Modelle über 10B haben ebenfalls ihre jeweiligen Märkte. Ein US-China-Vergleich zeigt, dass die USA mehr mittelgroße Modelle bereitstellen, während China aktiver bei der Erkundung kleiner und extra großer Modelle ist.

  • Wahl der Quantisierungsgrade: 4-Bit-Quantisierung (insbesondere Q4_K_M und Q4_0) ist die überwältigende Wahl. F16 hat als Option mit höherer Wiedergabetreue ebenfalls eine wichtige Position inne.

  • Metadaten-Komplexität: Die Analyse von Modellmetadaten (z.B. die Interpretation des Modellfamilienfeldes) zeigt manchmal Komplexitäten zwischen seinen Datensätzen und Modellnamen oder dem allgemeinen Verständnis auf, was die Vielfalt des Metadatenmanagements im Open-Source-Ökosystem hervorhebt.

3. Technische Infrastruktur:

  • Hosting-Umgebungen: Eine große Anzahl von Ollama-Instanzen wird bei großen Cloud-Service-Anbietern wie AWS, Alibaba Cloud, Tencent Cloud sowie in den Netzwerken großer nationaler Telekommunikationsbetreiber gehostet.

  • Dienst-Ports: Ollamas Standard-Port 11434 wird am häufigsten verwendet, aber eine beträchtliche Anzahl von Instanzen ist auch über Standard-Web-Ports verfügbar.

4. Objektive Bewertung:

  • Popularität von Ollama: Die Daten zeigen deutlich die hohe Akzeptanzrate von Ollama unter Entwicklern und KI-Enthusiasten weltweit.

  • Lebendigkeit des Open-Source-Ökosystems: Die Vielfalt beliebter Modelle und die weite Verbreitung verschiedener Parameter- und Quantisierungsversionen spiegeln die boomende Entwicklung des Open-Source-KI-Modell-Ökosystems wider.

  • Balance bei den Benutzerpräferenzen: Bei der Wahl der Modelle neigen Benutzer dazu, eine Balance zwischen Modellfähigkeit, Betriebseffizienz und Hardwarekosten zu suchen.

  • Sicherheit und Offenheit: Eine große Anzahl von Instanzen ermöglicht öffentlichen Zugriff auf ihre Modelllisten, was, obwohl praktisch für die Community, auch Sicherheitsrisiken bergen kann.

5. Zukunftsaussichten:

  • Mit dem Aufkommen effizienterer, kleinerer Modelle und weiteren Fortschritten in der Quantisierungstechnologie wird erwartet, dass die Bereitstellungshürde für Ollama weiter sinkt.

  • Die Standardisierung von Modellmetadaten und von der Community geteilten Modellen ist entscheidend für die Verbesserung der Transparenz und Benutzerfreundlichkeit des Ökosystems.

Zusammenfassend lässt sich sagen, dass Ollama eine wichtige Brücke wird, die modernste große Sprachmodelle mit einem breiten Spektrum von Entwicklern, Forschern und sogar allgemeinen Benutzern verbindet. Diese Datenanalyse liefert wertvolle Einblicke zum Verständnis ihres aktuellen globalen Bereitstellungsstatus und der Benutzerpräferenzen.

Kommentare

comments.comments (0)

Please login first

Sign in