Tenthe ai directory logo
Una Nueva Perspectiva sobre la Carrera de IA entre EE. UU. y China: Comparación de Despliegues de Ollama en 2025 e Insights sobre Tendencias Globales de Modelos de IA

Una Nueva Perspectiva sobre la Carrera de IA entre EE. UU. y China: Comparación de Despliegues de Ollama en 2025 e Insights sobre Tendencias Globales de Modelos de IA

Ryan@ryan
0 Vistas0 Comentarios

Ollama es una popular herramienta de código abierto diseñada para simplificar el proceso de ejecutar, crear y compartir modelos de lenguaje grande (LLM) localmente. Empaqueta pesos de modelos, configuración y datos en un paquete definido por un Modelfile, y proporciona una API para interactuar con estos modelos. Esto permite a desarrolladores e investigadores desplegar y experimentar fácilmente con varios modelos avanzados de IA en computadoras personales o servidores.

1. Introducción

Ollama es una popular herramienta de código abierto diseñada para simplificar el proceso de ejecutar, crear y compartir modelos de lenguaje grande (LLM) localmente. Empaqueta pesos de modelos, configuración y datos en un paquete definido por un Modelfile, y proporciona una API para interactuar con estos modelos. Esto permite a desarrolladores e investigadores desplegar y experimentar fácilmente con varios modelos avanzados de IA en computadoras personales o servidores.

Este informe tiene como objetivo revelar tendencias de despliegue, preferencias de modelos, distribución geográfica y características de red mediante el análisis de datos de 174.590 instancias de Ollama desplegadas globalmente.

Nota: Las estadísticas de datos en el Capítulo 5 y el Capítulo 7 provienen de las 174.590 instancias. Los datos en el Capítulo 6 provienen de instancias accesibles. Por razones de seguridad, no hemos listado estadísticas sobre las versiones de Ollama.

  • Datos a fecha de: 24 de abril de 2025.

  • Fuente del Informe: Tenthe AI https://tenthe.com

  • Autor: Ryan

2. Resumen Ejecutivo

Este informe se basa en el análisis de datos de escaneo y sondeo de API de instancias de Ollama disponibles públicamente en todo el mundo. Los hallazgos clave incluyen:

  • A nivel mundial, entre aproximadamente 174.590 registros identificados inicialmente a través de Fofa (99.412 IP únicas), se sondearon con éxito 41.021 instancias de Ollama con APIs accesibles, distribuidas en 24.038 direcciones IP únicas (una tasa de accesibilidad de aproximadamente 24,18%).

  • Geográficamente, Estados Unidos y China son los países con el mayor número de despliegues de Ollama. Los proveedores de servicios en la nube, particularmente AWS, Alibaba Cloud y Tencent Cloud, son los principales anfitriones de las instancias de Ollama.

  • Los despliegues de modelos muestran diversidad, con modelos de las series llama3, deepseek-r1, mistral y qwen siendo ampliamente populares. Entre ellos, llama3:latest y deepseek-r1:latest son las dos etiquetas de modelo más desplegadas.

  • Los modelos con parámetros de 7B-8B son la opción principal para los usuarios, mientras que los modelos cuantizados de 4 bits como Q4_K_M y Q4_0 son ampliamente adoptados por su buen equilibrio entre rendimiento y consumo de recursos.

  • El puerto predeterminado 11434 es el más comúnmente utilizado, y la mayoría de las instancias exponen servicios a través del protocolo HTTP.

3. Fuentes de Datos y Metodología

Los datos para este informe provienen principalmente de dos etapas:

  1. Escaneo Inicial: Utilizando motores de búsqueda de espacio de red como Fofa, con la condición app="Ollama" && is_domain=false, para identificar inicialmente posibles instancias de Ollama desplegadas globalmente. Esta etapa encontró 174.590 registros, que involucran 99.412 IP únicas después de la deduplicación.

  2. Verificación de API y Enriquecimiento de Datos: Sondear el endpoint de API ip:port/api/tags para las direcciones IP inicialmente escaneadas con el fin de confirmar la accesibilidad de los servicios de Ollama y obtener información sobre los modelos de IA específicos desplegados. Esta etapa confirmó 41.021 instancias de Ollama que respondieron con éxito (de 24.038 IP únicas, con datos almacenados en la tabla ollama).

  3. Los datos finales se almacenan en la tabla ollama.

El análisis en este informe se basa principalmente en datos de la tabla ollama, que contiene registros de APIs sondeadas con éxito y su información detallada, incluyendo IP, puerto, ubicación geográfica y la respuesta JSON (que contiene la lista de modelos), etc.

4. Estadísticas Generales de Despliegue

  • Número de registros iniciales del escaneo de Fofa: 174.590

  • Número de IPs únicas del escaneo inicial de Fofa: 99.412

  • Número de instancias de Ollama que accedieron con éxito a /api/tags: 41.021 (de registros donde status = 'success' en la tabla ollama)

  • Número de direcciones IP únicas correspondientes: 24.038 (de registros donde status = 'success' en la tabla ollama)

  • Ratio de IPs accesibles respecto a las IPs inicialmente identificadas: (24038 / 99412) * 100% ≈ 24,18%

Esto indica que, entre todas las instancias de Ollama identificadas a través de Fofa, aproximadamente una cuarta parte tiene su interfaz /api/tags públicamente accesible, lo que nos permite recuperar información sobre sus modelos desplegados.

5. Análisis de Distribución Geográfica

5.1 Top 20 Países/Regiones de Despliegue

La siguiente tabla muestra los 20 principales países/regiones clasificados por el número de IPs únicas con instancias de Ollama.

Ranking

País/Región

Conteo de IPs Únicas

1

United States

29195

2

China

16464

3

Japan

5849

4

Germany

5438

5

United Kingdom

4014

6

India

3939

7

Singapore

3914

8

South Korea

3773

9

Ireland

3636

10

France

3599

11

Australia

3558

12

Brazil

2909

13

Canada

2763

14

South Africa

2742

15

Sweden

2113

16

Hong Kong SAR, China

1277

17

Israel

675

18

Taiwan, China

513

19

Russia

475

20

Finland

308

Ollama Top 20 Deployment Countries/Regions

5.2 Top 20 Ciudades Globales de Despliegue

La siguiente tabla muestra las 20 principales ciudades a nivel mundial clasificadas por el número de IPs únicas con instancias de Ollama.

Ranking

Ciudad

País/Región

Conteo de IPs Únicas

1

Ashburn

United States

5808

2

Portland

United States

5130

3

Singapore

Singapore

3914

4

Frankfurt am Main

Germany

3908

5

Beijing

China

3906

6

London

United Kingdom

3685

7

Columbus

United States

3672

8

Mumbai

India

3637

9

Dublin

Ireland

3631

10

Tokyo

Japan

3620

11

Sydney

Australia

3487

12

Paris

France

3175

13

San Jose

United States

2815

14

Sao Paulo

Brazil

2753

15

Cape Town

South Africa

2692

16

Montreal

Canada

2535

17

Seattle

United States

2534

18

Hangzhou

China

2447

19

Seoul

South Korea

2327

20

Osaka

Japan

2184

5.3 Distribución de las 10 Ciudades Principales de EE. UU.

Ranking

Ciudad

Conteo de IPs Únicas

1

Ashburn

5808

2

Portland

5130

3

Columbus

3672

4

San Jose

2815

5

Seattle

2534

6

Westlake Village

1714

7

Boardman

855

8

Florence

776

9

San Francisco

753

10

Boulder

642

Ollama Top 10 US City Distribution

5.4 Distribución de las 10 Ciudades Principales de China Continental

Los despliegues en Hong Kong y Taiwán no se reflejan en la tabla de las 10 ciudades principales, ya que están incluidos en las estadísticas de países/regiones.

Ranking

Ciudad

País (country_name)

Conteo de IPs Únicas

1

Beijing

China

3906

2

Hangzhou

China

2447

3

Shanghai

China

1335

4

Guangzhou

China

1296

5

Shenzhen

China

768

6

Chengdu

China

469

7

Nanjing

China

329

8

Chongqing

China

259

9

Suzhou

China

257

10

Wuhan

China

249

Ollama Top 20 Global City Deployments

5.5 Comparación de Despliegues en las 10 Ciudades Principales de EE. UU. y China

Para comparar de manera más intuitiva los despliegues de Ollama a nivel de ciudad en EE. UU. y China, la siguiente tabla contrapone los conteos de despliegue por IP única para las 10 ciudades principales en ambos países:

Ranking

Ciudad de EE. UU. (Top 10)

Conteo de IPs Únicas en EE. UU.

Ciudad de China (Top 10)

Conteo de IPs Únicas en China

1

Ashburn

5808

Beijing

3906

2

Portland

5130

Hangzhou

2447

3

Columbus

3672

Shanghai

1335

4

San Jose

2815

Guangzhou

1296

5

Seattle

2534

Shenzhen

768

6

Westlake Village

1714

Chengdu

469

7

Boardman

855

Nanjing

329

8

Florence

776

Chongqing

259

9

San Francisco

753

Suzhou

257

10

Boulder

642

Wuhan

249

Ollama US-China Top 10 City Deployment Comparison

Breve Comentario:

  • Volumen de Ciudades Líderes: Las 3 principales ciudades de EE. UU. (Ashburn, Portland, Columbus) tienen cada una más de 3.000 IP únicas con despliegues de Ollama. La ciudad principal de China (Beijing) tiene más de 3.000 despliegues, y su segunda ciudad (Hangzhou) tiene más de 2.000.

  • Centros Tecnológicos y Económicos: Muchas de las ciudades listadas en ambos países son centros de innovación tecnológica o regiones económicas importantes bien conocidas.

  • Regiones de Centros de Datos: La inclusión de ciudades de EE. UU. como Ashburn también refleja que las instancias de Ollama pueden estar desplegadas en gran medida dentro de servidores en la nube y centros de datos.

  • Diferencias de Distribución: En general, el número total de IPs en las 10 principales ciudades de EE. UU. es significativamente mayor que en las 10 principales ciudades de China. Sin embargo, ambos países muestran un patrón en el que unas pocas ciudades centrales representan la gran mayoría de los despliegues de Ollama.

Esta comparación a nivel de ciudad revela además que la promoción y aplicación de Ollama, como herramienta de desarrollo, está estrechamente vinculada a los ecosistemas tecnológicos regionales y al desarrollo industrial.

6. Análisis de Modelos

6.1 Breve Descripción General de Modelos de IA, Parámetros y Cuantización

Ollama soporta una variedad de modelos de lenguaje grande de código abierto. Estos modelos se distinguen típicamente por las siguientes características:

6.1.1 Familias de Modelos Comunes

La comunidad de código abierto actual ha visto un auge en excelentes familias de LLM, cada una con sus propias características:

  • Serie Llama (Meta AI): Como Llama 2, Llama 3, Code Llama. Conocida por sus potentes capacidades generales y amplio soporte comunitario, lo que lleva a numerosas versiones afinadas. Modelos como llama3.1, hermes3 vistos en nuestros datos a menudo se basan en la arquitectura Llama.

  • Serie Mistral (Mistral AI): Como Mistral 7B, Mixtral 8x7B. Gana atención por su eficiencia y alto rendimiento, especialmente sus modelos MoE (Mixture of Experts).

  • Serie Gemma (Google): Como Gemma 2B, Gemma 7B. Modelos de peso abierto lanzados por Google, con tecnología derivada de sus modelos Gemini más potentes.

  • Serie Phi (Microsoft): Como Phi-2, Phi-3. Se centra en modelos de tamaño pequeño pero capaces, enfatizando los "SLMs (Small Language Models)".

  • Serie DeepSeek (DeepSeek AI): Como DeepSeek Coder, DeepSeek LLM. Modelos de IA chinos que destacan en codificación y tareas generales.

  • Serie Qwen (Alibaba Tongyi Qianwen): Como Qwen1.5. Una serie de modelos lanzados por Alibaba DAMO Academy, que soportan múltiples idiomas y tareas.

  • Hay muchos otros modelos excelentes, como Yi (01.AI), Command R (Cohere), etc.

Ollama, a través de su mecanismo Modelfile, permite a los usuarios utilizar fácilmente estos modelos base o sus versiones afinadas. Los nombres de los modelos a menudo siguen el formato familia:tamaño-variante-cuantización, por ejemplo, llama3:8b-instruct-q4_K_M.

6.1.2 Parámetros del Modelo (Tamaño de Parámetros)

El número de parámetros del modelo (generalmente en B - Miles de millones; o M - Millones) es un indicador importante de la escala y capacidad potencial de un modelo. Los tamaños de parámetros comunes incluyen:

  • Modelos Pequeños: < 7B (ej. 1.5B, 2B, 3B). Suelen ejecutarse rápido con bajo consumo de recursos, adecuados para tareas específicas o entornos con recursos limitados.

  • Modelos Medianos: 7B, 8B, 13B. Logran un buen equilibrio entre capacidad y consumo de recursos, actualmente uno de los tamaños más populares en la comunidad.

  • Modelos Grandes: 30B, 33B, 40B, 70B+. Generalmente más capaces, pero también requieren más recursos computacionales (RAM, VRAM) y tiempos de inferencia más largos.

El campo parameter_size en nuestros datos (ej. "8.0B", "7B", "134.52M") indica esto.

6.1.3 Versiones de Cuantización (Nivel de Cuantización)

La cuantización es una técnica para reducir el tamaño del modelo y acelerar la inferencia al disminuir la precisión numérica de los pesos del modelo (ej. de coma flotante de 16 bits FP16 a entero de 4 bits INT4).

  • Niveles de Cuantización Comunes: Ollama y el formato GGUF (utilizado por Llama.cpp) soportan varias estrategias de cuantización, como Q2_K, Q3_K_S, Q3_K_M, Q3_K_L, Q4_0, Q4_K_M, Q5_K_M, Q6_K, Q8_0, etc.

    • El número (ej. 2, 3, 4, 5, 6, 8) indica aproximadamente el número de bits.

    • Las cuantizaciones de la serie K (ej. Q4_K_M) son métodos de cuantización mejorados introducidos en llama.cpp, que generalmente logran un mejor rendimiento con la misma cantidad de bits.

    • _S, _M, _L suelen denotar diferentes variantes de K-quants, afectando diferentes partes del modelo.

    • F16 (FP16) representa coma flotante de 16 bits, a menudo considerada sin cuantizar o una versión de cuantización base. F32 (FP32) es precisión completa.

  • Compromiso: Una mayor cuantización (menor número de bits) resulta en modelos más pequeños y rápidos, pero generalmente conlleva cierta pérdida de rendimiento (el modelo funciona peor). Los usuarios deben elegir según su hardware y requisitos de calidad del modelo.

El campo quantization_level en nuestros datos (ej. "Q4_K_M", "F16") indica esto.

6.2 Nombres de Modelos Populares Principales

La siguiente tabla muestra las 10 principales etiquetas de modelo clasificadas por el número de despliegues por IP única, incluyendo información sobre su familia, tamaño de parámetros y nivel de cuantización.

Ranking

Nombre del Modelo (model_name)

Despliegues por IP Única

Total de Instancias Desplegadas

1

llama3:latest

12659

24628

2

deepseek-r1:latest

12572

24578

3

mistral:latest

11163

22638

4

qwen:latest

9868

21007

5

llama3:8b-text-q4_K_S

9845

20980

6

smollm2:135m

4058

5016

7

llama2:latest

3124

3928

8

hermes3:8b

2856

3372

9

llama3.1:8b

2714

3321

10

qwen2.5:1.5b

2668

3391

Ollama Top Popular Model Names

(Nota: Despliegues por IP Única se refiere al número de direcciones IP únicas que han desplegado al menos una instancia de esta etiqueta de modelo. Total de Instancias Desplegadas se refiere al número total de veces que esta etiqueta de modelo aparece en la lista models en todas las IPs. Una IP podría apuntar a la misma etiqueta de modelo varias veces a través de diferentes medios o registros, o una IP podría ejecutar múltiples instancias de diferentes etiquetas pertenecientes al mismo modelo base.)

Observaciones Iniciales (Nombres de Modelos Populares):

  • Los modelos con la etiqueta :latest son muy comunes, como llama3:latest, deepseek-r1:latest, mistral:latest, qwen:latest. Esto indica que muchos usuarios prefieren descargar directamente la última versión de los modelos.

  • Los modelos de la serie Llama (ej. llama3:latest, llama3:8b-text-q4_K_S, llama2:latest, llama3.1:8b) ocupan múltiples puestos, mostrando su gran popularidad.

  • Los modelos de IA chinos como deepseek-r1:latest (serie DeepSeek) y qwen:latest (serie Tongyi Qianwen) también tienen un rendimiento impresionante, clasificándose alto.

  • Versiones cuantizadas específicas como llama3:8b-text-q4_K_S también entraron en el top ten, indicando la preferencia del usuario por equilibrios específicos de rendimiento/consumo de recursos.

  • Modelos pequeños como smollm2:135m y qwen2.5:1.5b también tienen un número considerable de despliegues, satisfaciendo la demanda de modelos ligeros.

6.3 Principales Familias de Modelos

La familia de modelos (details.family) representa la arquitectura base o el linaje tecnológico principal del modelo. A continuación se muestran las familias de modelos con un mayor número de despliegues según nuestro análisis de datos:

Ranking

Familia de Modelos (family)

Despliegues por IP Única (Estimado)

Total de Instancias Desplegadas (Estimado)

1

llama

~20250

~103480

2

qwen2

~17881

~61452

3

nomic-bert

~1479

~1714

4

gemma3

~1363

~2493

5

bert

~1228

~2217

6

mllama

~943

~1455

7

gemma

~596

~750

8

deepseek2

~484

~761

9

phi3

~368

~732

10

gemma2

~244

~680

Ollama Top Model Families

(Nota: Los valores específicos aquí son estimados y resumidos basados en la lista de detalles de los 50 principales modelos consultados previamente y pueden diferir ligeramente de las estadísticas globales precisas, pero la tendencia es representativa.)

Observaciones Iniciales (Familias de Modelos Populares):

  • La familia llama ostenta una posición dominante absoluta, en consonancia con que los modelos de la serie Llama son la base de muchos LLM de código abierto modernos y su propia aplicación generalizada. Su vasto ecosistema y numerosas versiones afinadas la convierten en la opción más popular.

  • qwen2 (serie Tongyi Qianwen Qwen2), como la segunda familia más grande, muestra su fuerte competitividad en China e incluso a nivel global.

  • La aparición de nomic-bert y bert es notable. Aunque no se consideran típicamente "modelos de lenguaje grande" (conversacionales), sino más bien modelos base para incrustación de texto u otro procesamiento de lenguaje natural, su alto volumen de despliegue sugiere que Ollama también se usa ampliamente para tales tareas. Ollama descarga automáticamente un modelo de incrustación predeterminado (ej. nomic-embed-text) al realizar ciertas operaciones (como generar vectores de incrustación), lo cual es probablemente la razón principal por la que estas familias se clasifican alto.

  • La serie gemma de Google (incluyendo gemma3, gemma, gemma2) también muestra tasas de adopción decentes.

  • Otras familias de modelos bien conocidas como deepseek2 y phi3 también entraron en el top ten.

  • mllama puede representar una colección de varios modelos híbridos, modificados o nombrados por la comunidad basados en Llama.

6.4 Estadísticas de Tamaño de Parámetros Originales Principales

El tamaño de los parámetros del modelo (details.parameter_size) es un indicador importante de la escala del modelo. Debido a la representación variada de los tamaños de parámetros en los datos brutos (ej. "8.0B", "7B", "134.52M"), contamos directamente estas cadenas originales. A continuación se muestran las representaciones de tamaño de parámetros con un mayor número de despliegues:

Ranking

Tamaño de Parámetros (Cadena Original)

Despliegues por IP Única (Estimado)

Total de Instancias Desplegadas (Estimado)

1

8.0B

~14480

~52577

2

7.6B

~14358

~28105

3

7.2B

~11233

~22907

4

4B

~9895

~21058

5

7B

~4943

~11738

6

134.52M

~4062

~5266

7

1.5B

~2759

~3596

8

13B

~2477

~3311

9

1.8B

~2034

~2476

10

3.2B

~1553

~2244

11

137M

~1477

~1708

12

12.2B

~1421

~2000

13

32.8B

~1254

~2840

14

14.8B

~1123

~2091

15

4.3B

~943

~1194

Ollama Top Original Parameter Size Statistics

(Nota: Los valores son estimados basados en un resumen de la información de parámetros de la lista de detalles de los 50 principales modelos consultados previamente.)

Observaciones Iniciales (Tamaños de Parámetros Populares):

  • Los modelos en la escala de 7B a 8B son la corriente principal absoluta: "8.0B", "7.6B", "7.2B", "7B" ocupan la gran mayoría de los despliegues. Esto generalmente corresponde a modelos muy populares en la comunidad, como las series Llama 2/3 7B/8B, Mistral 7B y sus diversas versiones afinadas. Logran un buen equilibrio entre rendimiento y consumo de recursos.

  • Los modelos de escala 4B también ocupan una posición importante: El alto despliegue de "4B" es notable.

  • Los modelos ligeros a nivel de millón de parámetros (M) están muy extendidos: La alta clasificación de "134.52M" y "137M" probablemente esté relacionada con la popularidad de los modelos de incrustación (como nomic-embed-text) o modelos especializados muy pequeños (como la serie smollm). Estos modelos son pequeños, rápidos y adecuados para escenarios con recursos limitados o sensibles a la latencia.

  • Demanda estable de modelos pequeños en el rango de 1B-4B: Los modelos con tamaños de parámetros como "1.5B", "1.8B", "3.2B", "4.3B" también son favorecidos por un segmento de usuarios.

  • Modelos grandes por encima de 10B: Como "13B", "12.2B", "32.8B", "14.8B", aunque no tienen tantos despliegues por IP única como el nivel de 7-8B, aún tienen un volumen de despliegue considerable, lo que indica una demanda comunitaria de modelos más capaces, a pesar de sus mayores requisitos de hardware.

6.5 Estadísticas de Nivel de Cuantización Principales

El nivel de cuantización del modelo (details.quantization_level) refleja la precisión de los pesos adoptada por el modelo para reducir el tamaño y acelerar la inferencia. A continuación se muestran los niveles de cuantización con un mayor número de despliegues:

Ranking

Nivel de Cuantización (Cadena Original)

Despliegues por IP Única (Estimado)

Total de Instancias Desplegadas (Estimado)

1

Q4_K_M

~20966

~53688

2

Q4_0

~18385

~88653

3

Q4_K_S

~9860

~21028

4

F16

~5793

~9837

5

Q8_0

~596

~1574

6

unknown

~266

~1318

7

Q5_K_M

~97

~283

8

F32

~85

~100

9

Q6_K

~60

~178

10

Q2_K

~54

~140

Ollama Top Quantization Level Statistics

(Nota: Los valores son estimados basados en un resumen de la información de cuantización de la lista de detalles de los 50 principales modelos consultados previamente.)

Observaciones Iniciales (Niveles de Cuantización Populares):

  • La cuantización de 4 bits es la solución dominante: Q4_K_M, Q4_0 y Q4_K_S, estos tres niveles de cuantización de 4 bits, encabezan absolutamente las listas. Esto indica claramente que la comunidad adopta ampliamente la cuantización de 4 bits como la solución preferida para lograr el mejor equilibrio entre el rendimiento del modelo, la velocidad de inferencia y la ocupación de recursos (especialmente VRAM).

  • F16 (coma flotante de 16 bits) todavía ocupa un lugar significativo: Como versión sin cuantizar (o solo cuantizada básicamente), el alto despliegue de F16 muestra que un número considerable de usuarios la elige para buscar la mayor fidelidad del modelo o porque tienen suficientes recursos de hardware.

  • Q8_0 (cuantización de 8 bits) como complemento: Proporciona una opción entre 4 bits y F16.

  • Aparición de valores unknown: Indica que la información del nivel de cuantización falta o no es estándar en algunos metadatos de modelos.

6.6 Distribución de la Potencia de Cómputo de IA (por Tamaño de Parámetros del Modelo): China vs. EE. UU.

Para obtener una comprensión más profunda de cómo se despliegan los modelos de diferentes escalas en los principales países, categorizamos y contamos los tamaños de parámetros de los modelos desplegados en instancias de Ollama en Estados Unidos y China. El tamaño de los parámetros a menudo se considera un indicador importante de la complejidad del modelo y la demanda potencial de potencia de cómputo de IA.

Estándar de Clasificación de Escala de Parámetros:

  • Pequeño: < 1 Mil millones de parámetros (< 1B)

  • Mediano: 1 Mil millones a < 10 Mil millones de parámetros (1B a < 10B)

  • Grande: 10 Mil millones a < 50 Mil millones de parámetros (10B a < 50B)

  • Extra Grande: >= 50 Mil millones de parámetros (>= 50B)

La siguiente tabla muestra el número de IPs únicas que despliegan modelos de diferentes escalas de parámetros en EE. UU. y China:

País

Categoría de Escala de Parámetros

Conteo de IPs Únicas

China

Small (<1B)

3313

China

Medium (1B to <10B)

4481

China

Large (10B to <50B)

1548

China

Extra Large (>=50B)

280

United States

Small (<1B)

1368

United States

Medium (1B to <10B)

6495

United States

Large (10B to <50B)

1301

United States

Extra Large (>=50B)

58

The table below shows the number of unique IPs deploying models of different parameter scales in the US and China

Insights y Análisis de Datos:

  1. Los modelos de tamaño mediano son la corriente principal, pero con enfoques diferentes:

    • Estados Unidos: Los despliegues de modelos de tamaño mediano (1B-10B) son absolutamente dominantes en EE. UU. (6495 IPs únicas).

    • China: Los modelos de tamaño mediano (4481 IPs únicas) también son el tipo más desplegado en China, pero el despliegue de modelos pequeños (<1B) en China (3313 IPs únicas) es muy considerable.

  2. Diferencia significativa en modelos pequeños: El despliegue a gran escala de modelos pequeños en China puede reflejar una preferencia por la computación de borde (edge computing), aplicaciones de IA móviles y escenarios similares.

  3. Despliegue de modelos grandes y extra grandes: China muestra una mayor actividad en la exploración de modelos grandes y extra grandes (aunque partiendo de una base menor).

  4. Implicaciones para la inversión general en potencia de cómputo: La base de EE. UU. en modelos medianos muestra la prevalencia de aplicaciones prácticas de IA. China tiene una ventaja en modelos pequeños y está explorando activamente modelos grandes.

  5. Implicaciones para las tendencias globales: Es probable que los modelos de tamaño mediano sean populares a nivel mundial. Diferentes regiones pueden tener estrategias de adopción de modelos variadas basadas en sus ecosistemas y condiciones de recursos.

Segmentando las escalas de parámetros de los modelos en China y EE. UU., podemos ver los diferentes enfoques y potenciales de desarrollo de las aplicaciones de Ollama en los dos países.

7. Insights de Red

7.1 Uso de Puertos

  • 11434 (puerto predeterminado): La gran mayoría (30.722 IPs únicas) de las instancias de Ollama se ejecutan en el puerto predeterminado 11434.

  • Otros puertos comunes: Puertos como 80 (1.619 IPs únicas), 8080 (1.571 IPs únicas), 443 (1.339 IPs únicas), etc., también se utilizan, lo que puede indicar que algunas instancias están desplegadas detrás de un proxy inverso o que los usuarios han personalizado el puerto.

7.2 Uso de Protocolos

  • HTTP: Aproximadamente 65.506 IPs únicas tienen instancias que sirven a través del protocolo HTTP.

  • HTTPS: Aproximadamente 43.765 IPs únicas tienen instancias que sirven a través del protocolo HTTPS.

La mayoría de las instancias todavía se exponen a través de HTTP no cifrado, lo que podría plantear ciertos riesgos de seguridad. (Tenga en cuenta: Una IP podría soportar tanto HTTP como HTTPS, por lo que la suma de los conteos de IP aquí puede exceder el número total de IPs únicas)

7.3 Principales Proveedores de Alojamiento (Organización AS)

El alojamiento de instancias de Ollama está altamente concentrado entre los proveedores de servicios en la nube.

Ranking

Organización AS

Conteo de IPs Únicas

Principal Proveedor Asociado

1

AMAZON-02

53658

AWS

2

AMAZON-AES

5539

AWS

3

Chinanet

4964

China Telecom

4

Hangzhou Alibaba Advertising Co.,Ltd.

2647

Alibaba Cloud

5

HENGTONG-IDC-LLC

2391

Proveedor de Alojamiento

6

Shenzhen Tencent Computer Systems Company Limited

1682

Tencent Cloud

7

CHINA UNICOM China169 Backbone

1606

China Unicom

8

Hetzner Online GmbH

972

Hetzner

9

China Unicom Beijing Province Network

746

China Unicom (Beijing)

10

LEASEWEB-USA-LAX

735

Leaseweb

Ollama instance hosting is highly concentrated among cloud service providers

AWS (AMAZON-02, AMAZON-AES) posee la mayor cuota, seguido por los principales operadores de telecomunicaciones y proveedores de servicios en la nube chinos (como Alibaba Cloud, Tencent Cloud). Otros proveedores de alojamiento como Hetzner y Leaseweb también tienen cuotas significativas.

8. Seguridad y Otras Observaciones

  • Información de Versión: Por razones de seguridad, no hemos listado estadísticas sobre las versiones de Ollama.

  • Riesgo de Exposición HTTP: Como se mencionó anteriormente, un gran número de instancias de Ollama están expuestas a través de HTTP sin cifrado TLS, lo que puede hacer que el contenido de la comunicación (ej. interacciones con modelos) sea vulnerable a la interceptación o manipulación. Se recomienda a los usuarios configurar un proxy inverso y habilitar HTTPS.

  • Accesibilidad de la API: Los datos de este informe se basan en instancias de Ollama cuya interfaz /api/tags es públicamente accesible. El número real de despliegues puede ser mayor, pero algunas instancias pueden estar desplegadas en redes privadas o tener el acceso externo restringido por firewalls.

9. Conclusión y Breve Revisión

Este informe, al analizar datos de 99.412 instancias de Ollama accesibles públicamente a nivel mundial (a través de su interfaz /api/tags), extrae las siguientes conclusiones y observaciones principales:

1. Descripción General del Despliegue Global y Distribución Geográfica:

  • Ollama, como herramienta conveniente para ejecutar modelos grandes localmente, ha sido ampliamente desplegada a nivel mundial. Este análisis identificó 99.412 IPs únicas accesibles públicamente.

  • Alta Concentración Geográfica: Estados Unidos y China son los dos países/regiones con los despliegues de Ollama más concentrados, representando colectivamente una porción significativa del total de instancias accesibles (EE. UU. 29.195, China 16.464). Países como Japón, Alemania, el Reino Unido, India y Singapur también tienen números de despliegue notables.

  • Puntos Calientes de Ciudades: En EE. UU., ciudades como Ashburn, Portland y Columbus lideran en despliegues; en China, ciudades tecnológicamente avanzadas como Beijing, Hangzhou, Shanghai y Guangzhou son las principales ubicaciones de despliegue. Esto a menudo está relacionado con la concentración de empresas tecnológicas, centros de datos y comunidades de desarrolladores.

2. Tendencias de Despliegue de Modelos de IA:

  • Etiquetas de Modelos Populares: Las etiquetas más populares son las generales más recientes como llama3:latest, deepseek-r1:latest, mistral:latest, qwen:latest. Versiones específicamente optimizadas como llama3:8b-text-q4_K_S también son favorecidas por su buen equilibrio.

  • Familias de Modelos Dominantes: La familia llama lidera por un margen absoluto, seguida por qwen2. Es notable la alta clasificación de familias de modelos de incrustación como nomic-bert y bert, posiblemente relacionada con el comportamiento predeterminado de Ollama.

  • Preferencias de Tamaño de Parámetros: Los modelos con parámetros de 7B-8B son actualmente la corriente principal. Los modelos ligeros a nivel de millón de parámetros y los modelos grandes por encima de 10B también tienen sus respectivos mercados. Una comparación entre EE. UU. y China muestra que EE. UU. despliega más modelos de tamaño mediano, mientras que China es más activa en la exploración de modelos pequeños y extra grandes.

  • Opciones de Nivel de Cuantización: La cuantización de 4 bits (especialmente Q4_K_M y Q4_0) es la opción abrumadora. F16, como opción de mayor fidelidad, también ocupa una posición importante.

  • Complejidad de los Metadatos: El análisis de los metadatos de los modelos (ej. interpretando el campo de la familia del modelo) a veces revela complejidades entre sus registros y los nombres de los modelos o la comprensión común, destacando la diversidad de la gestión de metadatos en el ecosistema de código abierto.

3. Infraestructura Técnica:

  • Entornos de Alojamiento: Un gran número de instancias de Ollama están alojadas en importantes proveedores de servicios en la nube como AWS, Alibaba Cloud, Tencent Cloud, así como en las redes de los principales operadores de telecomunicaciones nacionales.

  • Puertos de Servicio: El puerto predeterminado de Ollama 11434 es el más comúnmente utilizado, pero un número considerable de instancias también se exponen a través de puertos web estándar.

4. Evaluación Objetiva:

  • Popularidad de Ollama: Los datos muestran claramente la alta tasa de adopción de Ollama entre desarrolladores y entusiastas de la IA en todo el mundo.

  • Vitalidad del Ecosistema de Código Abierto: La diversidad de modelos populares y el uso generalizado de varias versiones de parámetros y cuantización reflejan el auge del desarrollo del ecosistema de modelos de IA de código abierto.

  • Equilibrio en las Preferencias del Usuario: Al elegir modelos, los usuarios tienden a buscar un equilibrio entre la capacidad del modelo, la eficiencia operativa y los costos de hardware.

  • Seguridad y Apertura: Un gran número de instancias permiten el acceso público a sus listas de modelos, lo que, si bien es conveniente para la comunidad, también puede plantear riesgos de seguridad.

5. Perspectivas Futuras:

  • Con la aparición de modelos más eficientes y pequeños y los avances adicionales en la tecnología de cuantización, se espera que la barrera de despliegue para Ollama siga disminuyendo.

  • La estandarización de los metadatos de los modelos y los modelos compartidos por la comunidad es crucial para mejorar la transparencia y la usabilidad del ecosistema.

En resumen, Ollama se está convirtiendo en un puente importante que conecta modelos de lenguaje grande de vanguardia con una amplia gama de desarrolladores, investigadores e incluso usuarios generales. Este análisis de datos proporciona información valiosa para comprender su estado de despliegue global actual y las preferencias de los usuarios.

Comentarios

comments.comments (0)

Please login first

Sign in