Una Nueva Perspectiva sobre la Carrera de IA entre EE. UU. y China: Comparación de Despliegues de Ollama en 2025 e Insights sobre Tendencias Globales de Modelos de IA

Ollama es una popular herramienta de código abierto diseñada para simplificar el proceso de ejecutar, crear y compartir modelos de lenguaje grande (LLM) localmente. Empaqueta pesos de modelos, configuración y datos en un paquete definido por un Modelfile, y proporciona una API para interactuar con estos modelos. Esto permite a desarrolladores e investigadores desplegar y experimentar fácilmente con varios modelos avanzados de IA en computadoras personales o servidores.

1. Introducción

Este informe tiene como objetivo revelar tendencias de despliegue, preferencias de modelos, distribución geográfica y características de red mediante el análisis de datos de 174.590 instancias de Ollama desplegadas globalmente.

Nota: Las estadísticas de datos en el Capítulo 5 y el Capítulo 7 provienen de las 174.590 instancias. Los datos en el Capítulo 6 provienen de instancias accesibles. Por razones de seguridad, no hemos listado estadísticas sobre las versiones de Ollama.

Datos a fecha de: 24 de abril de 2025.
Fuente del Informe: Tenthe AI https://tenthe.com
Autor: Ryan

2. Resumen Ejecutivo

Este informe se basa en el análisis de datos de escaneo y sondeo de API de instancias de Ollama disponibles públicamente en todo el mundo. Los hallazgos clave incluyen:

A nivel mundial, entre aproximadamente 174.590 registros identificados inicialmente a través de Fofa (99.412 IP únicas), se sondearon con éxito 41.021 instancias de Ollama con APIs accesibles, distribuidas en 24.038 direcciones IP únicas (una tasa de accesibilidad de aproximadamente 24,18%).
Geográficamente, Estados Unidos y China son los países con el mayor número de despliegues de Ollama. Los proveedores de servicios en la nube, particularmente AWS, Alibaba Cloud y Tencent Cloud, son los principales anfitriones de las instancias de Ollama.
Los despliegues de modelos muestran diversidad, con modelos de las series llama3, deepseek-r1, mistral y qwen siendo ampliamente populares. Entre ellos, llama3:latest y deepseek-r1:latest son las dos etiquetas de modelo más desplegadas.
Los modelos con parámetros de 7B-8B son la opción principal para los usuarios, mientras que los modelos cuantizados de 4 bits como Q4_K_M y Q4_0 son ampliamente adoptados por su buen equilibrio entre rendimiento y consumo de recursos.
El puerto predeterminado 11434 es el más comúnmente utilizado, y la mayoría de las instancias exponen servicios a través del protocolo HTTP.

3. Fuentes de Datos y Metodología

Los datos para este informe provienen principalmente de dos etapas:

Escaneo Inicial: Utilizando motores de búsqueda de espacio de red como Fofa, con la condición app="Ollama" && is_domain=false, para identificar inicialmente posibles instancias de Ollama desplegadas globalmente. Esta etapa encontró 174.590 registros, que involucran 99.412 IP únicas después de la deduplicación.
Verificación de API y Enriquecimiento de Datos: Sondear el endpoint de API ip:port/api/tags para las direcciones IP inicialmente escaneadas con el fin de confirmar la accesibilidad de los servicios de Ollama y obtener información sobre los modelos de IA específicos desplegados. Esta etapa confirmó 41.021 instancias de Ollama que respondieron con éxito (de 24.038 IP únicas, con datos almacenados en la tabla ollama).
Los datos finales se almacenan en la tabla ollama.

El análisis en este informe se basa principalmente en datos de la tabla ollama, que contiene registros de APIs sondeadas con éxito y su información detallada, incluyendo IP, puerto, ubicación geográfica y la respuesta JSON (que contiene la lista de modelos), etc.

4. Estadísticas Generales de Despliegue

Número de registros iniciales del escaneo de Fofa: 174.590
Número de IPs únicas del escaneo inicial de Fofa: 99.412
Número de instancias de Ollama que accedieron con éxito a /api/tags: 41.021 (de registros donde status = 'success' en la tabla ollama)
Número de direcciones IP únicas correspondientes: 24.038 (de registros donde status = 'success' en la tabla ollama)
Ratio de IPs accesibles respecto a las IPs inicialmente identificadas: (24038 / 99412) * 100% ≈ 24,18%

Esto indica que, entre todas las instancias de Ollama identificadas a través de Fofa, aproximadamente una cuarta parte tiene su interfaz /api/tags públicamente accesible, lo que nos permite recuperar información sobre sus modelos desplegados.

5. Análisis de Distribución Geográfica

5.1 Top 20 Países/Regiones de Despliegue

La siguiente tabla muestra los 20 principales países/regiones clasificados por el número de IPs únicas con instancias de Ollama.

Ranking	País/Región	Conteo de IPs Únicas
1	United States	29195
2	China	16464
3	Japan	5849
4	Germany	5438
5	United Kingdom	4014
6	India	3939
7	Singapore	3914
8	South Korea	3773
9	Ireland	3636
10	France	3599
11	Australia	3558
12	Brazil	2909
13	Canada	2763
14	South Africa	2742
15	Sweden	2113
16	Hong Kong SAR, China	1277
17	Israel	675
18	Taiwan, China	513
19	Russia	475
20	Finland	308

Ollama Top 20 Deployment Countries/Regions

5.2 Top 20 Ciudades Globales de Despliegue

La siguiente tabla muestra las 20 principales ciudades a nivel mundial clasificadas por el número de IPs únicas con instancias de Ollama.

Ranking	Ciudad	País/Región	Conteo de IPs Únicas
1	Ashburn	United States	5808
2	Portland	United States	5130
3	Singapore	Singapore	3914
4	Frankfurt am Main	Germany	3908
5	Beijing	China	3906
6	London	United Kingdom	3685
7	Columbus	United States	3672
8	Mumbai	India	3637
9	Dublin	Ireland	3631
10	Tokyo	Japan	3620
11	Sydney	Australia	3487
12	Paris	France	3175
13	San Jose	United States	2815
14	Sao Paulo	Brazil	2753
15	Cape Town	South Africa	2692
16	Montreal	Canada	2535
17	Seattle	United States	2534
18	Hangzhou	China	2447
19	Seoul	South Korea	2327
20	Osaka	Japan	2184

5.3 Distribución de las 10 Ciudades Principales de EE. UU.

Ranking	Ciudad	Conteo de IPs Únicas
1	Ashburn	5808
2	Portland	5130
3	Columbus	3672
4	San Jose	2815
5	Seattle	2534
6	Westlake Village	1714
7	Boardman	855
8	Florence	776
9	San Francisco	753
10	Boulder	642

5.4 Distribución de las 10 Ciudades Principales de China Continental

Los despliegues en Hong Kong y Taiwán no se reflejan en la tabla de las 10 ciudades principales, ya que están incluidos en las estadísticas de países/regiones.

Ranking	Ciudad	País (`country_name`)	Conteo de IPs Únicas
1	Beijing	China	3906
2	Hangzhou	China	2447
3	Shanghai	China	1335
4	Guangzhou	China	1296
5	Shenzhen	China	768
6	Chengdu	China	469
7	Nanjing	China	329
8	Chongqing	China	259
9	Suzhou	China	257
10	Wuhan	China	249

5.5 Comparación de Despliegues en las 10 Ciudades Principales de EE. UU. y China

Para comparar de manera más intuitiva los despliegues de Ollama a nivel de ciudad en EE. UU. y China, la siguiente tabla contrapone los conteos de despliegue por IP única para las 10 ciudades principales en ambos países:

Ranking	Ciudad de EE. UU. (Top 10)	Conteo de IPs Únicas en EE. UU.	Ciudad de China (Top 10)	Conteo de IPs Únicas en China
1	Ashburn	5808	Beijing	3906
2	Portland	5130	Hangzhou	2447
3	Columbus	3672	Shanghai	1335
4	San Jose	2815	Guangzhou	1296
5	Seattle	2534	Shenzhen	768
6	Westlake Village	1714	Chengdu	469
7	Boardman	855	Nanjing	329
8	Florence	776	Chongqing	259
9	San Francisco	753	Suzhou	257
10	Boulder	642	Wuhan	249

Ollama US-China Top 10 City Deployment Comparison

Breve Comentario:

Volumen de Ciudades Líderes: Las 3 principales ciudades de EE. UU. (Ashburn, Portland, Columbus) tienen cada una más de 3.000 IP únicas con despliegues de Ollama. La ciudad principal de China (Beijing) tiene más de 3.000 despliegues, y su segunda ciudad (Hangzhou) tiene más de 2.000.
Centros Tecnológicos y Económicos: Muchas de las ciudades listadas en ambos países son centros de innovación tecnológica o regiones económicas importantes bien conocidas.
Regiones de Centros de Datos: La inclusión de ciudades de EE. UU. como Ashburn también refleja que las instancias de Ollama pueden estar desplegadas en gran medida dentro de servidores en la nube y centros de datos.
Diferencias de Distribución: En general, el número total de IPs en las 10 principales ciudades de EE. UU. es significativamente mayor que en las 10 principales ciudades de China. Sin embargo, ambos países muestran un patrón en el que unas pocas ciudades centrales representan la gran mayoría de los despliegues de Ollama.

Esta comparación a nivel de ciudad revela además que la promoción y aplicación de Ollama, como herramienta de desarrollo, está estrechamente vinculada a los ecosistemas tecnológicos regionales y al desarrollo industrial.

6. Análisis de Modelos

6.1 Breve Descripción General de Modelos de IA, Parámetros y Cuantización

Ollama soporta una variedad de modelos de lenguaje grande de código abierto. Estos modelos se distinguen típicamente por las siguientes características:

6.1.1 Familias de Modelos Comunes

La comunidad de código abierto actual ha visto un auge en excelentes familias de LLM, cada una con sus propias características:

Serie Llama (Meta AI): Como Llama 2, Llama 3, Code Llama. Conocida por sus potentes capacidades generales y amplio soporte comunitario, lo que lleva a numerosas versiones afinadas. Modelos como llama3.1, hermes3 vistos en nuestros datos a menudo se basan en la arquitectura Llama.
Serie Mistral (Mistral AI): Como Mistral 7B, Mixtral 8x7B. Gana atención por su eficiencia y alto rendimiento, especialmente sus modelos MoE (Mixture of Experts).
Serie Gemma (Google): Como Gemma 2B, Gemma 7B. Modelos de peso abierto lanzados por Google, con tecnología derivada de sus modelos Gemini más potentes.
Serie Phi (Microsoft): Como Phi-2, Phi-3. Se centra en modelos de tamaño pequeño pero capaces, enfatizando los "SLMs (Small Language Models)".
Serie DeepSeek (DeepSeek AI): Como DeepSeek Coder, DeepSeek LLM. Modelos de IA chinos que destacan en codificación y tareas generales.
Serie Qwen (Alibaba Tongyi Qianwen): Como Qwen1.5. Una serie de modelos lanzados por Alibaba DAMO Academy, que soportan múltiples idiomas y tareas.
Hay muchos otros modelos excelentes, como Yi (01.AI), Command R (Cohere), etc.

Ollama, a través de su mecanismo Modelfile, permite a los usuarios utilizar fácilmente estos modelos base o sus versiones afinadas. Los nombres de los modelos a menudo siguen el formato familia:tamaño-variante-cuantización, por ejemplo, llama3:8b-instruct-q4_K_M.

6.1.2 Parámetros del Modelo (Tamaño de Parámetros)

El número de parámetros del modelo (generalmente en B - Miles de millones; o M - Millones) es un indicador importante de la escala y capacidad potencial de un modelo. Los tamaños de parámetros comunes incluyen:

Modelos Pequeños: < 7B (ej. 1.5B, 2B, 3B). Suelen ejecutarse rápido con bajo consumo de recursos, adecuados para tareas específicas o entornos con recursos limitados.
Modelos Medianos: 7B, 8B, 13B. Logran un buen equilibrio entre capacidad y consumo de recursos, actualmente uno de los tamaños más populares en la comunidad.
Modelos Grandes: 30B, 33B, 40B, 70B+. Generalmente más capaces, pero también requieren más recursos computacionales (RAM, VRAM) y tiempos de inferencia más largos.

El campo parameter_size en nuestros datos (ej. "8.0B", "7B", "134.52M") indica esto.

6.1.3 Versiones de Cuantización (Nivel de Cuantización)

La cuantización es una técnica para reducir el tamaño del modelo y acelerar la inferencia al disminuir la precisión numérica de los pesos del modelo (ej. de coma flotante de 16 bits FP16 a entero de 4 bits INT4).

Niveles de Cuantización Comunes: Ollama y el formato GGUF (utilizado por Llama.cpp) soportan varias estrategias de cuantización, como Q2_K, Q3_K_S, Q3_K_M, Q3_K_L, Q4_0, Q4_K_M, Q5_K_M, Q6_K, Q8_0, etc.
- El número (ej. 2, 3, 4, 5, 6, 8) indica aproximadamente el número de bits.
- Las cuantizaciones de la serie K (ej. Q4_K_M) son métodos de cuantización mejorados introducidos en llama.cpp, que generalmente logran un mejor rendimiento con la misma cantidad de bits.
- _S, _M, _L suelen denotar diferentes variantes de K-quants, afectando diferentes partes del modelo.
- F16 (FP16) representa coma flotante de 16 bits, a menudo considerada sin cuantizar o una versión de cuantización base. F32 (FP32) es precisión completa.
Compromiso: Una mayor cuantización (menor número de bits) resulta en modelos más pequeños y rápidos, pero generalmente conlleva cierta pérdida de rendimiento (el modelo funciona peor). Los usuarios deben elegir según su hardware y requisitos de calidad del modelo.

El campo quantization_level en nuestros datos (ej. "Q4_K_M", "F16") indica esto.

6.2 Nombres de Modelos Populares Principales

La siguiente tabla muestra las 10 principales etiquetas de modelo clasificadas por el número de despliegues por IP única, incluyendo información sobre su familia, tamaño de parámetros y nivel de cuantización.

Ranking	Nombre del Modelo (model_name)	Despliegues por IP Única	Total de Instancias Desplegadas
1	`llama3:latest`	12659	24628
2	`deepseek-r1:latest`	12572	24578
3	`mistral:latest`	11163	22638
4	`qwen:latest`	9868	21007
5	`llama3:8b-text-q4_K_S`	9845	20980
6	`smollm2:135m`	4058	5016
7	`llama2:latest`	3124	3928
8	`hermes3:8b`	2856	3372
9	`llama3.1:8b`	2714	3321
10	`qwen2.5:1.5b`	2668	3391

(Nota: Despliegues por IP Única se refiere al número de direcciones IP únicas que han desplegado al menos una instancia de esta etiqueta de modelo. Total de Instancias Desplegadas se refiere al número total de veces que esta etiqueta de modelo aparece en la lista models en todas las IPs. Una IP podría apuntar a la misma etiqueta de modelo varias veces a través de diferentes medios o registros, o una IP podría ejecutar múltiples instancias de diferentes etiquetas pertenecientes al mismo modelo base.)

Observaciones Iniciales (Nombres de Modelos Populares):

Los modelos con la etiqueta :latest son muy comunes, como llama3:latest, deepseek-r1:latest, mistral:latest, qwen:latest. Esto indica que muchos usuarios prefieren descargar directamente la última versión de los modelos.
Los modelos de la serie Llama (ej. llama3:latest, llama3:8b-text-q4_K_S, llama2:latest, llama3.1:8b) ocupan múltiples puestos, mostrando su gran popularidad.
Los modelos de IA chinos como deepseek-r1:latest (serie DeepSeek) y qwen:latest (serie Tongyi Qianwen) también tienen un rendimiento impresionante, clasificándose alto.
Versiones cuantizadas específicas como llama3:8b-text-q4_K_S también entraron en el top ten, indicando la preferencia del usuario por equilibrios específicos de rendimiento/consumo de recursos.
Modelos pequeños como smollm2:135m y qwen2.5:1.5b también tienen un número considerable de despliegues, satisfaciendo la demanda de modelos ligeros.

6.3 Principales Familias de Modelos

La familia de modelos (details.family) representa la arquitectura base o el linaje tecnológico principal del modelo. A continuación se muestran las familias de modelos con un mayor número de despliegues según nuestro análisis de datos:

Ranking	Familia de Modelos (family)	Despliegues por IP Única (Estimado)	Total de Instancias Desplegadas (Estimado)
1	`llama`	~20250	~103480
2	`qwen2`	~17881	~61452
3	`nomic-bert`	~1479	~1714
4	`gemma3`	~1363	~2493
5	`bert`	~1228	~2217
6	`mllama`	~943	~1455
7	`gemma`	~596	~750
8	`deepseek2`	~484	~761
9	`phi3`	~368	~732
10	`gemma2`	~244	~680

(Nota: Los valores específicos aquí son estimados y resumidos basados en la lista de detalles de los 50 principales modelos consultados previamente y pueden diferir ligeramente de las estadísticas globales precisas, pero la tendencia es representativa.)

Observaciones Iniciales (Familias de Modelos Populares):

La familia llama ostenta una posición dominante absoluta, en consonancia con que los modelos de la serie Llama son la base de muchos LLM de código abierto modernos y su propia aplicación generalizada. Su vasto ecosistema y numerosas versiones afinadas la convierten en la opción más popular.
qwen2 (serie Tongyi Qianwen Qwen2), como la segunda familia más grande, muestra su fuerte competitividad en China e incluso a nivel global.
La aparición de nomic-bert y bert es notable. Aunque no se consideran típicamente "modelos de lenguaje grande" (conversacionales), sino más bien modelos base para incrustación de texto u otro procesamiento de lenguaje natural, su alto volumen de despliegue sugiere que Ollama también se usa ampliamente para tales tareas. Ollama descarga automáticamente un modelo de incrustación predeterminado (ej. nomic-embed-text) al realizar ciertas operaciones (como generar vectores de incrustación), lo cual es probablemente la razón principal por la que estas familias se clasifican alto.
La serie gemma de Google (incluyendo gemma3, gemma, gemma2) también muestra tasas de adopción decentes.
Otras familias de modelos bien conocidas como deepseek2 y phi3 también entraron en el top ten.
mllama puede representar una colección de varios modelos híbridos, modificados o nombrados por la comunidad basados en Llama.

6.4 Estadísticas de Tamaño de Parámetros Originales Principales

El tamaño de los parámetros del modelo (details.parameter_size) es un indicador importante de la escala del modelo. Debido a la representación variada de los tamaños de parámetros en los datos brutos (ej. "8.0B", "7B", "134.52M"), contamos directamente estas cadenas originales. A continuación se muestran las representaciones de tamaño de parámetros con un mayor número de despliegues:

Ranking	Tamaño de Parámetros (Cadena Original)	Despliegues por IP Única (Estimado)	Total de Instancias Desplegadas (Estimado)
1	`8.0B`	~14480	~52577
2	`7.6B`	~14358	~28105
3	`7.2B`	~11233	~22907
4	`4B`	~9895	~21058
5	`7B`	~4943	~11738
6	`134.52M`	~4062	~5266
7	`1.5B`	~2759	~3596
8	`13B`	~2477	~3311
9	`1.8B`	~2034	~2476
10	`3.2B`	~1553	~2244
11	`137M`	~1477	~1708
12	`12.2B`	~1421	~2000
13	`32.8B`	~1254	~2840
14	`14.8B`	~1123	~2091
15	`4.3B`	~943	~1194

Ollama Top Original Parameter Size Statistics

(Nota: Los valores son estimados basados en un resumen de la información de parámetros de la lista de detalles de los 50 principales modelos consultados previamente.)

Observaciones Iniciales (Tamaños de Parámetros Populares):

Los modelos en la escala de 7B a 8B son la corriente principal absoluta: "8.0B", "7.6B", "7.2B", "7B" ocupan la gran mayoría de los despliegues. Esto generalmente corresponde a modelos muy populares en la comunidad, como las series Llama 2/3 7B/8B, Mistral 7B y sus diversas versiones afinadas. Logran un buen equilibrio entre rendimiento y consumo de recursos.
Los modelos de escala 4B también ocupan una posición importante: El alto despliegue de "4B" es notable.
Los modelos ligeros a nivel de millón de parámetros (M) están muy extendidos: La alta clasificación de "134.52M" y "137M" probablemente esté relacionada con la popularidad de los modelos de incrustación (como nomic-embed-text) o modelos especializados muy pequeños (como la serie smollm). Estos modelos son pequeños, rápidos y adecuados para escenarios con recursos limitados o sensibles a la latencia.
Demanda estable de modelos pequeños en el rango de 1B-4B: Los modelos con tamaños de parámetros como "1.5B", "1.8B", "3.2B", "4.3B" también son favorecidos por un segmento de usuarios.
Modelos grandes por encima de 10B: Como "13B", "12.2B", "32.8B", "14.8B", aunque no tienen tantos despliegues por IP única como el nivel de 7-8B, aún tienen un volumen de despliegue considerable, lo que indica una demanda comunitaria de modelos más capaces, a pesar de sus mayores requisitos de hardware.

6.5 Estadísticas de Nivel de Cuantización Principales

El nivel de cuantización del modelo (details.quantization_level) refleja la precisión de los pesos adoptada por el modelo para reducir el tamaño y acelerar la inferencia. A continuación se muestran los niveles de cuantización con un mayor número de despliegues:

Ranking	Nivel de Cuantización (Cadena Original)	Despliegues por IP Única (Estimado)	Total de Instancias Desplegadas (Estimado)
1	`Q4_K_M`	~20966	~53688
2	`Q4_0`	~18385	~88653
3	`Q4_K_S`	~9860	~21028
4	`F16`	~5793	~9837
5	`Q8_0`	~596	~1574
6	`unknown`	~266	~1318
7	`Q5_K_M`	~97	~283
8	`F32`	~85	~100
9	`Q6_K`	~60	~178
10	`Q2_K`	~54	~140

Ollama Top Quantization Level Statistics

(Nota: Los valores son estimados basados en un resumen de la información de cuantización de la lista de detalles de los 50 principales modelos consultados previamente.)

Observaciones Iniciales (Niveles de Cuantización Populares):

La cuantización de 4 bits es la solución dominante: Q4_K_M, Q4_0 y Q4_K_S, estos tres niveles de cuantización de 4 bits, encabezan absolutamente las listas. Esto indica claramente que la comunidad adopta ampliamente la cuantización de 4 bits como la solución preferida para lograr el mejor equilibrio entre el rendimiento del modelo, la velocidad de inferencia y la ocupación de recursos (especialmente VRAM).
F16 (coma flotante de 16 bits) todavía ocupa un lugar significativo: Como versión sin cuantizar (o solo cuantizada básicamente), el alto despliegue de F16 muestra que un número considerable de usuarios la elige para buscar la mayor fidelidad del modelo o porque tienen suficientes recursos de hardware.
Q8_0 (cuantización de 8 bits) como complemento: Proporciona una opción entre 4 bits y F16.
Aparición de valores unknown: Indica que la información del nivel de cuantización falta o no es estándar en algunos metadatos de modelos.

6.6 Distribución de la Potencia de Cómputo de IA (por Tamaño de Parámetros del Modelo): China vs. EE. UU.

Para obtener una comprensión más profunda de cómo se despliegan los modelos de diferentes escalas en los principales países, categorizamos y contamos los tamaños de parámetros de los modelos desplegados en instancias de Ollama en Estados Unidos y China. El tamaño de los parámetros a menudo se considera un indicador importante de la complejidad del modelo y la demanda potencial de potencia de cómputo de IA.

Estándar de Clasificación de Escala de Parámetros:

Pequeño: < 1 Mil millones de parámetros (< 1B)
Mediano: 1 Mil millones a < 10 Mil millones de parámetros (1B a < 10B)
Grande: 10 Mil millones a < 50 Mil millones de parámetros (10B a < 50B)
Extra Grande: >= 50 Mil millones de parámetros (>= 50B)

La siguiente tabla muestra el número de IPs únicas que despliegan modelos de diferentes escalas de parámetros en EE. UU. y China:

País	Categoría de Escala de Parámetros	Conteo de IPs Únicas
China	Small (<1B)	3313
China	Medium (1B to <10B)	4481
China	Large (10B to <50B)	1548
China	Extra Large (>=50B)	280
United States	Small (<1B)	1368
United States	Medium (1B to <10B)	6495
United States	Large (10B to <50B)	1301
United States	Extra Large (>=50B)	58

The table below shows the number of unique IPs deploying models of different parameter scales in the US and China

Insights y Análisis de Datos:

Los modelos de tamaño mediano son la corriente principal, pero con enfoques diferentes:
- Estados Unidos: Los despliegues de modelos de tamaño mediano (1B-10B) son absolutamente dominantes en EE. UU. (6495 IPs únicas).
- China: Los modelos de tamaño mediano (4481 IPs únicas) también son el tipo más desplegado en China, pero el despliegue de modelos pequeños (<1B) en China (3313 IPs únicas) es muy considerable.
Diferencia significativa en modelos pequeños: El despliegue a gran escala de modelos pequeños en China puede reflejar una preferencia por la computación de borde (edge computing), aplicaciones de IA móviles y escenarios similares.
Despliegue de modelos grandes y extra grandes: China muestra una mayor actividad en la exploración de modelos grandes y extra grandes (aunque partiendo de una base menor).
Implicaciones para la inversión general en potencia de cómputo: La base de EE. UU. en modelos medianos muestra la prevalencia de aplicaciones prácticas de IA. China tiene una ventaja en modelos pequeños y está explorando activamente modelos grandes.
Implicaciones para las tendencias globales: Es probable que los modelos de tamaño mediano sean populares a nivel mundial. Diferentes regiones pueden tener estrategias de adopción de modelos variadas basadas en sus ecosistemas y condiciones de recursos.

Segmentando las escalas de parámetros de los modelos en China y EE. UU., podemos ver los diferentes enfoques y potenciales de desarrollo de las aplicaciones de Ollama en los dos países.

7. Insights de Red

7.1 Uso de Puertos

11434 (puerto predeterminado): La gran mayoría (30.722 IPs únicas) de las instancias de Ollama se ejecutan en el puerto predeterminado 11434.
Otros puertos comunes: Puertos como 80 (1.619 IPs únicas), 8080 (1.571 IPs únicas), 443 (1.339 IPs únicas), etc., también se utilizan, lo que puede indicar que algunas instancias están desplegadas detrás de un proxy inverso o que los usuarios han personalizado el puerto.

7.2 Uso de Protocolos

HTTP: Aproximadamente 65.506 IPs únicas tienen instancias que sirven a través del protocolo HTTP.
HTTPS: Aproximadamente 43.765 IPs únicas tienen instancias que sirven a través del protocolo HTTPS.

La mayoría de las instancias todavía se exponen a través de HTTP no cifrado, lo que podría plantear ciertos riesgos de seguridad. (Tenga en cuenta: Una IP podría soportar tanto HTTP como HTTPS, por lo que la suma de los conteos de IP aquí puede exceder el número total de IPs únicas)

7.3 Principales Proveedores de Alojamiento (Organización AS)

El alojamiento de instancias de Ollama está altamente concentrado entre los proveedores de servicios en la nube.

Ranking	Organización AS	Conteo de IPs Únicas	Principal Proveedor Asociado
1	AMAZON-02	53658	AWS
2	AMAZON-AES	5539	AWS
3	Chinanet	4964	China Telecom
4	Hangzhou Alibaba Advertising Co.,Ltd.	2647	Alibaba Cloud
5	HENGTONG-IDC-LLC	2391	Proveedor de Alojamiento
6	Shenzhen Tencent Computer Systems Company Limited	1682	Tencent Cloud
7	CHINA UNICOM China169 Backbone	1606	China Unicom
8	Hetzner Online GmbH	972	Hetzner
9	China Unicom Beijing Province Network	746	China Unicom (Beijing)
10	LEASEWEB-USA-LAX	735	Leaseweb

Ollama instance hosting is highly concentrated among cloud service providers

AWS (AMAZON-02, AMAZON-AES) posee la mayor cuota, seguido por los principales operadores de telecomunicaciones y proveedores de servicios en la nube chinos (como Alibaba Cloud, Tencent Cloud). Otros proveedores de alojamiento como Hetzner y Leaseweb también tienen cuotas significativas.

8. Seguridad y Otras Observaciones

Información de Versión: Por razones de seguridad, no hemos listado estadísticas sobre las versiones de Ollama.
Riesgo de Exposición HTTP: Como se mencionó anteriormente, un gran número de instancias de Ollama están expuestas a través de HTTP sin cifrado TLS, lo que puede hacer que el contenido de la comunicación (ej. interacciones con modelos) sea vulnerable a la interceptación o manipulación. Se recomienda a los usuarios configurar un proxy inverso y habilitar HTTPS.
Accesibilidad de la API: Los datos de este informe se basan en instancias de Ollama cuya interfaz /api/tags es públicamente accesible. El número real de despliegues puede ser mayor, pero algunas instancias pueden estar desplegadas en redes privadas o tener el acceso externo restringido por firewalls.

9. Conclusión y Breve Revisión

Este informe, al analizar datos de 99.412 instancias de Ollama accesibles públicamente a nivel mundial (a través de su interfaz /api/tags), extrae las siguientes conclusiones y observaciones principales:

1. Descripción General del Despliegue Global y Distribución Geográfica:

Ollama, como herramienta conveniente para ejecutar modelos grandes localmente, ha sido ampliamente desplegada a nivel mundial. Este análisis identificó 99.412 IPs únicas accesibles públicamente.
Alta Concentración Geográfica: Estados Unidos y China son los dos países/regiones con los despliegues de Ollama más concentrados, representando colectivamente una porción significativa del total de instancias accesibles (EE. UU. 29.195, China 16.464). Países como Japón, Alemania, el Reino Unido, India y Singapur también tienen números de despliegue notables.
Puntos Calientes de Ciudades: En EE. UU., ciudades como Ashburn, Portland y Columbus lideran en despliegues; en China, ciudades tecnológicamente avanzadas como Beijing, Hangzhou, Shanghai y Guangzhou son las principales ubicaciones de despliegue. Esto a menudo está relacionado con la concentración de empresas tecnológicas, centros de datos y comunidades de desarrolladores.

2. Tendencias de Despliegue de Modelos de IA:

Etiquetas de Modelos Populares: Las etiquetas más populares son las generales más recientes como llama3:latest, deepseek-r1:latest, mistral:latest, qwen:latest. Versiones específicamente optimizadas como llama3:8b-text-q4_K_S también son favorecidas por su buen equilibrio.
Familias de Modelos Dominantes: La familia llama lidera por un margen absoluto, seguida por qwen2. Es notable la alta clasificación de familias de modelos de incrustación como nomic-bert y bert, posiblemente relacionada con el comportamiento predeterminado de Ollama.
Preferencias de Tamaño de Parámetros: Los modelos con parámetros de 7B-8B son actualmente la corriente principal. Los modelos ligeros a nivel de millón de parámetros y los modelos grandes por encima de 10B también tienen sus respectivos mercados. Una comparación entre EE. UU. y China muestra que EE. UU. despliega más modelos de tamaño mediano, mientras que China es más activa en la exploración de modelos pequeños y extra grandes.
Opciones de Nivel de Cuantización: La cuantización de 4 bits (especialmente Q4_K_M y Q4_0) es la opción abrumadora. F16, como opción de mayor fidelidad, también ocupa una posición importante.
Complejidad de los Metadatos: El análisis de los metadatos de los modelos (ej. interpretando el campo de la familia del modelo) a veces revela complejidades entre sus registros y los nombres de los modelos o la comprensión común, destacando la diversidad de la gestión de metadatos en el ecosistema de código abierto.

3. Infraestructura Técnica:

Entornos de Alojamiento: Un gran número de instancias de Ollama están alojadas en importantes proveedores de servicios en la nube como AWS, Alibaba Cloud, Tencent Cloud, así como en las redes de los principales operadores de telecomunicaciones nacionales.
Puertos de Servicio: El puerto predeterminado de Ollama 11434 es el más comúnmente utilizado, pero un número considerable de instancias también se exponen a través de puertos web estándar.

4. Evaluación Objetiva:

Popularidad de Ollama: Los datos muestran claramente la alta tasa de adopción de Ollama entre desarrolladores y entusiastas de la IA en todo el mundo.
Vitalidad del Ecosistema de Código Abierto: La diversidad de modelos populares y el uso generalizado de varias versiones de parámetros y cuantización reflejan el auge del desarrollo del ecosistema de modelos de IA de código abierto.
Equilibrio en las Preferencias del Usuario: Al elegir modelos, los usuarios tienden a buscar un equilibrio entre la capacidad del modelo, la eficiencia operativa y los costos de hardware.
Seguridad y Apertura: Un gran número de instancias permiten el acceso público a sus listas de modelos, lo que, si bien es conveniente para la comunidad, también puede plantear riesgos de seguridad.

5. Perspectivas Futuras:

Con la aparición de modelos más eficientes y pequeños y los avances adicionales en la tecnología de cuantización, se espera que la barrera de despliegue para Ollama siga disminuyendo.
La estandarización de los metadatos de los modelos y los modelos compartidos por la comunidad es crucial para mejorar la transparencia y la usabilidad del ecosistema.

En resumen, Ollama se está convirtiendo en un puente importante que conecta modelos de lenguaje grande de vanguardia con una amplia gama de desarrolladores, investigadores e incluso usuarios generales. Este análisis de datos proporciona información valiosa para comprender su estado de despliegue global actual y las preferencias de los usuarios.