Uma Nova Perspetiva sobre a Corrida de IA EUA-China: Comparação de Implementações Ollama em 2025 e Insights sobre Tendências Globais de Modelos de IA

Ollama é uma ferramenta popular de código aberto projetada para simplificar o processo de execução, criação e partilha de grandes modelos de linguagem (LLMs) localmente. Ele agrupa pesos de modelo, configuração e dados num pacote definido por um Modelfile e fornece uma API para interagir com esses modelos. Isso permite que desenvolvedores e investigadores implementem e experimentem facilmente vários modelos avançados de IA em computadores pessoais ou servidores.

1. Introdução

Este relatório tem como objetivo revelar tendências de implementação, preferências de modelos, distribuição geográfica e características de rede, analisando dados de 174.590 instâncias Ollama implementadas globalmente.

Nota: As estatísticas de dados nos Capítulos 5 e 7 são provenientes de todas as 174.590 instâncias. Os dados no Capítulo 6 são provenientes de instâncias acessíveis. Por razões de segurança, não listámos estatísticas sobre as versões do Ollama.

Dados a partir de: 24 de abril de 2025.
Fonte do Relatório: Tenthe AI https://tenthe.com
Autor: Ryan

2. Resumo Executivo

Este relatório baseia-se na análise de dados de varredura e sondagem de API de instâncias Ollama publicamente disponíveis em todo o mundo. As principais conclusões incluem:

Globalmente, entre aproximadamente 174.590 registos inicialmente identificados via Fofa (99.412 IPs únicos), 41.021 instâncias Ollama com APIs acessíveis foram sondadas com sucesso, distribuídas por 24.038 endereços IP únicos (uma taxa de acessibilidade de aproximadamente 24,18%).
Geograficamente, os Estados Unidos e a China são os países com o maior número de implementações Ollama. Provedores de serviços em nuvem, particularmente AWS, Alibaba Cloud e Tencent Cloud, são os principais anfitriões para instâncias Ollama.
As implementações de modelos mostram diversidade, com modelos da série llama3, deepseek-r1, mistral e qwen sendo amplamente populares. Entre eles, llama3:latest e deepseek-r1:latest são as duas tags de modelo mais amplamente implementadas.
Modelos com 7B-8B parâmetros são a escolha principal para utilizadores, enquanto modelos quantizados de 4 bits como Q4_K_M e Q4_0 são amplamente adotados pelo seu bom equilíbrio entre desempenho e consumo de recursos.
A porta padrão 11434 é a mais comum, e a maioria das instâncias expõe serviços via protocolo HTTP.

3. Fontes de Dados e Metodologia

Os dados para este relatório provêm principalmente de duas etapas:

Varredura Inicial: Utilizando mecanismos de busca de espaço de rede como Fofa, com a condição app="Ollama" && is_domain=false, para identificar inicialmente potenciais instâncias Ollama implementadas globalmente. Esta etapa encontrou 174.590 registos, envolvendo 99.412 IPs únicos após deduplicação.
Verificação de API e Enriquecimento de Dados: Sondando o endpoint da API ip:port/api/tags para os endereços IP inicialmente varridos para confirmar a acessibilidade dos serviços Ollama e obter informações sobre os modelos de IA específicos implementados. Esta etapa confirmou 41.021 instâncias Ollama que responderam com sucesso (de 24.038 IPs únicos, com dados armazenados na tabela ollama).
Os dados finais são armazenados na tabela ollama.

A análise neste relatório baseia-se principalmente em dados da tabela ollama, que contém registos de APIs sondadas com sucesso e suas informações detalhadas, incluindo IP, porta, localização geográfica e a resposta JSON (contendo a lista de modelos), etc.

4. Estatísticas Gerais de Implementação

Número de registos iniciais da varredura Fofa: 174.590
Número de IPs únicos da varredura inicial Fofa: 99.412
Número de instâncias Ollama acedendo com sucesso a /api/tags: 41.021 (de registos onde status = 'success' na tabela ollama)
Número de endereços IP únicos correspondentes: 24.038 (de registos onde status = 'success' na tabela ollama)
Rácio de IPs acessíveis para IPs inicialmente identificados: (24038 / 99412) * 100% ≈ 24,18%

Isto indica que, entre todas as instâncias Ollama identificadas via Fofa, aproximadamente um quarto tem a sua interface /api/tags publicamente acessível, permitindo-nos recuperar informações sobre os modelos implementados.

5. Análise da Distribuição Geográfica

5.1 Top 20 Países/Regiões de Implementação

A tabela abaixo mostra os 20 principais países/regiões classificados pelo número de IPs únicos com instâncias Ollama.

Classificação	País/Região	Contagem de IPs Únicos
1	United States	29195
2	China	16464
3	Japan	5849
4	Germany	5438
5	United Kingdom	4014
6	India	3939
7	Singapore	3914
8	South Korea	3773
9	Ireland	3636
10	France	3599
11	Australia	3558
12	Brazil	2909
13	Canada	2763
14	South Africa	2742
15	Sweden	2113
16	Hong Kong SAR, China	1277
17	Israel	675
18	Taiwan, China	513
19	Russia	475
20	Finland	308

Top 20 Países/Regiões de Implementação do Ollama por Número de IPs Únicos

5.2 Top 20 Implementações por Cidade Global

A tabela abaixo mostra as 20 principais cidades em todo o mundo classificadas pelo número de IPs únicos com instâncias Ollama.

Classificação	Cidade	País/Região	Contagem de IPs Únicos
1	Ashburn	United States	5808
2	Portland	United States	5130
3	Singapore	Singapore	3914
4	Frankfurt am Main	Germany	3908
5	Beijing	China	3906
6	London	United Kingdom	3685
7	Columbus	United States	3672
8	Mumbai	India	3637
9	Dublin	Ireland	3631
10	Tokyo	Japan	3620
11	Sydney	Australia	3487
12	Paris	France	3175
13	San Jose	United States	2815
14	Sao Paulo	Brazil	2753
15	Cape Town	South Africa	2692
16	Montreal	Canada	2535
17	Seattle	United States	2534
18	Hangzhou	China	2447
19	Seoul	South Korea	2327
20	Osaka	Japan	2184

5.3 Distribuição das 10 Principais Cidades dos EUA

Classificação	Cidade	Contagem de IPs Únicos
1	Ashburn	5808
2	Portland	5130
3	Columbus	3672
4	San Jose	2815
5	Seattle	2534
6	Westlake Village	1714
7	Boardman	855
8	Florence	776
9	San Francisco	753
10	Boulder	642

Distribuição das 10 Principais Cidades dos EUA pelo Ollama

5.4 Distribuição das 10 Principais Cidades da China Continental

As implementações em Hong Kong e Taiwan não são refletidas na tabela das 10 principais cidades, pois já estão incluídas nas estatísticas de país/região.

Classificação	Cidade	País (`country_name`)	Contagem de IPs Únicos
1	Beijing	China	3906
2	Hangzhou	China	2447
3	Shanghai	China	1335
4	Guangzhou	China	1296
5	Shenzhen	China	768
6	Chengdu	China	469
7	Nanjing	China	329
8	Chongqing	China	259
9	Suzhou	China	257
10	Wuhan	China	249

Distribuição das 10 Principais Cidades da China Continental pelo Ollama

5.5 Comparação das 10 Principais Implementações por Cidade nos EUA e China

Para comparar de forma mais intuitiva as implementações Ollama a nível de cidade nos EUA e na China, a tabela abaixo justapõe as contagens de implementação de IPs únicos para as 10 principais cidades em ambos os países:

Classificação	Cidade dos EUA (Top 10)	Contagem de IPs Únicos dos EUA	Cidade da China (Top 10)	Contagem de IPs Únicos da China
1	Ashburn	5808	Beijing	3906
2	Portland	5130	Hangzhou	2447
3	Columbus	3672	Shanghai	1335
4	San Jose	2815	Guangzhou	1296
5	Seattle	2534	Shenzhen	768
6	Westlake Village	1714	Chengdu	469
7	Boardman	855	Nanjing	329
8	Florence	776	Chongqing	259
9	San Francisco	753	Suzhou	257
10	Boulder	642	Wuhan	249

Comparação das 10 Principais Implementações por Cidade nos EUA e China pelo Ollama

Breve Comentário:

Volume das Cidades Líderes: As 3 principais cidades dos EUA (Ashburn, Portland, Columbus) têm cada uma mais de 3.000 IPs únicos com implementações Ollama. A principal cidade da China (Beijing) tem mais de 3.000 implementações, e a sua segunda cidade (Hangzhou) tem mais de 2.000.
Centros Tecnológicos e Económicos: Muitas das cidades listadas em ambos os países são centros de inovação tecnológica bem conhecidos ou regiões económicas importantes.
Regiões de Data Center: A inclusão de cidades dos EUA como Ashburn também reflete que as instâncias Ollama podem estar amplamente implementadas em servidores em nuvem e data centers.
Diferenças de Distribuição: No geral, o número total de IPs nas 10 principais cidades dos EUA é significativamente maior do que nas 10 principais cidades da China. No entanto, ambos os países mostram um padrão onde algumas cidades centrais representam a grande maioria das implementações Ollama.

Esta comparação a nível de cidade revela ainda mais que a promoção e aplicação do Ollama, como ferramenta de desenvolvedor, estão intimamente ligadas aos ecossistemas tecnológicos regionais e ao desenvolvimento industrial.

6. Análise de Modelos

6.1 Breve Visão Geral de Modelos de IA, Parâmetros e Quantização

Ollama suporta uma variedade de grandes modelos de linguagem de código aberto. Estes modelos são tipicamente distinguidos pelas seguintes características:

6.1.1 Famílias de Modelos Comuns

A atual comunidade de código aberto tem visto um aumento de excelentes famílias de LLM, cada uma com as suas próprias características:

Série Llama (Meta AI): Como Llama 2, Llama 3, Code Llama. Conhecida pelas suas poderosas capacidades gerais e extenso suporte comunitário, levando a numerosas versões ajustadas (fine-tuned). Modelos como llama3.1, hermes3 vistos nos nossos dados são frequentemente baseados na arquitetura Llama.
Série Mistral (Mistral AI): Como Mistral 7B, Mixtral 8x7B. Ganhando atenção pela eficiência e alto desempenho, especialmente os seus modelos MoE (Mixture of Experts).
Série Gemma (Google): Como Gemma 2B, Gemma 7B. Modelos de peso aberto lançados pelo Google, com tecnologia derivada dos seus modelos Gemini mais poderosos.
Série Phi (Microsoft): Como Phi-2, Phi-3. Foca-se em modelos de tamanho pequeno mas capazes, enfatizando "SLMs (Small Language Models)".
Série DeepSeek (DeepSeek AI): Como DeepSeek Coder, DeepSeek LLM. Modelos de IA chineses que se destacam em codificação e tarefas gerais.
Série Qwen (Alibaba Tongyi Qianwen): Como Qwen1.5. Uma série de modelos lançados pela Alibaba DAMO Academy, suportando múltiplos idiomas e tarefas.
Existem muitos outros modelos excelentes, como Yi (01.AI), Command R (Cohere), etc.

Ollama, através do seu mecanismo Modelfile, permite aos utilizadores usar facilmente estes modelos base ou as suas versões ajustadas. Os nomes dos modelos seguem frequentemente o formato família:tamanho-variante-quantização, por exemplo, llama3:8b-instruct-q4_K_M.

6.1.2 Parâmetros do Modelo (Tamanho do Parâmetro)

O número de parâmetros do modelo (geralmente em B - Bilhões; ou M - Milhões) é um indicador importante da escala e capacidade potencial de um modelo. Os tamanhos de parâmetro comuns incluem:

Modelos Pequenos: < 7B (por exemplo, 1.5B, 2B, 3B). Geralmente executam rapidamente com baixo consumo de recursos, adequados para tarefas específicas ou ambientes com recursos limitados.
Modelos Médios: 7B, 8B, 13B. Alcançam um bom equilíbrio entre capacidade e consumo de recursos, sendo atualmente um dos tamanhos mais populares na comunidade.
Modelos Grandes: 30B, 33B, 40B, 70B+. Geralmente mais capazes, mas também exigem mais recursos computacionais (RAM, VRAM) e tempos de inferência mais longos.

O campo parameter_size nos nossos dados (por exemplo, "8.0B", "7B", "134.52M") indica isto.

6.1.3 Versões de Quantização (Nível de Quantização)

Quantização é uma técnica para reduzir o tamanho do modelo e acelerar a inferência diminuindo a precisão numérica dos pesos do modelo (por exemplo, de ponto flutuante de 16 bits FP16 para inteiro de 4 bits INT4).

Níveis de Quantização Comuns: Ollama e o formato GGUF (usado pelo Llama.cpp) suportam várias estratégias de quantização, como Q2_K, Q3_K_S, Q3_K_M, Q3_K_L, Q4_0, Q4_K_M, Q5_K_M, Q6_K, Q8_0, etc.
- O número (por exemplo, 2, 3, 4, 5, 6, 8) indica aproximadamente o número de bits.
- Quantizações da série K (por exemplo, Q4_K_M) são métodos de quantização melhorados introduzidos no llama.cpp, geralmente alcançando melhor desempenho com a mesma contagem de bits.
- _S, _M, _L geralmente denotam diferentes variantes de K-quants, afetando diferentes partes do modelo.
- F16 (FP16) representa ponto flutuante de 16 bits, frequentemente considerado não quantizado ou uma versão de quantização base. F32 (FP32) é precisão total.
Compromisso: Maior quantização (menor contagem de bits) resulta em modelos menores e mais rápidos, mas geralmente vem com alguma perda de desempenho (o modelo funciona pior). Os utilizadores precisam escolher com base no seu hardware e requisitos de qualidade do modelo.

O campo quantization_level nos nossos dados (por exemplo, "Q4_K_M", "F16") indica isto.

6.2 Nomes de Modelos Populares Principais

A tabela abaixo mostra as 10 principais tags de modelo classificadas pelo número de implementações de IP único, incluindo informações sobre a sua família, tamanho de parâmetro e nível de quantização.

Classificação	Nome do Modelo (model_name)	Implementações de IP Único	Total de Instâncias de Implementação
1	`llama3:latest`	12659	24628
2	`deepseek-r1:latest`	12572	24578
3	`mistral:latest`	11163	22638
4	`qwen:latest`	9868	21007
5	`llama3:8b-text-q4_K_S`	9845	20980
6	`smollm2:135m`	4058	5016
7	`llama2:latest`	3124	3928
8	`hermes3:8b`	2856	3372
9	`llama3.1:8b`	2714	3321
10	`qwen2.5:1.5b`	2668	3391

Nomes dos Modelos Populares Principais do Ollama

(Nota: Implementações de IP Único refere-se ao número de endereços IP únicos que implementaram pelo menos uma instância desta tag de modelo. Total de Instâncias de Implementação refere-se ao número total de vezes que esta tag de modelo aparece na lista models em todos os IPs. Um IP pode apontar para a mesma tag de modelo várias vezes através de diferentes meios ou registos, ou um IP pode executar várias instâncias de tags diferentes pertencentes ao mesmo modelo base.)

Observações Iniciais (Nomes de Modelos Populares):

Modelos com a tag :latest são muito comuns, como llama3:latest, deepseek-r1:latest, mistral:latest, qwen:latest. Isso indica que muitos utilizadores preferem puxar a versão mais recente dos modelos diretamente.
Modelos da série Llama (por exemplo, llama3:latest, llama3:8b-text-q4_K_S, llama2:latest, llama3.1:8b) ocupam várias posições, mostrando a sua forte popularidade.
Modelos de IA chineses como deepseek-r1:latest (série DeepSeek) e qwen:latest (série Tongyi Qianwen) também apresentam um desempenho impressionante, classificando-se em posições elevadas.
Versões quantizadas específicas como llama3:8b-text-q4_K_S também chegaram ao top dez, indicando a preferência do utilizador por equilíbrios específicos de desempenho/consumo de recursos.
Modelos pequenos como smollm2:135m e qwen2.5:1.5b também têm um número considerável de implementações, atendendo à procura por modelos leves.

6.3 Principais Famílias de Modelos

Família de modelos (details.family) representa a arquitetura base ou a linhagem tecnológica primária do modelo. Abaixo estão as famílias de modelos com um maior número de implementações com base na nossa análise de dados:

Classificação	Família de Modelos (family)	Implementações de IP Único (Estimado)	Total de Instâncias de Implementação (Estimado)
1	`llama`	~20250	~103480
2	`qwen2`	~17881	~61452
3	`nomic-bert`	~1479	~1714
4	`gemma3`	~1363	~2493
5	`bert`	~1228	~2217
6	`mllama`	~943	~1455
7	`gemma`	~596	~750
8	`deepseek2`	~484	~761
9	`phi3`	~368	~732
10	`gemma2`	~244	~680

Principais Famílias de Modelos do Ollama

(Nota: Os valores específicos aqui são estimados e resumidos com base na lista de detalhes dos 50 principais modelos consultados anteriormente e podem diferir ligeiramente das estatísticas globais precisas, mas a tendência é representativa.)

Observações Iniciais (Famílias de Modelos Populares):

A família llama detém uma posição dominante absoluta, consistente com os modelos da série Llama sendo a base para muitos LLMs modernos de código aberto e a sua própria aplicação generalizada. O seu vasto ecossistema e numerosas versões ajustadas tornam-no a escolha mais popular.
qwen2 (série Tongyi Qianwen Qwen2), como a segunda maior família, mostra a sua forte competitividade na China e mesmo globalmente.
A aparição de nomic-bert e bert é notável. Embora não sejam tipicamente considerados "grandes modelos de linguagem" (conversacionais), mas sim modelos base de incorporação de texto ou outros de processamento de linguagem natural, o seu alto volume de implementação sugere que o Ollama também é amplamente utilizado para tais tarefas. O Ollama descarrega automaticamente um modelo de incorporação padrão (por exemplo, nomic-embed-text) ao realizar certas operações (como gerar vetores de incorporação), o que é provavelmente a principal razão pela qual estas famílias se classificam em posições elevadas.
A série gemma do Google (incluindo gemma3, gemma, gemma2) também mostra taxas de adoção decentes.
Outras famílias de modelos bem conhecidas como deepseek2 e phi3 também chegaram ao top dez.
mllama pode representar uma coleção de vários modelos híbridos, modificados ou com nomes da comunidade baseados em Llama.

6.4 Estatísticas de Tamanho de Parâmetro Original Principais

O tamanho do parâmetro do modelo (details.parameter_size) é um indicador importante da escala do modelo. Devido à representação variada dos tamanhos dos parâmetros nos dados brutos (por exemplo, "8.0B", "7B", "134.52M"), contamos diretamente estas strings originais. Abaixo estão as representações de tamanho de parâmetro com um maior número de implementações:

Classificação	Tamanho do Parâmetro (String Original)	Implementações de IP Único (Estimado)	Total de Instâncias de Implementação (Estimado)
1	`8.0B`	~14480	~52577
2	`7.6B`	~14358	~28105
3	`7.2B`	~11233	~22907
4	`4B`	~9895	~21058
5	`7B`	~4943	~11738
6	`134.52M`	~4062	~5266
7	`1.5B`	~2759	~3596
8	`13B`	~2477	~3311
9	`1.8B`	~2034	~2476
10	`3.2B`	~1553	~2244
11	`137M`	~1477	~1708
12	`12.2B`	~1421	~2000
13	`32.8B`	~1254	~2840
14	`14.8B`	~1123	~2091
15	`4.3B`	~943	~1194

Estatísticas dos Principais Tamanhos de Parâmetro Original pelo Ollama

(Nota: Os valores são estimados com base num resumo das informações de parâmetro da lista de detalhes dos 50 principais modelos consultados anteriormente.)

Observações Iniciais (Tamanhos de Parâmetro Populares):

Modelos na escala de 7B a 8B são o mainstream absoluto: "8.0B", "7.6B", "7.2B", "7B" ocupam a vasta maioria das implementações. Isso corresponde tipicamente a modelos muito populares na comunidade, como as séries Llama 2/3 7B/8B, Mistral 7B, e as suas várias versões ajustadas. Eles alcançam um bom equilíbrio entre desempenho e consumo de recursos.
Modelos na escala de 4B também detêm uma posição importante: A alta implementação de "4B" é notável.
Modelos leves a nível de milhão de parâmetros (M) são generalizados: A alta classificação de "134.52M" e "137M" está provavelmente relacionada com a popularidade de modelos de incorporação (como nomic-embed-text) ou modelos especializados muito pequenos (como a série smollm). Estes modelos são pequenos, rápidos e adequados para cenários com recursos limitados ou sensíveis à latência.
Procura estável por modelos pequenos na faixa de 1B-4B: Modelos com tamanhos de parâmetro como "1.5B", "1.8B", "3.2B", "4.3B" também são favorecidos por um segmento de utilizadores.
Modelos grandes acima de 10B: Como "13B", "12.2B", "32.8B", "14.8B", embora não tenham tantas implementações de IP único quanto o nível de 7-8B, ainda têm um volume de implementação considerável, indicando uma procura comunitária por modelos mais capazes, apesar dos seus maiores requisitos de hardware.

6.5 Estatísticas de Nível de Quantização Principais

O nível de quantização do modelo (details.quantization_level) reflete a precisão do peso adotada pelo modelo para reduzir o tamanho e acelerar a inferência. Abaixo estão os níveis de quantização com um maior número de implementações:

Classificação	Nível de Quantização (String Original)	Implementações de IP Único (Estimado)	Total de Instâncias de Implementação (Estimado)
1	`Q4_K_M`	~20966	~53688
2	`Q4_0`	~18385	~88653
3	`Q4_K_S`	~9860	~21028
4	`F16`	~5793	~9837
5	`Q8_0`	~596	~1574
6	`unknown`	~266	~1318
7	`Q5_K_M`	~97	~283
8	`F32`	~85	~100
9	`Q6_K`	~60	~178
10	`Q2_K`	~54	~140

Estatísticas dos Principais Níveis de Quantização pelo Ollama

(Nota: Os valores são estimados com base num resumo das informações de quantização da lista de detalhes dos 50 principais modelos consultados anteriormente.)

Observações Iniciais (Níveis de Quantização Populares):

Quantização de 4 bits é a solução dominante: Q4_K_M, Q4_0 e Q4_K_S, estes três níveis de quantização de 4 bits, lideram absolutamente as tabelas. Isso indica claramente que a comunidade adota amplamente a quantização de 4 bits como a solução preferida para alcançar o melhor equilíbrio entre o desempenho do modelo, a velocidade de inferência e a ocupação de recursos (especialmente VRAM).
F16 (ponto flutuante de 16 bits) ainda detém um lugar significativo: Como uma versão não quantizada (ou apenas quantizada de forma básica), a alta implementação de F16 mostra que um número considerável de utilizadores a escolhe para buscar a maior fidelidade do modelo ou porque possuem recursos de hardware suficientes.
Q8_0 (quantização de 8 bits) como um suplemento: Fornece uma opção entre 4 bits e F16.
Aparição de valores unknown: Indica que as informações do nível de quantização estão ausentes ou não padronizadas em alguns metadados do modelo.

6.6 Distribuição do Poder Computacional de IA (por Tamanho do Parâmetro do Modelo): China vs. EUA

Para obter uma compreensão mais profunda de como modelos de diferentes escalas são implementados nos principais países, categorizamos e contamos os tamanhos dos parâmetros dos modelos implementados em instâncias Ollama nos Estados Unidos e na China. O tamanho do parâmetro é frequentemente considerado um indicador importante da complexidade do modelo e da potencial procura por poder computacional de IA.

Padrão de Classificação de Escala de Parâmetro:

Pequeno: < 1 Bilhão de parâmetros (< 1B)
Médio: 1 Bilhão a < 10 Bilhões de parâmetros (1B a < 10B)
Grande: 10 Bilhões a < 50 Bilhões de parâmetros (10B a < 50B)
Extra Grande: >= 50 Bilhões de parâmetros (>= 50B)

A tabela abaixo mostra o número de IPs únicos que implementam modelos de diferentes escalas de parâmetro nos EUA e na China:

País	Categoria de Escala de Parâmetro	Contagem de IPs Únicos
China	Pequeno (<1B)	3313
China	Médio (1B a <10B)	4481
China	Grande (10B a <50B)	1548
China	Extra Grande (>=50B)	280
United States	Pequeno (<1B)	1368
United States	Médio (1B a <10B)	6495
United States	Grande (10B a <50B)	1301
United States	Extra Grande (>=50B)	58

Insights e Análise de Dados:

Modelos de tamanho médio são mainstream, mas com focos diferentes:
- Estados Unidos: As implementações de modelos de tamanho médio (1B-10B) são absolutamente dominantes nos EUA (6495 IPs únicos).
- China: Modelos de tamanho médio (4481 IPs únicos) também são o tipo mais implementado na China, mas a implementação de modelos pequenos (<1B) na China (3313 IPs únicos) é muito considerável.
Diferença significativa em modelos pequenos: A implementação em larga escala de modelos pequenos na China pode refletir uma preferência por computação de borda (edge computing), aplicações de IA móvel e cenários semelhantes.
Implementação de modelos grandes e extra grandes: A China mostra maior atividade na exploração de modelos grandes e extra grandes (embora a partir de uma base menor).
Inferência sobre o investimento geral em poder computacional: A base dos EUA em modelos de tamanho médio mostra a prevalência de aplicações práticas de IA. A China tem uma vantagem em modelos pequenos e está a explorar ativamente modelos grandes.
Implicações para tendências globais: Modelos de tamanho médio são provavelmente populares globalmente. Diferentes regiões podem ter estratégias de adoção de modelos variadas com base nos seus ecossistemas e condições de recursos.

Ao segmentar as escalas de parâmetro de modelos na China e nos EUA, podemos ver os diferentes focos e potenciais de desenvolvimento das aplicações Ollama nos dois países.

7. Insights de Rede

7.1 Uso de Portas

11434 (porta padrão): A vasta maioria (30.722 IPs únicos) das instâncias Ollama executam na porta padrão 11434.
Outras portas comuns: Portas como 80 (1.619 IPs únicos), 8080 (1.571 IPs únicos), 443 (1.339 IPs únicos), etc., também são usadas, o que pode indicar que algumas instâncias são implementadas atrás de um proxy reverso ou que os utilizadores personalizaram a porta.

7.2 Uso de Protocolos

HTTP: Aproximadamente 65.506 IPs únicos têm instâncias a servir via protocolo HTTP.
HTTPS: Aproximadamente 43.765 IPs únicos têm instâncias a servir via protocolo HTTPS.

A maioria das instâncias ainda é exposta via HTTP não encriptado, o que pode representar certos riscos de segurança. (Por favor, note: Um IP pode suportar tanto HTTP como HTTPS, portanto, a soma das contagens de IP aqui pode exceder o número total de IPs únicos)

7.3 Principais Provedores de Alojamento (Organização AS)

O alojamento de instâncias Ollama está altamente concentrado entre os provedores de serviços em nuvem.

Classificação	Organização AS	Contagem de IPs Únicos	Provedor Principal Associado
1	AMAZON-02	53658	AWS
2	AMAZON-AES	5539	AWS
3	Chinanet	4964	China Telecom
4	Hangzhou Alibaba Advertising Co.,Ltd.	2647	Alibaba Cloud
5	HENGTONG-IDC-LLC	2391	Provedor de Alojamento
6	Shenzhen Tencent Computer Systems Company Limited	1682	Tencent Cloud
7	CHINA UNICOM China169 Backbone	1606	China Unicom
8	Hetzner Online GmbH	972	Hetzner
9	China Unicom Beijing Province Network	746	China Unicom (Beijing)
10	LEASEWEB-USA-LAX	735	Leaseweb

A AWS (AMAZON-02, AMAZON-AES) detém a maior quota, seguida pelos principais operadores de telecomunicações chineses e provedores de serviços em nuvem (como Alibaba Cloud, Tencent Cloud). Outros provedores de alojamento como Hetzner e Leaseweb também têm quotas significativas.

8. Segurança e Outras Observações

Informações de Versão: Por razões de segurança, não listámos estatísticas sobre as versões do Ollama.
Risco de Exposição HTTP: Como mencionado anteriormente, um grande número de instâncias Ollama são expostas via HTTP sem encriptação TLS, o que pode tornar o conteúdo da comunicação (por exemplo, interações com modelos) vulnerável a interceção ou adulteração. É aconselhável que os utilizadores configurem um proxy reverso e ativem HTTPS.
Acessibilidade da API: Os dados neste relatório baseiam-se em instâncias Ollama cuja interface /api/tags é publicamente acessível. O número real de implementações pode ser superior, mas algumas instâncias podem estar implementadas em redes privadas ou ter acesso externo restrito por firewalls.

9. Conclusão e Breve Revisão

Este relatório, ao analisar dados de 99.412 instâncias Ollama publicamente acessíveis globalmente (através da sua interface /api/tags), tira as seguintes conclusões e observações principais:

1. Visão Geral da Implementação Global e Distribuição Geográfica:

Ollama, como uma ferramenta conveniente para executar grandes modelos localmente, foi amplamente implementado globalmente. Esta análise identificou 99.412 IPs únicos publicamente acessíveis.
Alta Concentração Geográfica: Os Estados Unidos e a China são os dois países/regiões com as implementações Ollama mais concentradas, representando coletivamente uma porção significativa do total de instâncias acessíveis (EUA 29.195, China 16.464). Países como Japão, Alemanha, Reino Unido, Índia e Singapura também têm números de implementação notáveis.
Pontos Quentes nas Cidades: Nos EUA, cidades como Ashburn, Portland e Columbus lideram em implementações; na China, cidades tecnologicamente avançadas como Beijing, Hangzhou, Shanghai e Guangzhou são os principais locais de implementação. Isso está frequentemente relacionado à concentração de empresas de tecnologia, data centers e comunidades de desenvolvedores.

2. Tendências de Implementação de Modelos de IA:

Tags de Modelo Populares: Tags gerais mais recentes como llama3:latest, deepseek-r1:latest, mistral:latest, qwen:latest são as mais populares. Versões especificamente otimizadas como llama3:8b-text-q4_K_S também são favorecidas pelo seu bom equilíbrio.
Famílias de Modelos Dominantes: A família llama lidera por uma margem absoluta, seguida por qwen2. A alta classificação de famílias de modelos de incorporação como nomic-bert e bert é notável, possivelmente relacionada ao comportamento padrão do Ollama.
Preferências de Tamanho de Parâmetro: Modelos com 7B-8B parâmetros são atualmente o mainstream. Modelos leves a nível de milhão de parâmetros e modelos grandes acima de 10B também têm os seus respetivos mercados. Uma comparação EUA-China mostra que os EUA implementam mais modelos de tamanho médio, enquanto a China é mais ativa na exploração de modelos pequenos e extra grandes.
Escolhas de Nível de Quantização: A quantização de 4 bits (especialmente Q4_K_M e Q4_0) é a escolha esmagadora. F16, como uma opção de maior fidelidade, também detém uma posição importante.
Complexidade dos Metadados: A análise dos metadados dos modelos (por exemplo, a interpretação do campo da família do modelo) por vezes revela complexidades entre os seus registos e os nomes dos modelos ou a compreensão comum, destacando a diversidade da gestão de metadados no ecossistema de código aberto.

3. Infraestrutura Técnica:

Ambientes de Alojamento: Um grande número de instâncias Ollama são alojadas nos principais provedores de serviços em nuvem como AWS, Alibaba Cloud, Tencent Cloud, bem como nas redes dos principais operadores de telecomunicações nacionais.
Portas de Serviço: A porta padrão do Ollama 11434 é a mais comum, mas um número considerável de instâncias também é exposto através de portas web padrão.

4. Avaliação Objetiva:

Popularidade do Ollama: Os dados mostram claramente a alta taxa de adoção do Ollama entre desenvolvedores e entusiastas de IA em todo o mundo.
Vibrância do Ecossistema de Código Aberto: A diversidade de modelos populares e o uso generalizado de várias versões de parâmetros e quantização refletem o desenvolvimento em expansão do ecossistema de modelos de IA de código aberto.
Equilíbrio nas Preferências do Utilizador: Ao escolher modelos, os utilizadores tendem a buscar um equilíbrio entre a capacidade do modelo, a eficiência operacional e os custos de hardware.
Segurança e Abertura: Um grande número de instâncias permite acesso público às suas listas de modelos, o que, embora conveniente para a comunidade, também pode representar riscos de segurança.

5. Perspetivas Futuras:

Com o surgimento de modelos mais eficientes e menores e o avanço adicional na tecnologia de quantização, a barreira de implementação para o Ollama deverá continuar a diminuir.
A padronização dos metadados dos modelos e dos modelos partilhados pela comunidade é crucial para aumentar a transparência e a usabilidade do ecossistema.

Em resumo, o Ollama está a tornar-se uma ponte importante que conecta modelos de linguagem grandes de ponta com uma ampla gama de desenvolvedores, investigadores e até utilizadores gerais. Esta análise de dados fornece insights valiosos para entender o seu status atual de implementação global e as preferências dos utilizadores.