Một Góc Nhìn Mới về Cuộc Đua AI Mỹ-Trung: So Sánh Triển Khai Ollama Năm 2025 và Phân Tích Xu Hướng Mô Hình AI Toàn Cầu

Ollama là một công cụ mã nguồn mở phổ biến được thiết kế để đơn giản hóa quá trình chạy, tạo và chia sẻ các mô hình ngôn ngữ lớn (LLMs) cục bộ. Nó đóng gói trọng số mô hình, cấu hình và dữ liệu vào một gói được định nghĩa bởi một Modelfile, và cung cấp một API để tương tác với các mô hình này. Điều này cho phép các nhà phát triển và nhà nghiên cứu dễ dàng triển khai và thử nghiệm với nhiều mô hình AI tiên tiến khác nhau trên máy tính cá nhân hoặc máy chủ.

1. Giới thiệu

Báo cáo này nhằm mục đích tiết lộ các xu hướng triển khai, sở thích mô hình, phân bổ địa lý và đặc điểm mạng bằng cách phân tích dữ liệu từ 174.590 phiên bản Ollama được triển khai trên toàn cầu.

Lưu ý: Dữ liệu thống kê trong Chương 5 và Chương 7 được lấy từ tất cả 174.590 phiên bản. Dữ liệu trong Chương 6 được lấy từ các phiên bản có thể truy cập. Vì lý do bảo mật, chúng tôi không liệt kê thống kê về các phiên bản Ollama.

Dữ liệu tính đến ngày: 24 tháng 4 năm 2025.
Nguồn báo cáo: Tenthe AI https://tenthe.com
Tác giả: Ryan

2. Tóm tắt Báo cáo

Báo cáo này dựa trên phân tích dữ liệu quét và thăm dò API của các phiên bản Ollama có sẵn công khai trên toàn thế giới. Các phát hiện chính bao gồm:

Trên toàn cầu, trong số khoảng 174.590 bản ghi ban đầu được xác định qua Fofa (99.412 IP duy nhất), 41.021 phiên bản Ollama với API có thể truy cập đã được thăm dò thành công, phân bổ trên 24.038 địa chỉ IP duy nhất (tỷ lệ truy cập được khoảng 24,18%).
Về mặt địa lý, Hoa Kỳ và Trung Quốc là các quốc gia có số lượng triển khai Ollama cao nhất. Các nhà cung cấp dịch vụ đám mây, đặc biệt là AWS, Alibaba Cloud và Tencent Cloud, là các máy chủ chính cho các phiên bản Ollama.
Việc triển khai mô hình cho thấy sự đa dạng, với các mô hình sê-ri llama3, deepseek-r1, mistral và qwen được phổ biến rộng rãi. Trong số đó, llama3:latest và deepseek-r1:latest là hai thẻ mô hình được triển khai rộng rãi nhất.
Các mô hình có tham số 7B-8B là lựa chọn hàng đầu của người dùng, trong khi các mô hình lượng tử hóa 4-bit như Q4_K_M và Q4_0 được áp dụng rộng rãi vì sự cân bằng tốt giữa hiệu suất và tiêu thụ tài nguyên.
Cổng mặc định 11434 được sử dụng phổ biến nhất và hầu hết các phiên bản đều cung cấp dịch vụ qua giao thức HTTP.

3. Nguồn Dữ liệu và Phương pháp luận

Dữ liệu cho báo cáo này chủ yếu đến từ hai giai đoạn:

Quét ban đầu: Sử dụng các công cụ tìm kiếm không gian mạng như Fofa, với điều kiện app="Ollama" && is_domain=false, để xác định ban đầu các phiên bản Ollama tiềm năng được triển khai trên toàn cầu. Giai đoạn này tìm thấy 174.590 bản ghi, liên quan đến 99.412 IP duy nhất sau khi loại bỏ trùng lặp.
Xác minh API và Làm giàu Dữ liệu: Thăm dò điểm cuối API ip:port/api/tags cho các địa chỉ IP được quét ban đầu để xác nhận khả năng truy cập của các dịch vụ Ollama và thu thập thông tin về các mô hình AI cụ thể được triển khai. Giai đoạn này đã xác nhận 41.021 phiên bản Ollama phản hồi thành công (từ 24.038 IP duy nhất, với dữ liệu được lưu trữ trong bảng ollama).
Dữ liệu cuối cùng được lưu trữ trong bảng ollama.

Phân tích trong báo cáo này chủ yếu dựa trên dữ liệu từ bảng ollama, chứa các bản ghi về các API được thăm dò thành công và thông tin chi tiết của chúng, bao gồm IP, cổng, vị trí địa lý và phản hồi JSON (chứa danh sách mô hình), v.v.

4. Thống kê Triển khai Tổng thể

Số lượng bản ghi ban đầu từ quét Fofa: 174.590
Số lượng IP duy nhất từ quét Fofa ban đầu: 99.412
Số lượng phiên bản Ollama truy cập thành công /api/tags: 41.021 (từ các bản ghi có status = 'success' trong bảng ollama)
Số lượng địa chỉ IP duy nhất tương ứng: 24.038 (từ các bản ghi có status = 'success' trong bảng ollama)
Tỷ lệ IP có thể truy cập so với IP được xác định ban đầu: (24038 / 99412) * 100% ≈ 24,18%

Điều này cho thấy rằng trong số tất cả các phiên bản Ollama được xác định qua Fofa, khoảng một phần tư có giao diện /api/tags của họ có thể truy cập công khai, cho phép chúng tôi truy xuất thông tin về các mô hình được triển khai của họ.

5. Phân tích Phân bổ Địa lý

5.1 Top 20 Quốc gia/Khu vực Triển khai

Bảng dưới đây cho thấy 20 quốc gia/khu vực hàng đầu được xếp hạng theo số lượng IP duy nhất có phiên bản Ollama.

Hạng	Quốc gia/Khu vực	Số lượng IP duy nhất
1	Hoa Kỳ	29195
2	Trung Quốc	16464
3	Nhật Bản	5849
4	Đức	5438
5	Vương quốc Anh	4014
6	Ấn Độ	3939
7	Singapore	3914
8	Hàn Quốc	3773
9	Ireland	3636
10	Pháp	3599
11	Úc	3558
12	Brazil	2909
13	Canada	2763
14	Nam Phi	2742
15	Thụy Điển	2113
16	Hồng Kông (TQ)	1277
17	Israel	675
18	Đài Loan (TQ)	513
19	Nga	475
20	Phần Lan	308

Ollama Top 20 Deployment Countries/Regions

5.2 Top 20 Thành phố Triển khai Toàn cầu

Bảng dưới đây cho thấy 20 thành phố hàng đầu trên toàn thế giới được xếp hạng theo số lượng IP duy nhất có phiên bản Ollama.

Hạng	Thành phố	Quốc gia/Khu vực	Số lượng IP duy nhất
1	Ashburn	Hoa Kỳ	5808
2	Portland	Hoa Kỳ	5130
3	Singapore	Singapore	3914
4	Frankfurt am Main	Đức	3908
5	Bắc Kinh	Trung Quốc	3906
6	London	Vương quốc Anh	3685
7	Columbus	Hoa Kỳ	3672
8	Mumbai	Ấn Độ	3637
9	Dublin	Ireland	3631
10	Tokyo	Nhật Bản	3620
11	Sydney	Úc	3487
12	Paris	Pháp	3175
13	San Jose	Hoa Kỳ	2815
14	Sao Paulo	Brazil	2753
15	Cape Town	Nam Phi	2692
16	Montreal	Canada	2535
17	Seattle	Hoa Kỳ	2534
18	Hàng Châu	Trung Quốc	2447
19	Seoul	Hàn Quốc	2327
20	Osaka	Nhật Bản	2184

5.3 Top 10 Phân bổ Thành phố tại Hoa Kỳ

Hạng	Thành phố	Số lượng IP duy nhất
1	Ashburn	5808
2	Portland	5130
3	Columbus	3672
4	San Jose	2815
5	Seattle	2534
6	Westlake Village	1714
7	Boardman	855
8	Florence	776
9	San Francisco	753
10	Boulder	642

5.4 Top 10 Phân bổ Thành phố tại Trung Quốc Đại lục

Các triển khai tại Hồng Kông và Đài Loan không được phản ánh trong bảng Top 10 thành phố vì chúng đã được bao gồm trong thống kê quốc gia/khu vực.

Hạng	Thành phố	Quốc gia (`country_name`)	Số lượng IP duy nhất
1	Bắc Kinh	Trung Quốc	3906
2	Hàng Châu	Trung Quốc	2447
3	Thượng Hải	Trung Quốc	1335
4	Quảng Châu	Trung Quốc	1296
5	Thâm Quyến	Trung Quốc	768
6	Thành Đô	Trung Quốc	469
7	Nam Kinh	Trung Quốc	329
8	Trùng Khánh	Trung Quốc	259
9	Tô Châu	Trung Quốc	257
10	Vũ Hán	Trung Quốc	249

5.5 So sánh Top 10 Thành phố Triển khai Mỹ-Trung

Để so sánh trực quan hơn việc triển khai Ollama ở cấp thành phố tại Mỹ và Trung Quốc, bảng dưới đây đối chiếu số lượng triển khai IP duy nhất cho 10 thành phố hàng đầu ở cả hai quốc gia:

Hạng	Thành phố Mỹ (Top 10)	Số lượng IP duy nhất (Mỹ)	Thành phố Trung Quốc (Top 10)	Số lượng IP duy nhất (TQ)
1	Ashburn	5808	Bắc Kinh	3906
2	Portland	5130	Hàng Châu	2447
3	Columbus	3672	Thượng Hải	1335
4	San Jose	2815	Quảng Châu	1296
5	Seattle	2534	Thâm Quyến	768
6	Westlake Village	1714	Thành Đô	469
7	Boardman	855	Nam Kinh	329
8	Florence	776	Trùng Khánh	259
9	San Francisco	753	Tô Châu	257
10	Boulder	642	Vũ Hán	249

Ollama US-China Top 10 City Deployment Comparison

Bình luận ngắn:

Số lượng Thành phố Dẫn đầu: 3 thành phố hàng đầu của Mỹ (Ashburn, Portland, Columbus) mỗi thành phố có hơn 3.000 IP duy nhất triển khai Ollama. Thành phố hàng đầu của Trung Quốc (Bắc Kinh) có hơn 3.000 lượt triển khai, và thành phố thứ hai (Hàng Châu) có hơn 2.000.
Trung tâm Công nghệ và Kinh tế: Nhiều thành phố được liệt kê ở cả hai quốc gia là các trung tâm đổi mới công nghệ nổi tiếng hoặc các khu vực kinh tế quan trọng.
Khu vực Trung tâm Dữ liệu: Việc bao gồm các thành phố của Mỹ như Ashburn cũng phản ánh rằng các phiên bản Ollama có thể được triển khai phần lớn trong các máy chủ đám mây và trung tâm dữ liệu.
Sự khác biệt về Phân bổ: Nhìn chung, tổng số IP ở Top 10 thành phố của Mỹ cao hơn đáng kể so với Top 10 thành phố của Trung Quốc. Tuy nhiên, cả hai quốc gia đều cho thấy một mô hình trong đó một vài thành phố cốt lõi chiếm phần lớn các lượt triển khai Ollama.

So sánh cấp thành phố này cho thấy thêm rằng việc quảng bá và ứng dụng Ollama, với tư cách là một công cụ dành cho nhà phát triển, có mối liên hệ chặt chẽ với các hệ sinh thái công nghệ và phát triển công nghiệp của khu vực.

6. Phân tích Mô hình

6.1 Tổng quan ngắn về Mô hình AI, Tham số và Lượng tử hóa

Ollama hỗ trợ nhiều loại mô hình ngôn ngữ lớn mã nguồn mở. Các mô hình này thường được phân biệt bởi các đặc điểm sau:

6.1.1 Các Họ Mô hình Phổ biến

Cộng đồng mã nguồn mở hiện tại đã chứng kiến sự bùng nổ của các họ LLM xuất sắc, mỗi họ có những đặc điểm riêng:

Sê-ri Llama (Meta AI): Chẳng hạn như Llama 2, Llama 3, Code Llama. Nổi tiếng với khả năng tổng quát mạnh mẽ và sự hỗ trợ cộng đồng rộng rãi, dẫn đến nhiều phiên bản tinh chỉnh. Các mô hình như llama3.1, hermes3 được thấy trong dữ liệu của chúng tôi thường dựa trên kiến trúc Llama.
Sê-ri Mistral (Mistral AI): Chẳng hạn như Mistral 7B, Mixtral 8x7B. Thu hút sự chú ý nhờ hiệu quả và hiệu suất cao, đặc biệt là các mô hình MoE (Mixture of Experts - Hỗn hợp Chuyên gia) của nó.
Sê-ri Gemma (Google): Chẳng hạn như Gemma 2B, Gemma 7B. Các mô hình trọng số mở do Google phát hành, với công nghệ bắt nguồn từ các mô hình Gemini mạnh mẽ hơn của họ.
Sê-ri Phi (Microsoft): Chẳng hạn như Phi-2, Phi-3. Tập trung vào các mô hình kích thước nhỏ nhưng có khả năng, nhấn mạnh "SLMs (Small Language Models - Mô hình Ngôn ngữ Nhỏ)".
Sê-ri DeepSeek (DeepSeek AI): Chẳng hạn như DeepSeek Coder, DeepSeek LLM. Các mô hình AI của Trung Quốc vượt trội trong việc viết mã và các tác vụ tổng quát.
Sê-ri Qwen (Alibaba Tongyi Qianwen): Chẳng hạn như Qwen1.5. Một loạt các mô hình do Viện DAMO của Alibaba ra mắt, hỗ trợ nhiều ngôn ngữ và tác vụ.
Còn nhiều mô hình xuất sắc khác, chẳng hạn như Yi (01.AI), Command R (Cohere), v.v.

Ollama, thông qua cơ chế Modelfile của mình, cho phép người dùng dễ dàng sử dụng các mô hình cơ sở này hoặc các phiên bản tinh chỉnh của chúng. Tên mô hình thường theo định dạng family:size-variant-quantization, ví dụ: llama3:8b-instruct-q4_K_M.

6.1.2 Tham số Mô hình (Kích thước Tham số)

Số lượng tham số mô hình (thường tính bằng B - Tỷ; hoặc M - Triệu) là một chỉ số quan trọng về quy mô và khả năng tiềm ẩn của mô hình. Các kích thước tham số phổ biến bao gồm:

Mô hình Nhỏ: < 7B (ví dụ: 1.5B, 2B, 3B). Thường chạy nhanh với mức tiêu thụ tài nguyên thấp, phù hợp cho các tác vụ cụ thể hoặc môi trường hạn chế tài nguyên.
Mô hình Trung bình: 7B, 8B, 13B. Đạt được sự cân bằng tốt giữa khả năng và tiêu thụ tài nguyên, hiện là một trong những kích thước phổ biến nhất trong cộng đồng.
Mô hình Lớn: 30B, 33B, 40B, 70B+. Thường có khả năng cao hơn nhưng cũng đòi hỏi nhiều tài nguyên tính toán hơn (RAM, VRAM) và thời gian suy luận lâu hơn.

Trường parameter_size trong dữ liệu của chúng tôi (ví dụ: "8.0B", "7B", "134.52M") cho biết điều này.

6.1.3 Phiên bản Lượng tử hóa (Mức độ Lượng tử hóa)

Lượng tử hóa là một kỹ thuật để giảm kích thước mô hình và tăng tốc độ suy luận bằng cách giảm độ chính xác số học của trọng số mô hình (ví dụ: từ dấu phẩy động 16-bit FP16 xuống số nguyên 4-bit INT4).

Các Mức độ Lượng tử hóa Phổ biến: Định dạng Ollama và GGUF (được sử dụng bởi Llama.cpp) hỗ trợ nhiều chiến lược lượng tử hóa khác nhau, chẳng hạn như Q2_K, Q3_K_S, Q3_K_M, Q3_K_L, Q4_0, Q4_K_M, Q5_K_M, Q6_K, Q8_0, v.v.
- Con số (ví dụ: 2, 3, 4, 5, 6, 8) gần như cho biết số lượng bit.
- Lượng tử hóa sê-ri K (ví dụ: Q4_K_M) là các phương pháp lượng tử hóa cải tiến được giới thiệu trong llama.cpp, thường đạt được hiệu suất tốt hơn ở cùng số bit.
- _S, _M, _L thường biểu thị các biến thể khác nhau của K-quants, ảnh hưởng đến các phần khác nhau của mô hình.
- F16 (FP16) đại diện cho dấu phẩy động 16-bit, thường được coi là phiên bản chưa lượng tử hóa hoặc phiên bản lượng tử hóa cơ sở. F32 (FP32) là độ chính xác đầy đủ.
Sự đánh đổi: Lượng tử hóa cao hơn (số bit thấp hơn) dẫn đến các mô hình nhỏ hơn, nhanh hơn, nhưng thường đi kèm với một số tổn thất về hiệu suất (mô hình hoạt động kém hơn). Người dùng cần lựa chọn dựa trên phần cứng và yêu cầu chất lượng mô hình của họ.

Trường quantization_level trong dữ liệu của chúng tôi (ví dụ: "Q4_K_M", "F16") cho biết điều này.

6.2 Top Tên Mô hình Phổ biến

Bảng dưới đây cho thấy Top 10 thẻ mô hình được xếp hạng theo số lượng triển khai IP duy nhất, bao gồm thông tin về họ, kích thước tham số và mức độ lượng tử hóa của chúng.

Hạng	Tên Mô hình (model_name)	Số lượng Triển khai IP Duy nhất	Tổng số Phiên bản Triển khai
1	`llama3:latest`	12659	24628
2	`deepseek-r1:latest`	12572	24578
3	`mistral:latest`	11163	22638
4	`qwen:latest`	9868	21007
5	`llama3:8b-text-q4_K_S`	9845	20980
6	`smollm2:135m`	4058	5016
7	`llama2:latest`	3124	3928
8	`hermes3:8b`	2856	3372
9	`llama3.1:8b`	2714	3321
10	`qwen2.5:1.5b`	2668	3391

(Lưu ý: Số lượng Triển khai IP Duy nhất đề cập đến số lượng địa chỉ IP duy nhất đã triển khai ít nhất một phiên bản của thẻ mô hình này. Tổng số Phiên bản Triển khai đề cập đến tổng số lần thẻ mô hình này xuất hiện trong danh sách models trên tất cả các IP. Một IP có thể trỏ đến cùng một thẻ mô hình nhiều lần thông qua các phương tiện hoặc bản ghi khác nhau, hoặc một IP có thể chạy nhiều phiên bản của các thẻ khác nhau thuộc cùng một mô hình cơ sở.)

Quan sát Ban đầu (Tên Mô hình Phổ biến):

Các mô hình có thẻ :latest rất phổ biến, chẳng hạn như llama3:latest, deepseek-r1:latest, mistral:latest, qwen:latest. Điều này cho thấy nhiều người dùng thích kéo phiên bản mới nhất của mô hình trực tiếp.
Các mô hình sê-ri Llama (ví dụ: llama3:latest, llama3:8b-text-q4_K_S, llama2:latest, llama3.1:8b) chiếm nhiều vị trí, cho thấy sự phổ biến mạnh mẽ của chúng.
Các mô hình AI của Trung Quốc như deepseek-r1:latest (sê-ri DeepSeek) và qwen:latest (sê-ri Tongyi Qianwen) cũng hoạt động ấn tượng, xếp hạng cao.
Các phiên bản lượng tử hóa cụ thể như llama3:8b-text-q4_K_S cũng lọt vào top mười, cho thấy sở thích của người dùng đối với sự cân bằng hiệu suất/tiêu thụ tài nguyên cụ thể.
Các mô hình nhỏ như smollm2:135m và qwen2.5:1.5b cũng có số lượng triển khai đáng kể, đáp ứng nhu cầu về các mô hình nhẹ.

6.3 Top Họ Mô hình

Họ mô hình (trường details.family) đại diện cho kiến trúc cơ sở hoặc dòng dõi công nghệ chính của mô hình. Dưới đây là các họ mô hình có số lượng triển khai cao hơn dựa trên phân tích dữ liệu của chúng tôi:

Hạng	Họ Mô hình (family)	Số lượng Triển khai IP Duy nhất (Ước tính)	Tổng số Phiên bản Triển khai (Ước tính)
1	`llama`	~20250	~103480
2	`qwen2`	~17881	~61452
3	`nomic-bert`	~1479	~1714
4	`gemma3`	~1363	~2493
5	`bert`	~1228	~2217
6	`mllama`	~943	~1455
7	`gemma`	~596	~750
8	`deepseek2`	~484	~761
9	`phi3`	~368	~732
10	`gemma2`	~244	~680

(Lưu ý: Các giá trị cụ thể ở đây được ước tính và tổng hợp dựa trên danh sách chi tiết Top 50 mô hình đã truy vấn trước đó và có thể hơi khác so với thống kê toàn cầu chính xác, nhưng xu hướng là đại diện.)

Quan sát Ban đầu (Các Họ Mô hình Phổ biến):

Họ llama giữ vị trí thống trị tuyệt đối, phù hợp với việc các mô hình sê-ri Llama là nền tảng cho nhiều LLM mã nguồn mở hiện đại và ứng dụng rộng rãi của chính chúng. Hệ sinh thái rộng lớn và nhiều phiên bản tinh chỉnh của nó làm cho nó trở thành lựa chọn phổ biến nhất.
qwen2 (sê-ri Tongyi Qianwen Qwen2), là họ lớn thứ hai, cho thấy khả năng cạnh tranh mạnh mẽ của nó ở Trung Quốc và thậm chí trên toàn cầu.
Sự xuất hiện của nomic-bert và bert là đáng chú ý. Mặc dù chúng thường không được coi là "mô hình ngôn ngữ lớn" (đàm thoại), mà là các mô hình nhúng văn bản hoặc các mô hình cơ sở xử lý ngôn ngữ tự nhiên khác, khối lượng triển khai cao của chúng cho thấy Ollama cũng được sử dụng rộng rãi cho các tác vụ như vậy. Ollama tự động tải xuống một mô hình nhúng mặc định (ví dụ: nomic-embed-text) khi thực hiện một số thao tác nhất định (như tạo vectơ nhúng), đây có khả năng là lý do chính khiến các họ này xếp hạng cao.
Sê-ri gemma của Google (bao gồm gemma3, gemma, gemma2) cũng cho thấy tỷ lệ chấp nhận khá.
Các họ mô hình nổi tiếng khác như deepseek2 và phi3 cũng lọt vào top mười.
mllama có thể đại diện cho một tập hợp các mô hình lai, sửa đổi hoặc được cộng đồng đặt tên dựa trên Llama.

6.4 Thống kê Kích thước Tham số Gốc Hàng đầu

Kích thước tham số mô hình (trường details.parameter_size) là một chỉ số quan trọng về quy mô mô hình. Do sự biểu diễn đa dạng của kích thước tham số trong dữ liệu thô (ví dụ: "8.0B", "7B", "134.52M"), chúng tôi trực tiếp đếm các chuỗi gốc này. Dưới đây là các biểu diễn kích thước tham số có số lượng triển khai cao hơn:

Hạng	Kích thước Tham số (Chuỗi Gốc)	Số lượng Triển khai IP Duy nhất (Ước tính)	Tổng số Phiên bản Triển khai (Ước tính)
1	`8.0B`	~14480	~52577
2	`7.6B`	~14358	~28105
3	`7.2B`	~11233	~22907
4	`4B`	~9895	~21058
5	`7B`	~4943	~11738
6	`134.52M`	~4062	~5266
7	`1.5B`	~2759	~3596
8	`13B`	~2477	~3311
9	`1.8B`	~2034	~2476
10	`3.2B`	~1553	~2244
11	`137M`	~1477	~1708
12	`12.2B`	~1421	~2000
13	`32.8B`	~1254	~2840
14	`14.8B`	~1123	~2091
15	`4.3B`	~943	~1194

Ollama Top Original Parameter Size Statistics

(Lưu ý: Các giá trị được ước tính dựa trên tổng hợp thông tin tham số từ danh sách chi tiết Top 50 mô hình đã truy vấn trước đó.)

Quan sát Ban đầu (Kích thước Tham số Phổ biến):

Các mô hình quy mô từ 7B đến 8B là xu hướng chủ đạo tuyệt đối: "8.0B", "7.6B", "7.2B", "7B" chiếm phần lớn các lượt triển khai. Điều này thường tương ứng với các mô hình rất phổ biến trong cộng đồng, chẳng hạn như sê-ri Llama 2/3 7B/8B, Mistral 7B và các phiên bản tinh chỉnh khác nhau của chúng. Chúng tạo ra sự cân bằng tốt giữa hiệu suất và tiêu thụ tài nguyên.
Các mô hình quy mô 4B cũng giữ một vị trí quan trọng: Việc triển khai cao của "4B" là đáng chú ý.
Các mô hình nhẹ cấp triệu tham số (M) rất phổ biến: Thứ hạng cao của "134.52M" và "137M" có khả năng liên quan đến sự phổ biến của các mô hình nhúng (như nomic-embed-text) hoặc các mô hình chuyên dụng rất nhỏ (như sê-ri smollm). Những mô hình này nhỏ, nhanh và phù hợp với các tình huống hạn chế tài nguyên hoặc nhạy cảm với độ trễ.
Nhu cầu ổn định đối với các mô hình nhỏ trong phạm vi 1B-4B: Các mô hình có kích thước tham số như "1.5B", "1.8B", "3.2B", "4.3B" cũng được một bộ phận người dùng ưa chuộng.
Các mô hình lớn trên 10B: Chẳng hạn như "13B", "12.2B", "32.8B", "14.8B", mặc dù không có nhiều lượt triển khai IP duy nhất như cấp 7-8B, vẫn có khối lượng triển khai đáng kể, cho thấy nhu cầu của cộng đồng đối với các mô hình có khả năng cao hơn, bất chấp yêu cầu phần cứng cao hơn của chúng.

6.5 Thống kê Mức độ Lượng tử hóa Hàng đầu

Mức độ lượng tử hóa mô hình (trường details.quantization_level) phản ánh độ chính xác trọng số được mô hình áp dụng để giảm kích thước và tăng tốc độ suy luận. Dưới đây là các mức độ lượng tử hóa có số lượng triển khai cao hơn:

Hạng	Mức độ Lượng tử hóa (Chuỗi Gốc)	Số lượng Triển khai IP Duy nhất (Ước tính)	Tổng số Phiên bản Triển khai (Ước tính)
1	`Q4_K_M`	~20966	~53688
2	`Q4_0`	~18385	~88653
3	`Q4_K_S`	~9860	~21028
4	`F16`	~5793	~9837
5	`Q8_0`	~596	~1574
6	`unknown`	~266	~1318
7	`Q5_K_M`	~97	~283
8	`F32`	~85	~100
9	`Q6_K`	~60	~178
10	`Q2_K`	~54	~140

Ollama Top Quantization Level Statistics

(Lưu ý: Các giá trị được ước tính dựa trên tổng hợp thông tin lượng tử hóa từ danh sách chi tiết Top 50 mô hình đã truy vấn trước đó.)

Quan sát Ban đầu (Các Mức độ Lượng tử hóa Phổ biến):

Lượng tử hóa 4-bit là giải pháp thống trị: Q4_K_M, Q4_0 và Q4_K_S, ba mức độ lượng tử hóa 4-bit này, tuyệt đối đứng đầu bảng xếp hạng. Điều này cho thấy rõ ràng rằng cộng đồng áp dụng rộng rãi lượng tử hóa 4-bit làm giải pháp ưu tiên để đạt được sự cân bằng tốt nhất giữa hiệu suất mô hình, tốc độ suy luận và chiếm dụng tài nguyên (đặc biệt là VRAM).
F16 (dấu phẩy động 16-bit) vẫn giữ một vị trí quan trọng: Là một phiên bản chưa lượng tử hóa (hoặc chỉ lượng tử hóa cơ bản), việc triển khai cao của F16 cho thấy một số lượng đáng kể người dùng chọn nó để theo đuổi độ trung thực mô hình cao nhất hoặc vì họ có đủ tài nguyên phần cứng.
Q8_0 (lượng tử hóa 8-bit) như một sự bổ sung: Cung cấp một tùy chọn giữa 4-bit và F16.
Sự xuất hiện của các giá trị unknown: Cho thấy thông tin mức độ lượng tử hóa bị thiếu hoặc không chuẩn trong một số siêu dữ liệu mô hình.

6.6 Phân bổ Sức mạnh Tính toán AI (theo Kích thước Tham số Mô hình): Trung Quốc vs. Hoa Kỳ

Để hiểu sâu hơn về cách các mô hình có quy mô khác nhau được triển khai ở các quốc gia lớn, chúng tôi đã phân loại và đếm kích thước tham số của các mô hình được triển khai trên các phiên bản Ollama ở Hoa Kỳ và Trung Quốc. Kích thước tham số thường được coi là một chỉ số quan trọng về độ phức tạp của mô hình và nhu cầu tiềm năng về sức mạnh tính toán AI.

Tiêu chuẩn Phân loại Quy mô Tham số:

Nhỏ: < 1 Tỷ tham số (< 1B)
Trung bình: 1 Tỷ đến < 10 Tỷ tham số (1B đến < 10B)
Lớn: 10 Tỷ đến < 50 Tỷ tham số (10B đến < 50B)
Cực lớn: >= 50 Tỷ tham số (>= 50B)

Bảng dưới đây cho thấy số lượng IP duy nhất triển khai các mô hình có quy mô tham số khác nhau ở Mỹ và Trung Quốc:

Quốc gia	Loại Quy mô Tham số	Số lượng IP Duy nhất
Trung Quốc	Nhỏ (<1B)	3313
Trung Quốc	Trung bình (1B đến <10B)	4481
Trung Quốc	Lớn (10B đến <50B)	1548
Trung Quốc	Cực lớn (>=50B)	280
Hoa Kỳ	Nhỏ (<1B)	1368
Hoa Kỳ	Trung bình (1B đến <10B)	6495
Hoa Kỳ	Lớn (10B đến <50B)	1301
Hoa Kỳ	Cực lớn (>=50B)	58

The table below shows the number of unique IPs deploying models of different parameter scales in the US and China

Thông tin Chi tiết và Phân tích Dữ liệu:

Các mô hình kích thước trung bình là chủ đạo, nhưng có trọng tâm khác nhau:
- Hoa Kỳ: Việc triển khai các mô hình kích thước trung bình (1B-10B) chiếm ưu thế tuyệt đối ở Mỹ (6495 IP duy nhất).
- Trung Quốc: Các mô hình kích thước trung bình (4481 IP duy nhất) cũng là loại được triển khai nhiều nhất ở Trung Quốc, nhưng việc triển khai các mô hình nhỏ (<1B) ở Trung Quốc (3313 IP duy nhất) là rất đáng kể.
Sự khác biệt đáng kể ở các mô hình nhỏ: Việc triển khai quy mô lớn các mô hình nhỏ của Trung Quốc có thể phản ánh sự ưu tiên cho điện toán biên, ứng dụng AI di động và các kịch bản tương tự.
Triển khai các mô hình lớn và cực lớn: Trung Quốc cho thấy hoạt động cao hơn trong việc khám phá các mô hình lớn và cực lớn (mặc dù từ một cơ sở nhỏ hơn).
Suy luận về đầu tư sức mạnh tính toán tổng thể: Cơ sở của Mỹ về các mô hình kích thước trung bình cho thấy sự phổ biến của các ứng dụng AI thực tế. Trung Quốc có lợi thế về các mô hình nhỏ và đang tích cực khám phá các mô hình lớn.
Hàm ý đối với xu hướng toàn cầu: Các mô hình kích thước trung bình có khả năng phổ biến trên toàn cầu. Các khu vực khác nhau có thể có các chiến lược áp dụng mô hình khác nhau dựa trên hệ sinh thái và điều kiện tài nguyên của họ.

Bằng cách phân đoạn quy mô tham số mô hình ở Trung Quốc và Mỹ, chúng ta có thể thấy các trọng tâm và tiềm năng phát triển khác nhau của các ứng dụng Ollama ở hai quốc gia.

7. Thông tin Chi tiết về Mạng

7.1 Sử dụng Cổng

11434 (cổng mặc định): Phần lớn (30.722 IP duy nhất) các phiên bản Ollama chạy trên cổng mặc định 11434.
Các cổng phổ biến khác: Các cổng như 80 (1.619 IP duy nhất), 8080 (1.571 IP duy nhất), 443 (1.339 IP duy nhất), v.v., cũng được sử dụng, điều này có thể cho thấy một số phiên bản được triển khai sau một proxy ngược hoặc người dùng đã tùy chỉnh cổng.

7.2 Sử dụng Giao thức

HTTP: Khoảng 65.506 IP duy nhất có các phiên bản phục vụ qua giao thức HTTP.
HTTPS: Khoảng 43.765 IP duy nhất có các phiên bản phục vụ qua giao thức HTTPS.

Hầu hết các phiên bản vẫn được cung cấp qua HTTP không mã hóa, điều này có thể gây ra một số rủi ro bảo mật. (Xin lưu ý: Một IP có thể hỗ trợ cả HTTP và HTTPS, vì vậy tổng số IP ở đây có thể vượt quá tổng số IP duy nhất)

7.3 Nhà cung cấp Dịch vụ Lưu trữ Chính (Tổ chức AS)

Việc lưu trữ phiên bản Ollama tập trung cao độ ở các nhà cung cấp dịch vụ đám mây.

Hạng	Tổ chức AS	Số lượng IP Duy nhất	Nhà cung cấp Liên kết Chính
1	AMAZON-02	53658	AWS
2	AMAZON-AES	5539	AWS
3	Chinanet	4964	China Telecom
4	Hangzhou Alibaba Advertising Co.,Ltd.	2647	Alibaba Cloud
5	HENGTONG-IDC-LLC	2391	Nhà cung cấp Hosting
6	Shenzhen Tencent Computer Systems Company Limited	1682	Tencent Cloud
7	CHINA UNICOM China169 Backbone	1606	China Unicom
8	Hetzner Online GmbH	972	Hetzner
9	China Unicom Beijing Province Network	746	China Unicom (Bắc Kinh)
10	LEASEWEB-USA-LAX	735	Leaseweb

Ollama instance hosting is highly concentrated among cloud service providers

AWS (AMAZON-02, AMAZON-AES) chiếm thị phần lớn nhất, tiếp theo là các nhà khai thác viễn thông lớn của Trung Quốc và các nhà cung cấp dịch vụ đám mây (như Alibaba Cloud, Tencent Cloud). Các nhà cung cấp dịch vụ lưu trữ khác như Hetzner và Leaseweb cũng có thị phần đáng kể.

8. Bảo mật và Các Quan sát Khác

Thông tin Phiên bản: Vì lý do bảo mật, chúng tôi không liệt kê thống kê về các phiên bản Ollama.
Rủi ro Tiếp xúc HTTP: Như đã đề cập trước đó, một số lượng lớn các phiên bản Ollama được cung cấp qua HTTP mà không có mã hóa TLS, điều này có thể làm cho nội dung giao tiếp (ví dụ: tương tác với các mô hình) dễ bị nghe lén hoặc giả mạo. Người dùng nên cấu hình một proxy ngược và kích hoạt HTTPS.
Khả năng Truy cập API: Dữ liệu trong báo cáo này dựa trên các phiên bản Ollama có giao diện /api/tags có thể truy cập công khai. Số lượng triển khai thực tế có thể cao hơn, nhưng một số phiên bản có thể được triển khai trong mạng riêng hoặc bị hạn chế truy cập bên ngoài bởi tường lửa.

9. Kết luận và Đánh giá Ngắn gọn

Báo cáo này, bằng cách phân tích dữ liệu từ 99.412 phiên bản Ollama có thể truy cập công khai trên toàn cầu (thông qua giao diện /api/tags của chúng), rút ra các kết luận và quan sát chính sau:

1. Tổng quan Triển khai Toàn cầu và Phân bổ Địa lý:

Ollama, với tư cách là một công cụ tiện lợi để chạy các mô hình lớn cục bộ, đã được triển khai rộng rãi trên toàn cầu. Phân tích này đã xác định được 99.412 IP duy nhất có thể truy cập công khai.
Tập trung Địa lý Cao: Hoa Kỳ và Trung Quốc là hai quốc gia/khu vực có số lượng triển khai Ollama tập trung nhất, chiếm một phần đáng kể trong tổng số các phiên bản có thể truy cập (Mỹ 29.195, Trung Quốc 16.464). Các quốc gia như Nhật Bản, Đức, Anh, Ấn Độ và Singapore cũng có số lượng triển khai đáng chú ý.
Điểm nóng Thành phố: Tại Mỹ, các thành phố như Ashburn, Portland và Columbus dẫn đầu về số lượt triển khai; tại Trung Quốc, các thành phố công nghệ tiên tiến như Bắc Kinh, Hàng Châu, Thượng Hải và Quảng Châu là các địa điểm triển khai chính. Điều này thường liên quan đến sự tập trung của các công ty công nghệ, trung tâm dữ liệu và cộng đồng nhà phát triển.

2. Xu hướng Triển khai Mô hình AI:

Thẻ Mô hình Phổ biến: Các thẻ mới nhất chung chung như llama3:latest, deepseek-r1:latest, mistral:latest, qwen:latest là phổ biến nhất. Các phiên bản được tối ưu hóa cụ thể như llama3:8b-text-q4_K_S cũng được ưa chuộng vì sự cân bằng tốt của chúng.
Các Họ Mô hình Thống trị: Họ llama dẫn đầu với một khoảng cách tuyệt đối, tiếp theo là qwen2. Thứ hạng cao của các họ mô hình nhúng như nomic-bert và bert là đáng chú ý, có thể liên quan đến hành vi mặc định của Ollama.
Sở thích Kích thước Tham số: Các mô hình có tham số 7B-8B hiện là xu hướng chủ đạo. Các mô hình nhẹ ở cấp triệu tham số và các mô hình lớn trên 10B cũng có thị trường tương ứng. Một so sánh Mỹ-Trung cho thấy Mỹ triển khai nhiều mô hình kích thước trung bình hơn, trong khi Trung Quốc tích cực hơn trong việc khám phá các mô hình nhỏ và cực lớn.
Lựa chọn Mức độ Lượng tử hóa: Lượng tử hóa 4-bit (đặc biệt là Q4_K_M và Q4_0) là lựa chọn áp đảo. F16, như một tùy chọn có độ trung thực cao hơn, cũng giữ một vị trí quan trọng.
Độ phức tạp của Siêu dữ liệu: Phân tích siêu dữ liệu mô hình (ví dụ: diễn giải trường họ mô hình) đôi khi cho thấy sự phức tạp giữa các bản ghi của nó và tên mô hình hoặc hiểu biết chung, làm nổi bật sự đa dạng của quản lý siêu dữ liệu trong hệ sinh thái mã nguồn mở.

3. Cơ sở hạ tầng Kỹ thuật:

Môi trường Lưu trữ: Một số lượng lớn các phiên bản Ollama được lưu trữ trên các nhà cung cấp dịch vụ đám mây lớn như AWS, Alibaba Cloud, Tencent Cloud, cũng như trong mạng của các nhà khai thác viễn thông quốc gia lớn.
Cổng Dịch vụ: Cổng mặc định 11434 của Ollama được sử dụng phổ biến nhất, nhưng một số lượng đáng kể các phiên bản cũng được cung cấp qua các cổng web tiêu chuẩn.

4. Đánh giá Khách quan:

Mức độ Phổ biến của Ollama: Dữ liệu cho thấy rõ ràng tỷ lệ chấp nhận cao của Ollama trong giới nhà phát triển và những người đam mê AI trên toàn thế giới.
Sự Sôi động của Hệ sinh thái Mã nguồn mở: Sự đa dạng của các mô hình phổ biến và việc sử dụng rộng rãi các phiên bản tham số và lượng tử hóa khác nhau phản ánh sự phát triển bùng nổ của hệ sinh thái mô hình AI mã nguồn mở.
Sự Cân bằng trong Sở thích Người dùng: Khi chọn mô hình, người dùng có xu hướng tìm kiếm sự cân bằng giữa khả năng của mô hình, hiệu quả hoạt động và chi phí phần cứng.
Bảo mật và Tính mở: Một số lượng lớn các phiên bản cho phép truy cập công khai vào danh sách mô hình của chúng, điều này, mặc dù thuận tiện cho cộng đồng, cũng có thể gây ra rủi ro bảo mật.

5. Triển vọng Tương lai:

Với sự xuất hiện của các mô hình hiệu quả hơn, nhỏ hơn và những tiến bộ hơn nữa trong công nghệ lượng tử hóa, rào cản triển khai cho Ollama dự kiến sẽ tiếp tục giảm.
Việc tiêu chuẩn hóa siêu dữ liệu mô hình và các mô hình được chia sẻ trong cộng đồng là rất quan trọng để nâng cao tính minh bạch và khả năng sử dụng của hệ sinh thái.

Tóm lại, Ollama đang trở thành một cầu nối quan trọng kết nối các mô hình ngôn ngữ lớn tiên tiến với một loạt các nhà phát triển, nhà nghiên cứu và thậm chí cả người dùng phổ thông. Phân tích dữ liệu này cung cấp những hiểu biết có giá trị để hiểu tình trạng triển khai toàn cầu hiện tại và sở thích của người dùng.