
66b là một mô hình ngôn ngữ lớn được phát triển với khoảng 66 tỷ tham số, thuộc gia đình các mô hình transformer. Nó được huấn luyện trên một tập dữ liệu văn bản đa dạng, nhằm mục đích hiểu và sinh ngôn ngữ tự nhiên ở nhiều ngữ cảnh.
Kiến trúc dựa trên biến thể của Transformer encoder-decoder hoặc decoder-only, tùy cách triển khai. Số lượng lớp, kích thước embedding, và cơ chế attention được tối ưu để cân bằng giữa hiệu suất và yêu cầu tính toán. Huấn luyện sử dụng dữ liệu từ sách, bài báo, website và nguồn công khai khác, với quy trình lọc và tiền xử lý để giảm nhiễu. Quy tắc an toàn và giảm rủi ro bị thiên vị được tích hợp thông qua kỹ thuật fine-tuning và RLHF (phản hồi từ con người).
66b có thể dùng cho trả lời câu hỏi, sinh văn bản, tóm tắt, hỗ trợ lập trình, và trợ giúp ngôn ngữ. Tuy nhiên, với 66 tỷ tham số, nó có thể gặp hạn chế về khả năng suy luận sâu, hiểu ngữ cảnh dài, và có thể phát sinh thông tin sai. Việc giám sát nguồn dữ liệu và đánh giá đầu ra là cần thiết khi triển khai trong môi trường sản xuất.
