[Research] - GPT-4 OpenAI Release - Có gì mới ?

Bài đăng này đã không được cập nhật trong 2 năm

OpenAI, một trong những công ty công nghệ hàng đầu thế giới về trí tuệ nhân tạo, đang chuẩn bị ra mắt phiên bản mới nhất của hệ thống GPT (Generative Pre-trained Transformer) mang tên GPT-4. Đây là một sự kiện đáng chú ý trong cộng đồng nghiên cứu và ứng dụng trí tuệ nhân tạo, bởi GPT-4 được cho là một bước tiến lớn về khả năng tự động tạo ra văn bản và đưa ra quyết định.

Dưới đây là bảng so sánh giữa ChatGPT-4 (giả định) và ChatGPT-3.5-Turbo:

Hindsight Neglect Hindsight Neglect là một nhiệm vụ được sử dụng để đánh giá khả năng của các hệ thống trí tuệ nhân tạo trong việc hiểu và xử lý thông tin. Nhiệm vụ này yêu cầu hệ thống phải dự đoán từ tiếp theo trong một câu văn, sau đó trả về từ ngay trước đó. Tuy nhiên, điểm khác biệt của nhiệm vụ này là hệ thống không được phép sử dụng thông tin từ từ đó, mà chỉ được sử dụng thông tin từ trước đó để thực hiện dự đoán.

Hình ảnh trên thể hiện hiệu suất của GPT-4 và các mô hình nhỏ hơn trên nhiệm vụ Hindsight Neglect. Độ chính xác được thể hiện trên trục y, càng cao càng tốt. Ada, Babbage và Curie là các mô hình có sẵn thông qua OpenAI API.

Về hiệu suất

Hiệu suất của GPT trên các kỳ thi học thuật và chuyên nghiệp đã được thử nghiệm. Trong mỗi trường hợp, chúng tôi mô phỏng điều kiện và phương pháp chấm điểm của kỳ thi thực tế. Chúng tôi báo cáo điểm số cuối cùng của GPT-4 theo tiêu chuẩn của từng kỳ thi, cũng như phần trăm của các thí sinh đạt được điểm số của GPT-4.

GPT-4 cho phép nhập vào prompt bao gồm cả hình ảnh và văn bản, điều này cho phép người dùng xác định bất kỳ nhiệm vụ ngôn ngữ hoặc thị giác nào. Cụ thể, mô hình tạo ra các đầu ra văn bản dựa trên đầu vào được tạo thành bởi các khối văn bản và hình ảnh xen kẽ. Trên nhiều lĩnh vực khác nhau - bao gồm tài liệu với văn bản và ảnh, sơ đồ, hoặc chụp màn hình - GPT-4 có khả năng tương tự như khi chỉ có đầu vào văn bản.

Đây là tính năng visual input:

Về LLMs - Large Language Models LLMs là viết tắt của "Large Language Models" - một loại mô hình học máy sử dụng học sâu để học cách phân tích và xử lý ngôn ngữ tự nhiên (NLP). Những mô hình này được đào tạo trên các tập dữ liệu lớn như Wikipedia và các tài liệu khác trên Internet để học cách dự đoán từ tiếp theo trong một văn bản. Khi được đào tạo đủ mạnh, LLMs có thể thực hiện nhiều nhiệm vụ ngôn ngữ tự nhiên như dịch thuật, phân tích cảm xúc, tự động tóm tắt, tạo câu chuyện, và cả phân loại văn bản. LLMs đang được triển khai rộng rãi trong nhiều lĩnh vực, từ công nghệ thông tin, giải trí, tới các ứng dụng trong y tế, tài chính, và kinh doanh.

Các mô hình ngôn ngữ lớn (LLMs) thường được huấn luyện trong hai giai đoạn. Đầu tiên, chúng được huấn luyện, sử dụng một tập dữ liệu lớn về văn bản từ Internet, để dự đoán từ tiếp theo. Sau đó, các mô hình được điều chỉnh lại bằng dữ liệu bổ sung, sử dụng thuật toán gọi là học tăng cường từ phản hồi của con người (RLHF), để tạo ra các đầu ra được ưa thích bởi các nhãn viên con người.Huấn luyện mô hình ngôn ngữ trên các tập dữ liệu văn bản lớn đã tạo ra các khả năng như học đa nhiệm trong số ít và khả năng thực hiện một loạt các tác vụ ngôn ngữ tự nhiên trải dài qua các lĩnh vực khác nhau, bao gồm trả lời câu hỏi, toán học và phân loại. Việc điều chỉnh lại đã làm cho các mô hình này dễ kiểm soát hơn và hữu ích hơn.

GPT4 sẽ không dễ dàng bị Jailbreaks. GPT-4 là một mô hình ngôn ngữ lớn có khả năng tăng cường về lĩnh vực lập luận, lưu trữ kiến thức và lập trình so với các mô hình trước đó như GPT-2 và GPT-3.

Kết luận: Chúng ta đã tìm hiểu về GPT-4, phiên bản mới nhất của hệ thống Generative Pre-trained Transformer của OpenAI, với khả năng tự động tạo ra văn bản và đưa ra quyết định. GPT-4 có tính năng visual input, cho phép nhập vào prompt bao gồm cả hình ảnh và văn bản để xác định bất kỳ nhiệm vụ ngôn ngữ hoặc thị giác nào

Paper: https://cdn.openai.com/papers/gpt-4.pdf

GPT4: https://openai.com/research/gpt-4

Hồ Ngọc Hải

Mục lục