Tài liệu này giới thiệu về DeepScientist, một hệ thống agent dựa trên mô hình ngôn ngữ lớn (LLM) được thiết kế để tự động hóa quá trình khám phá khoa học, bao gồm việc tạo ý tưởng, thực hiện thử nghiệm và viết báo cáo nghiên cứu. Hệ thống này mô hình hóa nghiên cứu khoa học như một bài toán Tối ưu hóa Bayesian nhằm tìm ra các phương pháp mới vượt qua hiệu suất State-of-the-Art (SOTA) hiện tại. Các thử nghiệm chỉ ra rằng DeepScientist đạt được những tiến bộ tương đương với nhiều năm nghiên cứu của con người chỉ trong vòng hai tuần, đồng thời liên tục vượt trội hơn các phương pháp do con người thiết kế trên nhiều lĩnh vực như phát hiện văn bản AI và tăng tốc suy luận LLM. Tuy nhiên, các nhà nghiên cứu nhấn mạnh rằng tính chính trực trong học thuật là tối quan trọng, do đó họ sẽ không công khai mô-đun phân tích và báo cáo để đảm bảo con người vẫn phải giám sát và chịu trách nhiệm cuối cùng cho các kết quả khoa học do AI tạo ra.
Nghiên cứu sử dụng metric pass@k để đo lường ranh giới khả năng suy luận trên nhiều bài kiểm tra toán học, lập trình và suy luận hình ảnh. Kết quả cho thấy RLVR chủ yếu tăng cường hiệu quả lấy mẫu các con đường suy luận đúng đã tồn tại trong mô hình cơ sở, nhưng không tạo ra khả năng suy luận mới và thậm chí còn giảm phạm vi bao phủ các vấn đề có thể giải quyết ở các giá trị k lớn.
"Attention Is All You Need" (2017) là cột mốc mở ra kỷ nguyên của các mô hình ngôn ngữ lớn (LLM) hiện đại như GPT, BERT, Claude, Gemini hay LLaMA.
Đọc thêm: https://trituenhantao.io/tin-tuc/minh-hoa-transformer/
Bài viết giới thiệu DeepSeek-R1, một mô hình ngôn ngữ lớn thế hệ mới được phát triển thông qua học tăng cường (RL) để nâng cao khả năng suy luận. Mô hình đầu tiên, DeepSeek-R1-Zero, được huấn luyện chỉ bằng RL và cho thấy khả năng suy luận ấn tượng, nhưng gặp vấn đề về tính dễ đọc. DeepSeek-R1 giải quyết những vấn đề này bằng cách kết hợp huấn luyện đa giai đoạn và dữ liệu khởi tạo trước RL, đạt hiệu suất suy luận ngang ngửa với OpenAI-o1-1217 trên các điểm chuẩn. Ngoài ra, các nhà nghiên cứu đã công khai các mô hình nhỏ hơn được tinh chỉnh từ DeepSeek-R1, chứng minh hiệu quả của việc tinh chỉnh khả năng suy luận từ các mô hình lớn hơn.
Bài báo nghiên cứu sử dụng mạng thần kinh sâu với cơ chế chú ý để cải thiện việc tìm kiếm tài liệu pháp lý. Các tác giả đề xuất một phương pháp tiếp cận chung sử dụng mạng thần kinh sâu có cơ chế chú ý và phát triển hai kiến trúc phân cấp: Attentive CNN và Paraformer, để biểu diễn các văn bản pháp luật dài.
Vào ngày 20/01/2025, công ty công nghệ AI Trung Quốc DeepSeek đã ra mắt mô hình AI mang tính cách mạng DeepSeek R1. Chỉ sau vài ngày, R1 đã nhanh chóng trở thành ứng dụng được tải xuống nhiều nhất trên App Store tại Mỹ, vượt mặt cả những ông lớn như ChatGPT. Thành công này không chỉ làm rúng động thị trường công nghệ mà còn gây ra một đợt bán tháo cổ phiếu (selloff) lớn trên thị trường chứng khoán.
Agentic AI đang định hình lại cách chúng ta nhìn nhận trí tuệ nhân tạo, từ khả năng phân tích dữ liệu đến khả năng tự hành động độc lập, mở ra kỷ nguyên mới cho các ứng dụng công nghệ.
Trong thời đại kỹ thuật số hiện nay, học máy (Machine Learning) không chỉ là lãnh địa dành riêng cho các lập trình viên hay những người đam mê công nghệ. Công nghệ này thậm chí còn mở rộng tầm ảnh hưởng của mình ra khắp các lĩnh vực khác nhau. No Code Machine Learning (Học máy không cần viết mã) đã nhanh chóng trở thành một phần không thể thiếu trong nhiều ngành nghề và mở ra vô số cơ hội mới cho mọi người.
Bệnh nhân được cấy ghép chip não Neuralink đầu tiên đã có thể di chuyển chuột máy tính chỉ bằng suy nghĩ. Giải pháp này mở ra khả năng giúp con người đồng bộ với máy móc, tránh bị trí tuệ nhân tạo vượt mặt và hỗ trợ điều trị các bệnh liên quan đến thần kinh.
Sam Altman – CEO của OpenAI, thông báo GPT-5 dự kiến ra mắt vào năm 2024, mang lại những cải tiến đáng kể trong lĩnh vực trí tuệ nhân tạo (AI), tác động mạnh mẽ đến các startup từ các khía cạnh như khả năng suy luận, độ tin cậy và tính cá nhân hóa. Tìm hiểu thêm về những cải tiến của GPT-5 và cách các startup có thể tận dụng cơ hội từ công nghệ này.
Tin văn về AI trên thế giới
Học máy đang được các doanh nghiệp ứng dụng rộng rãi, tuy nhiên việc áp dụng thành công đòi hỏi sự cân nhắc kỹ lưỡng nhiều yếu tố.
Phân tích dự án (Project Analysis - PA) là quá trình đánh giá tình trạng hiện tại của một dự án và xác định các vấn đề tiềm ẩn khi dự án tiến triển. Những người quản lý dự án thực hành PA có khả năng thành công cao hơn so với những người không thực hiện.
PA đóng vai trò quan trọng trong việc đảm bảo dự án hoàn thành đúng hạn và trong phạm vi ngân sách. Bằng cách đặt mình vào vị trí của các bên liên quan, chúng ta có thể đạt được một cái nhìn sâu sắc và toàn diện hơn về dự án. Dưới đây, chúng tôi sẽ giới thiệu một phương pháp tiếp cận độc đáo và hiệu quả vời nguyên tắc 3 nhóm đối tượng.
Tác động môi trường của AI là một vấn đề không thể phủ nhận, đặc biệt là trong bối cảnh ngày càng có nhiều ứng dụng AI và mô hình học sâu được phát triển. Tuy nhiên, ngành công nghiệp không ngừng tìm kiếm và áp dụng các giải pháp nhằm giảm thiểu tác động này, từ việc tối ưu hóa mô hình, sử dụng năng lượng tái tạo đến phát triển công nghệ làm mát hiệu quả. Với những nỗ lực này, hy vọng trong tương lai, tác động môi trường của AI sẽ giảm dần và ngành công nghiệp càng trở nên bền vững hơn.
ChatGPT là từ khóa đưa OpenAI quay trở lại tâm điểm của các cuộc bàn luận về Trí tuệ nhân tạo. Nhưng ChatGPT là gì và nó hoạt động như thế nào? Hãy cùng tìm hiểu với trituenhantao.io
Big data và Blockchain là hai công nghệ mới nổi được kỳ vọng sẽ cách mạng hóa cách các doanh nghiệp tiến hành hoạt động của họ. Hầu hết chúng ta tin rằng những công nghệ này không thể cùng tồn tại và phải được sử dụng riêng lẻ và theo các lộ trình riêng biệt. Tuy nhiên, điều đó có thể không chính xác.
Thông thường, các hệ thống học máy tập trung quá mức vào các nhiệm vụ riêng lẻ, khi chúng có thể vượt trội ở nhiều nhiệm vụ. Đó là lý do tại sao Google Research xây dựng Pathways — một kiến trúc AI mới sẽ xử lý nhiều nhiệm vụ cùng một lúc, học các nhiệm vụ mới một cách nhanh chóng và phản ánh sự hiểu biết tốt hơn về thế giới.
Hợp đồng thông minh (smart contract) được Nick Szabo mô tả lần đầu tiên vào những năm 1990. Vào thời điểm đó, ông định nghĩa hợp đồng thông minh là một công cụ để chính thức hóa và bảo mật mạng máy tính bằng cách kết hợp các giao thức với giao diện người dùng.
Dữ liệu cho AI là yếu tố không thể thiếu trong bất kỳ một dự án Trí tuệ nhân tạo thành công nào. Nhưng chúng ta cần quan tâm đến chất lượng dữ liệu hay số lượng dữ liệu? Giữa một dataset nhỏ chất lượng tốt và một dataset khổng lồ với nhiều ví dụ nhiễu, chúng ta sẽ chọn cái nào?
GPT – các mô hình sinh ngôn ngữ của OpenAI đã tạo ra một làn sóng mới trong xử lý ngôn ngữ tự nhiên. Các mô hình này có thể thực hiện các nhiệm vụ NLP khác nhau như trả lời câu hỏi, truy xuất văn bản, tóm tắt văn bản, v.v. mà không cần đến supervised training. Chúng cần rất ít hoặc không cần ví dụ để hiểu các nhiệm vụ và thực hiện tương đương hoặc thậm chí tốt hơn các mô hình state-of-the-art được huấn luyện có giám sát.