Gemini Skills / Tasks

digital
By digital
8 Min Read
Gemini Skills / Tasks

Bản Gemini vừa công bố có một số skills mình khá quan tâm, bạn nào quân tâm kỹ hơn có thể đọc báo cáo kỹ thuật 60 trang của Gemini (link trong comment). Ngoài các năng lực về xử lý đa ngôn ngữ, âm thanh & hình ảnh các kiểu, ở đây mình tóm tắt một số skills, dưới vai trò của một người sử dụng LLM nhé.

#1. Factuality (sự thật / tính thực tế)

Là khả năng phân biệt được phải quấy, tức là model có thể truy cập được các nguồn dữ liệu tin cậy và có tính xác minh cao, từ đó sinh ra kết quả gắn liền với thực tế rõ ràng. Đây là kỹ năng mang tính quyết định phải có của một Generative AI model, bởi nó mang lại sự chính xác và độ tin cậy của kết quả mà model sinh ra.

Một chút so sánh: mặc dù có thể điều chỉnh tham số temperature, nhưng ChatGPT vẫn nổi tiếng là tự bịa ra nhiều thứ nhìn qua thì có vẻ đúng (về ngữ pháp, lập luận) nhưng thực tế sai bét.

Để có khả năng factuality, thì model cần được trang bị:

Về knowledge acquisition:

  • Một lượng lớn dữ liệu “sạch”: là dữ liệu thật ấy, từ nhiều nguồn, ví dụ thông qua real-world sensors, thậm chí không bị chi phối (bias) bởi con người.
  • Thông tin ở nhiều định dạng khác nhau (tables, graphs, images), không chỉ ở dạng text.
  • Thông tin thể hiện một cách nhất quán: các tên gọi, dữ liệu, ở các dạng khác nhau đều được thống nhất cách hiểu, cách suy luận, và cách lấy thông tin.

Về fact checking & verification:

  • Các thông tin mang tính quan điểm, nhận định đều được làm rõ và xác minh, hoặc tham chiếu chéo từ nhiều nguồn khác nhau.
  • Đánh giá độ tin cậy các nguồn thông tin này.

Về generating outputs:

  • Dựa vào các thông tin mang tính factual cao, với mỗi câu hỏi đầu vào, sinh ra được câu trả lời cũng rất factual
  • Khả năng tóm tắt thông tin facts thành câu trả lời ngắn gọn & súc tích hơn


#2. Long Context (hiểu đoạn hội thoại)

Là khả năng hiểu và xử lý thông tin của một đoạn hội thoại dài hoặc câu chuyện phức tạp. Bao gồm:

  • Theo dõi và ghi nhớ lịch sử hội thoại
  • Suy luận từ chuỗi nhiều câu hỏi (bao gồm cả những câu / những đoạn chuyển ngữ cảnh trong hội thoại)
  • Xác định được thông tin ẩn, ý tứ ẩn dụ trong hội thoại
  • Duy trì tính nhất quán và mạch lạc: đôi khi bị hỏi vặn vẹo, hỏi những câu gây khó dễ, model vẫn kiên định với cách lập luận và câu trả lời suy luận được của nó.


#3. Math/Science (toán học và khoa học nói chung)

Là khả năng giải được các phép tính toán học, từ những phép toán số học đơn giản, đến đại số, phương trình phức tạp, thậm chí các mô hình kinh tế, xác suất thống kê, khoa học dữ liệu. Biểu diễn được ký hiệu và biểu thức toán học, các phương trình / bất phương trình.

Sang hơn nữa là khả năng sinh ra báo cáo khoa học, dịch sang các ngôn ngữ khác nhau phù hợp với từng loại độc giả, khả năng giải thích được các khái niệm toán học / khoa học cho người bình thường không có nền tảng về toán, theo cách dễ hiểu và xúc tích.


#4. Reasoning (khả năng lập luận / suy luận)

Khả năng này liên quan đến kiến thức và hiểu biết về thế giới quan nhằm giải quyết vấn đề, đưa ra kết luận, hoặc dự đoán. Không chỉ là việc ghi nhớ và đưa ra thông tin, nó đòi hỏi model:

  • Hiểu tình huống: nhận biết được thông tin liên quan, mối quan hệ giữa các thành phần, và ngữ cảnh chung của hội thoại.
  • Vận dụng tư duy logic và lập luận: biết sử dụng các quy tắc logic để lập luận tìm ra kết luận dựa trên những thông tin đang có
  • Xem xét các khả năng: có thể hình thành công thức và đánh giá được các giả định hoặc giải pháp cho một vấn đề.
  • Ra quyết định: chọn ra được đáp án hoặc chuỗi hành động khả dĩ nhất với những gì đang có và suy luận được.


#5. Summarization (tổng hợp)

Là khả năng tổng hợp thông tin một cách cô đọng và súc tích, cụ thể bao gồm:

  • Triết xuất được thông tin quan trọng từ văn bản để tập trung vào các ý chính
  • Khả năng khái quát hóa: tổng quát hóa được các mảnh ghép thông tin, bằng cách sử dụng từ ngữ mang tính khái quát hơn, tổng hòa hơn
  • Kết hợp nhiều tài liệu: có thể xử lý trên nhiều tài liệu, hoặc nhiều nguồn đầu vào
  • Cụ thể từng lĩnh vực (domain-specific): được huấn luyện theo từng lĩnh vực, từng ngành nghề đảm bảo sử dụng ngôn từ và ngữ cảnh theo lĩnh vực / ngành nghề đó.

Tiêu chí của một bản tổng hợp chuẩn chỉnh:

  • Chính xác (accuracy): thông tin tổng hợp phải đảm bảo giữ nguyên nội dung / ý chính của văn bản gốc
  • Xúc tích (conciseness): phải xúc tích & rõ ràng, đại diện cho văn bản gốc
  • Có liên quan (relevance): thông tin tổng hợp có liên quan đến ngữ cảnh và câu hỏi
  • Mạch lạc & chặt chẽ (coherence): thông tin được diễn giải một cách mạch lạc và trôi chảy giữa các câu.
  • Khách quan (objectivity): không mang tính chủ quan, phán xét
  • Lưu loát (fluency): ngôn từ & câu chữ đúng văn phong, ngữ pháp, và dễ đọc

Mong sớm có API để xài thử quá!!

Share This Article
Leave a review