Giới khoa học Nga dạy máy tính xác định giới tính tác giả bài viết
Nhóm nghiên cứu gồm các nhà khoa học từ Trường Đại học Nghiên cứu Hạt nhân Quốc gia Nga “MEPhI”, Trung tâm Nghiên cứu Quốc gia "Viện Kurchatov" và Trường Đại học tổng hợp quốc gia Voronezh đã phát triển phương pháp dạy máy tính xác định giới tính theo bài viết với độ chính xác đến 80%. Đây là một cuộc nghiên cứu trong lĩnh vực ngôn ngữ học máy tính. Hoạt động nghiên cứu nhận được tài trợ từ Quỹ Khoa học Nga. Kết quả được công bố trên tạp chí Procedia Computer Science.
Một cô gái đang viết trên máy tính bảng. Ảnh: Shutterstock. |
Nhiều cuộc nghiên cứu khoa học cho thấy rõ rằng các bài viết phản ánh đặc điểm của tác giả - giới tính, đặc điểm tâm lý, trình độ học vấn. Tiếng nói là một công cụ chẩn đoán tâm lý có giá trị mà các chuyên gia quản trị nhân sự của các công ty lớn, cũng như các cơ quan bảo vệ an ninh sử dụng rộng rãi.
Sau khi phân tích cách nói của một người nào đó có thể chẩn đoán một số bệnh (bệnh mất trí nhớ, trầm cảm) và xu hướng tự sát. Với sự phát triển của truyền thông Internet đã tăng lên nhu cầu phân tích đặc tính của tác giả bài viết: các công ty muốn biết những sản phẩm và dịch vụ của họ làm vừa lòng những nhóm khách hàng nào.
Các nhà khoa học nghiên cứu lĩnh vực này (các nhà ngôn ngữ học, nhà tâm lý học và các chuyên gia công nghệ thông tin) trên cơ sở các tham số trong những đoạn lựa chọn của bài viết có thể xây dựng mô hình toán học để xác định những tham số khác nhau của cá nhân.
Nhóm chuyên gia đã phân tích tính hiệu quả của các công nghệ học máy khác nhau bằng cách sử dụng mạng nơ ron để phân tích bài viết.
Trong quá trình nghiên cứu, họ đã so sánh độ chính xác của hai cách tiếp cận vấn đề xác định giới tính trên cơ sở bài viết bằng cách mô hình hóa dữ liệu: một mặt là các thuật toán máy học (máy vector hỗ trợ và gradient boosting), mặt khác là mạng nơ ron để học tập chuyên sâu (mạng nơ ron tích chập và mạng nơ ron tái phát với bộ nhớ dài hạn hơn).
"Chúng tôi đã đạt được kết quả tuyệt vời trong việc xác định giới tính của tác giả bài viết nhờ vào mô hình mạng nơ-ron cấp cao trong trường hợp tác giả không che giấu giới tính của mình. Nhiệm vụ tiếp theo là xác định giới tính trong điều kiện tác giả cố tình che giấu giới tính của mình", - Giáo sư Alexander Sboev từ đại học MEPhI cho biết.
Ví dụ, mạng nơ-ron có thể dễ dàng phát hiện nói dối trong bài viết đăng trên trang web hẹn hò, mặc dù tác giả cố tình tự giới thiệu mình thuộc giới tính khác.
Chẳng hạn, một bài do một cô gái (giả vờ là nam) viết: "Tôi đẹp trai, 30 tuổi với thân hình khỏe mạnh, làm việc trong một công ty dầu khí, có vị trí tốt cùng với mức lương khá cao, tôi sống trong căn hộ chung cư cao cấp ở Moscow và sở hữu một căn nhà nhỏ nhưng rất đẹp tại một ngôi làng ở Italy. Tôi chơi thể thao, đặc biệt bóng đá. Tôi thích đi du lịch vào những ngày cuối tuần, tôi không thích những cô gái chỉ ru rú ở xó nhà. Phù hợp nhất với tôi là một cô gái khiêm tốn với ngoại hình đẹp và hấp dẫn theo tiêu chuẩn ngày nay. Cô gái phải có sở thích như tôi, không thể hiện sự ghen tuông, và không cố gắng gợi lên sự ghen tuông trong tôi. Tôi không có ý định nuôi cô gái vì tôi cho rằng, trong gia đình cả hai vợ chồng nên làm ăn. Vợ chồng mỗi người một tài khoản riêng. Và tôi không chịu được sự phản bội”.
Bài sau đây thì người đàn ông (giả nữ) viết: "Xin chào! Tôi cực kỳ không hài lòng! Tại sao các anh làm như vậy với bọn em?! Chúng em cũng là những con người, phụ nữ và nam giới bình đẳng với nhau! Anh là người kỳ thị giới tính hay sao? Em không chịu đựng nổi cảnh này! Em sẽ đập phá chiếc xe của anh. Em quyết trả thù, anh là người vô dụng. Hãy chờ kết thúc đầy bi thảm”.
Cuộc nghiên cứu cho thấy rằng, cách tiếp cận dựa trên việc sử dụng mạng nơ ron tích chập và phương pháp học tập chuyên sâu để xác định giới tính của người viết văn bản đã mang lại kết quả tốt nhất.
Bây giờ nhóm nghiên cứu đang giải quyết nhiệm vụ xác định tuổi tác./.
Theo Sputnik
TIN LIÊN QUAN
Mẫu máy tính xách tay Bitblaze Titan BM15 sẽ có màn hình IPS LCD 15.6 inch có độ phân giải Full HD 1080p.
12/06/2022
Hôm nay đánh dấu kỷ niệm 38 năm của trò chơi mà chúng ta nghĩ đến bất cứ khi nào chúng ta xếp hành lý của mình cho một kỳ nghỉ hoặc cố gắng sắp xếp các hộp đồ trên kệ tủ. Vào ngày 6 tháng 6 năm 1984, lập trình viên Liên Xô Alexei Pajitnov đã phát hành trò chơi xếp hình Tetris, trò chơi này đã trở thành một trong những trò chơi máy tính phổ biến nhất trong lịch sử nhân loại.
Nhà sáng lập kiêm CEO Yandex – công ty tìm kiếm Internet được ví như “Google của nước Nga” – đã từ chức sau khi có tên trong danh sách cấm vận của EU.
05/06/2022
Ngày 3/6, Nga đã phóng thành công tên lửa đẩy Soyuz-2.1a đưa tàu vận tải Tiến bộ MS-20 (Progress MS-20) lên Trạm Vũ trụ quốc tế (ISS).
03/06/2022
Theo tờ Cnews, vào tháng 2, Bộ Nội vụ Nga thừa nhận gặp rắc rối trong việc tìm kiếm các con chip “cây nhà lá vườn” và hệ quả là phải chuyển sang các con chip do Intel sản xuất.
28/05/2022
Trong số các biện pháp trừng phạt của phương Tây dành cho Nga, các chuyên gia nhắc đến khả năng loại bỏ hoàn toàn Nga khỏi Internet toàn cầu.
28/05/2022
Ngày 27/5, Thủ tướng Nga Mikhail Mishustin cho biết, 85% các chuyên gia công nghệ thông tin rời Nga đã quay trở lại.
28/05/2022
Đây được coi là một trong những động thái mạnh tay nhất trong lịch sử của YouTube.
23/05/2022
Khởi điểm khách hàng có thể sử dụng dịch vụ này để thanh toán trong các cửa hàng trực tuyến từ điện thoại thông minh hoặc máy tính.
23/05/2022
Tuyên bố này nhằm bác bỏ thông tin trước đó cho rằng người dùng Google có thể nhìn thấy hình ảnh phân giải cao về các cơ sở quân sự quan trọng của Nga, như kho vũ khí hạt nhân, bãi phóng ICBM, tuần dương hạm Đô đốc Kunetzov...
19/04/2022