Dữ liệu Alchemy: Sử dụng thuật toán phân cụm và Chưng cất mô hình để làm sạch dữ liệu và tạo tập huấn luyện tốt nhất AccuResearch Vol 3 |

Bài viết này được dịch máy
Xem bản gốc

Thuật giả kim làm sạch dữ liệu: Sử dụng công nghệ Nhúng để lọc dữ liệu và sử dụng phương pháp lọc tương tự như Chưng cất mô hình để tạo ra các tập huấn luyện hiệu quả và kết quả huấn luyện mô hình xuất sắc.

Mục lục

Tầm quan trọng của việc làm sạch dữ liệu:

Sử dụng công nghệ Nhúng để tinh chỉnh các giá trị cốt lõi

Tác giả thực sự có bằng tiến sĩ hóa học, là một nhà hóa học, tôi quen với cách chiết xuất các chất tinh khiết từ hỗn hợp phức tạp. Trong lĩnh vực AI, quá trình làm sạch dữ liệu cũng tương tự. Chúng ta cần lọc ra những thông tin không liên quan từ dữ liệu thô hỗn loạn, rút những phần thực sự có giá trị và cung cấp tập dữ liệu huấn luyện (Data set) tốt nhất cho mô hình AI. .

Tuy nhiên, thách thức của việc làm sạch dữ liệu không chỉ dừng lại ở việc loại bỏ dữ liệu không hợp lệ rõ ràng. Trong dữ liệu văn bản, một số đoạn có vẻ liên quan nhưng có thể cản trở việc đào tạo mô hình; trong khi một số đoạn thoạt nhìn có vẻ vô dụng nhưng thực tế lại chứa thông tin quan trọng. Trong những tình huống này, những đánh giá chủ quan của con người thường khó thống nhất và thậm chí có thể tạo ra những kết quả hoàn toàn khác nhau.

Do đó, làm thế nào để làm sạch dữ liệu chính xác và hiệu quả hơn đã trở thành một vấn đề cốt lõi. Ở đây, công nghệ nhúng và thuật toán phân cụm đóng nhân vật quan trọng. Công nghệ nhúng có thể chuyển đổi văn bản thành các vectơ số và nắm bắt cấu trúc ngữ nghĩa sâu sắc của nó, trong khi thuật toán phân cụm có thể giúp chúng ta phân loại và nhóm dữ liệu dựa trên sự tương đồng giữa dữ liệu , tiết lộ thêm giá trị nội tại của nó. Sự kết hợp này không chỉ cải thiện độ chính xác của việc xử lý dữ liệu mà còn đặt nền tảng vững chắc cho việc đào tạo mô hình.

Từ thí nghiệm hóa học đến làm sạch dữ liệu AI:

Đường dẫn thực tế của thuật toán phân cụm

Trong các thí nghiệm hóa học, quá trình chuyển đổi từ sắc ký cột thủ công sang HPLC chuẩn bị (sắc ký lỏng hiệu năng cao) đã giúp chúng tôi đạt được bước nhảy vọt về hiệu quả tinh chế và độ chính xác. Trong lĩnh vực làm sạch dữ liệu, những bước nhảy vọt về công nghệ như vậy cũng tồn tại. Ban đầu, tôi hy vọng sử dụng công nghệ Nhúng để ánh xạ dữ liệu văn bản vào không gian ngữ nghĩa nhiều chiều và từ đó rút cấu trúc nội tại của dữ liệu. Tuy nhiên, quá trình này giống như sắc ký cột thủ công, cồng kềnh, kém hiệu quả và cần lượng lớn sự can thiệp thủ công, khiến việc xử lý dữ liệu trở thành một nhiệm vụ tốn nhiều thời gian và công sức.

Để giải quyết điểm yếu này, tôi đã kết hợp các công cụ lập trình AI như ClaudeCursor để nhanh chóng phát triển bộ phần mềm phân tích phân cụm và làm sạch dữ liệu. Phần mềm này sử dụng thuật toán phân cụm để tự động xác định các đặc điểm phân phối của dữ liệu. Ngay cả những đoạn dữ liệu khó đánh giá một cách chủ quan cũng có thể tìm thấy giá trị thực của chúng dựa trên các mối quan hệ ngữ nghĩa vốn có của chúng. Ngoài ra, báo cáo phân tích được tạo ra với sự hỗ trợ của mô hình GPT cho phép mọi khía cạnh xử lý dữ liệu được tự động hóa cao, giống như HPLC được kết nối nối tiếp với TOF-MS (máy quang phổ khối, công cụ phân tích chất lượng của các chất), cho phép dữ liệu được "tách" và "Xác thực" thực hiện hoạt động tích hợp.

Những công cụ như vậy không chỉ cải thiện đáng kể hiệu quả làm sạch dữ liệu mà còn hạ thấp ngưỡng kỹ thuật. Ngay cả khi bạn không có bối cảnh lập trình chuyên sâu, bạn có thể sử dụng các công cụ này để nhanh chóng xây dựng quy trình xử lý dữ liệu đáp ứng nhu cầu của riêng mình và hoàn thành toàn bộ quá trình từ thu thập dữ liệu đến phân tích kết quả.

Hình 1 thể hiện giao diện chức năng của phần mềm Nhúng, bao gồm menu chính, thanh công cụ và cửa sổ trực quan của phân tích nhúng, giúp người dùng thực hiện xử lý dữ liệu và phân tích mô hình.

Toàn cảnh công nghệ xử lý dữ liệu AI:

Năm bước để tối ưu hóa dữ liệu đào tạo của bạn

Quá trình làm sạch dữ liệu giống như một thử nghiệm phức tạp và mỗi giai đoạn đều yêu cầu các công cụ và phương pháp chuyên dụng để trích xuất giá trị cốt lõi. Sau đây là phần trình bày đầy đủ về toàn bộ quá trình làm sạch dữ liệu, cũng như ứng dụng thực tế của từng phương pháp kỹ thuật, theo dạng Bước 1 đến Bước 5 .

Bước 1: Phương pháp nhúng – rút lõi ngữ nghĩa của dữ liệu

Bước đầu tiên trong việc làm sạch dữ liệu là rút các tính năng cốt lõi. Phương pháp nhúng có thể chuyển đổi văn bản thành vectơ, số hóa thông tin ngữ nghĩa, cung cấp cơ sở có cấu trúc cho quá trình xử lý tiếp theo và xây dựng Tập dữ liệu chính xác hơn.

Người mẫu Tính năng và ứng dụng
Mô hình nhúng OpenAI
  • Chức năng: Ánh xạ văn bản vào không gian ngữ nghĩa nhiều chiều và nắm bắt mối liên hệ ngữ nghĩa giữa các văn bản
  • Các tình huống áp dụng: nhiều dữ liệu, phân tích ngữ nghĩa đa phương thức, chẳng hạn như sàng lọc nhận xét của người dùng
  • Ưu điểm: Xử lý hiệu quả dữ liệu quy mô lớn và rút chính xác các đặc điểm ngữ nghĩa
Câu-BERT
  • Vai trò: Tạo biểu diễn câu nhỏ gọn và tính toán độ tương tự về ngữ nghĩa
  • Các tình huống có thể áp dụng: các trường hợp so sánh ngữ nghĩa tinh vi, chẳng hạn như loại bỏ văn bản hoặc so khớp văn bản có liên quan cao
  • Ưu điểm: Nâng cao độ chính xác của phép tính tương tự ngữ nghĩa và tránh bỏ sót những thông tin quan trọng

Bước 2: Thuật toán nhóm – công cụ phân tách dữ liệu

Sau khi rút các đặc điểm ngữ nghĩa, chúng ta cần lọc thêm dữ liệu. Thuật toán phân cụm có thể chia dữ liệu thành các cụm khác nhau dựa trên cấu trúc vốn có của nó, tạo cơ sở cho việc làm sạch và phân tích tiếp theo.

thuật toán Tính năng và ứng dụng
K-nghĩa là
  • Chức năng: Chia dữ liệu thành một số cụm cố định dựa trên khoảng cách Euclide
  • Các tình huống áp dụng: các tình huống trong đó cấu trúc dữ liệu thường xuyên và cần được phân loại nhanh chóng
  • Ưu điểm: Tốc độ chạy nhanh, thích hợp làm công cụ phân nhóm sơ bộ
DBSCAN
  • Chức năng: Dựa trên phân cụm mật độ, nó có thể phát hiện các cụm tùy ý và phát hiện dữ liệu.
  • Các tình huống có thể áp dụng: các tình huống phân phối dữ liệu không đều hoặc có các ngoại lệ
  • Ưu điểm: Tự động phát hiện các điểm bất thường và nâng cao độ chính xác của việc làm sạch dữ liệu
HDBSCAN
  • Chức năng: Xử lý thích ứng các cụm dữ liệu có mật độ khác nhau
  • Các tình huống áp dụng: các tình huống trong đó mật độ phân bố không đồng đều và khó điều chỉnh các thông số
  • Ưu điểm: Độ ổn định cao, giảm bớt rắc rối khi điều chỉnh thông số

Bước 3: Công nghệ giảm kích thước – phương tiện cần thiết để biến sự phức tạp thành đơn giản

Khi việc phân cụm hoàn tất, chúng ta có thể gặp phải vấn đề về tính chiều dữ liệu quá cao. Công nghệ giảm kích thước có thể giúp chúng ta đơn giản hóa cấu trúc dữ liệu, lưu giữ thông tin quan trọng và giúp các phân tích tiếp theo trở nên trực quan hơn.

công nghệ Tính năng và ứng dụng
PCA
  • Chức năng: giữ lại phương sai tối đa dữ liệu và đơn giản hóa cấu trúc dữ liệu
  • Các tình huống có thể áp dụng: các tình huống trong đó việc phân phối dữ liệu thường xuyên và cần giảm kích thước nhanh chóng
  • Ưu điểm: tính toán nhanh, dễ hiểu các nguồn Đột biến chính
t-SNE
  • Chức năng: giảm kích thước phi tuyến, thích hợp để phân tích trực quan dữ liệu nhiều chiều
  • Các tình huống có thể áp dụng: những trường hợp cần hiển thị kết quả nhóm dữ liệu một cách trực quan
  • Ưu điểm: Bảo toàn cấu trúc cục bộ, dữ liệu tương tự được phân cụm chặt chẽ hơn
UMAP
  • Chức năng: Cân bằng các tính năng dữ liệu cục bộ và toàn cầu để cải thiện hiệu quả giảm kích thước
  • Các kịch bản có thể áp dụng: Các kịch bản giảm kích thước yêu cầu cả hiệu quả và độ chính xác.
  • Ưu điểm: tính toán nhanh, cấu trúc lưu trữ dữ liệu nhiều hơn

Bước 4: Đánh giá chỉ báo– đảm bảo hiệu quả làm sạch dữ liệu

Sau khi phân cụm và giảm kích thước, chỉ báo định lượng cần được sử dụng để đánh giá việc làm sạch dữ liệu có đạt được mục tiêu mong đợi hay không.

chỉ báo Tính năng và ứng dụng
Điểm bóng
  • Chức năng: Đánh giá mức độ chặt chẽ và tách biệt của các nhóm
  • Các tình huống áp dụng: Xác minh xem cấu trúc nhóm có hợp lý không
  • Ưu điểm: Điểm càng gần 1 thì hiệu quả phân nhóm càng tốt.
Chỉ số Davies-Bouldin
  • Chức năng: đo lường sự tương đồng trong các cụm và sự khác biệt giữa các cụm
  • Các tình huống áp dụng: So sánh hiệu quả của nhiều phương pháp phân nhóm
  • Ưu điểm: Giá trị càng nhỏ thì hiệu ứng nhóm càng tốt.
Chỉ số Calinski-Harabasz
  • Chức năng: So sánh phương sai giữa các cụm và phương sai trong các cụm đánh giá hiệu quả tổng thể của việc phân cụm.
  • Các tình huống áp dụng: Nhanh chóng chọn phương pháp phân nhóm tốt nhất
  • Ưu điểm: Điểm càng cao thì các cụm càng chặt chẽ và phân tán đều.

Bước 5: Phân tích mô hình GPT – đánh giá cụm thông minh

Sau khi hoàn thành phân tích cụm sơ bộ, chúng ta có thể sử dụng mô hình GPT-4 để tiến hành phân tích chuyên sâu về nội dung văn bản của từng cụm. Thông qua Lời nhắc hệ thống và Lời nhắc người dùng được tùy chỉnh, các mô hình GPT có thể:

  1. Tự động xác định và lọc dữ liệu đào tạo chất lượng cao
  2. Nhanh chóng làm sạch các tập dữ liệu để loại bỏ nhiễu và các giá trị ngoại lệ
  3. Tối đa hóa chất lượng dữ liệu cho đào tạo mô hình
  4. Giảm sự thiên vị khách quan của sàng lọc thủ công
  5. Cải thiện đáng kể khả năng khái quát hóa của mô hình

Phương pháp phân tích dựa trên các mô hình ngôn ngữ lớn này có thể giúp chúng ta hiểu sâu sắc các đặc điểm của phân phối dữ liệu từ cấp độ ngữ nghĩa và đưa ra hướng dẫn chính xác hơn cho công việc tiền xử lý và làm sạch dữ liệu tiếp theo.

Quy trình làm sạch dữ liệu gồm 5 bước: hướng tới điều kiện tối ưu

Làm sạch dữ liệu không phải là quá trình một chiều mà là một chu trình tối ưu hóa lặp đi lặp lại liên tục. Từ Bước 1 đến Bước 5, chúng ta có thể xử lý dữ liệu một cách toàn diện và kết quả phân tích mô hình GPT của Bước 5 không chỉ là điểm kết thúc của công việc dọn dẹp mà còn là điểm bắt đầu của chu kỳ tiếp theo. Phương pháp này cho phép chúng tôi dần dần tiếp cận Điều kiện tối ưu hóa xử lý dữ liệu.

Biểu đồ luồng Chu trình sàng lọc dữ liệu hiển thị năm bước xử lý dữ liệu: Bước 1 công nghệ nhúng trích xuất các đặc điểm ngữ nghĩa từ dữ liệu gốc, Bước 2 sử dụng các phương pháp phân cụm để lọc dữ liệu, Bước 3 đơn giản hóa cấu trúc dữ liệu thông qua việc giảm kích thước và Bước 4 sử dụng Các chỉ số đánh giá Để phát hiện tác động, Bước 5 sử dụng mô hình GPT để phân tích chuyên sâu và cuối cùng lặp lại Bước 1 để tạo thành một chu trình tinh chỉnh dữ liệu hoàn chỉnh.

  1. Bắt đầu từ Bước 1: Công nghệ nhúng rút các đặc điểm ngữ nghĩa và đặt nền tảng cho việc làm sạch dữ liệu.
  2. Sau Bước 2 đến Bước 4: lọc dữ liệu thành các nhóm, giảm kích thước và đơn giản hóa cấu trúc, đồng thời sử dụng chỉ báo đánh giá để phát hiện tác động, một khung làm sạch sơ bộ sẽ được hình thành.
  3. Bước 5: Mô hình GPT phân tích sâu các đặc điểm của cụm, đưa ra đề xuất tăng hoặc giảm số lượng cụm và chỉ ra các cụm cần làm sạch hoặc loại bỏ thêm để làm cho dữ liệu gần với mục tiêu hơn.
  4. Quay lại Bước 1 lần nữa để thực hiện lại việc nhúng và phân tích nhóm dựa trên dữ liệu và thông số đã sửa đổi nhằm tối ưu hóa hơn nữa toàn bộ quy trình làm sạch.

Thông qua một chu trình như vậy, mỗi vòng xử lý sẽ chính xác hơn vòng trước, cấu trúc và đặc điểm của dữ liệu sẽ ngày càng rõ ràng hơn và cuối cùng sẽ tìm được điều kiện tốt nhất phù hợp cho việc huấn luyện mô hình. Quá trình tối ưu hóa lặp đi lặp lại này làm cho việc làm sạch dữ liệu không chỉ là thực hiện các bước cố định mà còn là một quy trình khoa học điều chỉnh động và cải tiến dần dần.

Kịch bản ví dụ ứng dụng:

Trực quan hóa phân cụm và phân phối dữ liệu K-mean

Khi đào tạo một mô hình có khả năng khái quát hóa tốt, sự cân bằng trong phân phối dữ liệu là rất quan trọng. Chúng tôi hy vọng mô hình sẽ tiếp xúc với nhiều loại mẫu đào tạo khác nhau và các mẫu này phải được phân phối về số lượng càng đồng đều càng tốt để tránh mô hình bị thiên vị quá mức đối với các loại dữ liệu cụ thể trong quá trình đào tạo.

Để đạt được mục tiêu này, chúng ta có thể sử dụng thuật toán phân cụm K-mean để phân tích dữ liệu. Bằng cách đặt số lượng cụm thích hợp và kết hợp báo cáo phân tích do AI tạo ra, chúng tôi có thể đánh giá việc phân phối dữ liệu. Lấy kết quả phân tích trong hình bên dưới làm ví dụ. Nhóm 3 (vùng màu xanh nhạt) có sự trùng lặp đáng kể với các nhóm khác trong không gian vectơ hai chiều, điều này cho thấy dữ liệu của cụm này có thể cần được tối ưu hóa và làm sạch thêm để cải thiện mô hình. học tập.

Lợi ích của việc có thể xuất hình ảnh 3D cùng lúc không gì khác hơn là xác nhận thêm rằng có thể có một số sự trùng lặp trong hình ảnh hai chiều, nhưng chúng có thể được phân biệt trong hình ảnh ba chiều (như trong ví dụ) .

Hình 2 hiển thị kết quả trực quan hóa dữ liệu 2D và 3D được tạo ra bởi phân cụm K-means. Nó cho thấy các điểm dữ liệu được chia thành các nhóm có màu sắc khác nhau dựa trên kết quả phân cụm, giúp quan sát cấu trúc phân cụm và đặc điểm phân phối dễ dàng hơn.

Phát hiện ngoại lệ DBSCAN và làm sạch dữ liệu

Khi mục tiêu của chúng tôi là xác định và loại bỏ nhiễu trong dữ liệu, DBSCAN (Thuật toán phân cụm không gian dựa trên mật độ) cung cấp giải pháp chính xác hơn. Thuật toán này có thể xác định một cách hiệu quả các ngoại lệ lệch khỏi các cụm chính hoặc mặc dù không có sự khác biệt đáng kể trong biểu đồ vectơ nhưng chúng thực sự được tách thành các cụm rất nhỏ. Đây là những cụm rất đáng được chúng tôi chú ý và xử lý trước để giúp chúng tôi xác định các mẫu. rõ ràng không khớp với đặc điểm của dữ liệu huấn luyện chính . Phương pháp này đặc biệt phù hợp để làm sạch các tập dữ liệu huấn luyện để đảm bảo chất lượng dữ liệu nhất quán.

Hình 3 cho thấy việc sử dụng phương pháp phân cụm DBSCAN để chọn các điểm nhiễu bên ngoài các cụm chính. Các điểm nhiễu này được phân biệt bằng các dấu hiệu đặc biệt, thể hiện rõ đặc điểm tách biệt của chúng với các cụm chính, rất hữu ích cho việc xác định và xử lý dữ liệu bất thường.

Những thách thức thực hiện:

Bước đầu tiên trong việc làm sạch dữ liệu

Mặc dù công nghệ ngày càng tốt hơn nhưng việc gửi Dữ liệu thô phù hợp vẫn là chìa khóa để làm sạch dữ liệu thành công. Các loại văn bản và nhu cầu khác nhau đòi hỏi các chiến lược phân loại sơ bộ thích hợp Cũng giống như trong các thí nghiệm hóa học, quá trình chiết cơ bản được thực hiện sau phản ứng để tách pha hữu cơ khỏi pha nước nhằm loại bỏ hầu hết tạp chất và mở đường cho quá trình tinh chế tiếp theo.

Bước đầu tiên trong việc làm sạch dữ liệu là sàng lọc và sắp xếp sơ bộ, chẳng hạn như loại bỏ các ký tự định dạng trong văn bản, loại bỏ dữ liệu bất thường hoặc điền vào các giá trị null hợp lý. Hiệu quả và độ chính xác của bước này ảnh hưởng trực tiếp đến hiệu ứng nhúng và nhóm tiếp theo. Chỉ bằng cách đặt nền tảng tốt, chúng ta mới có thể thực sự giải phóng được giá trị của công nghệ và đạt được mục tiêu cuối cùng là thuật giả kim dữ liệu.

Phần kết luận:

Giả kim thuật dữ liệu, trong các thí nghiệm hóa học, giống một quá trình tinh chế hơn là chưng cất.

Có người đã đề xuất Model Distillation , nhưng nếu chúng ta so sánh dữ liệu với nguyên liệu thô trong hóa học thì tôi nghĩ việc chúng ta đang làm giống một thử nghiệm tinh chế dầu thô (sản phẩm thô) hơn. Cho dù chúng tôi sử dụng phương pháp nhúng để rút các tính năng hay sử dụng thuật toán phân cụm để loại bỏ tạp chất, mỗi bước chúng tôi thực hiện đều giống như một nhà hóa học thực hành lặp đi lặp lại trong phòng thí nghiệm. Mục đích là rút giá trị cốt lõi của dữ liệu và mang lại sự thuần khiết và hiệu quả nhất. Mô hình dinh dưỡng AI

Ngày nay, với sự xuất hiện của các công cụ lập trình AI như ClaudeCursor , loại “thí nghiệm thanh lọc” này không còn là sở thích độc quyền của các chuyên gia kỹ thuật. Ngay cả khi bạn không có nền tảng kỹ thuật chuyên sâu, bạn vẫn có thể dễ dàng sử dụng những công cụ này để nhanh chóng tạo ra các giải pháp đáp ứng nhu cầu của mình. Giống như thiết bị hóa học hiện đại giúp nghiên cứu hiệu quả và dễ kiểm soát hơn, các công cụ AI cũng đang hạ thấp ngưỡng để việc xử lý dữ liệu không còn đòi hỏi chi phí học tập cao.

Đó không chỉ là ứng dụng công nghệ mà còn là sự chuyển đổi phương pháp làm việc Bắt đầu từ việc xử lý những nguyên liệu thô lộn xộn, thông qua sự hỗ trợ của các thuật toán và công cụ AI, cuối cùng một bộ dữ liệu thuần túy và chất lượng cao đã được trích xuất. Chúng tôi đang sử dụng công nghệ để làm cho thuật giả kim dữ liệu trở nên chính xác hơn và mọi người dễ tiếp cận hơn.

Cho dù bạn là nhà nghiên cứu AI, nhà phân tích dữ liệu hay người mới bắt đầu tò mò về công nghệ, “thí nghiệm” lọc dữ liệu này có thể trở thành một phần không thể thiếu trong công việc của bạn. Chúng ta hãy cùng nhau sử dụng thuật giả kim dữ liệu để trích xuất giá trị thực sự của dữ liệu và áp dụng nó để thay đổi mọi ngóc ngách của thực tế!

Từ khóa: Tiền xử lý dữ liệu| Thuật toán phân cụm |

dữ liệu Alchemy: Sử dụng thuật toán phân cụm và Chưng cất mô hình để làm sạch dữ liệu và tạo tập huấn luyện tốt nhất|AccuResearch Tập 3 xuất hiện đầu tiên trên Accucrazy Xiao Zhun .

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận