Năm 2025 đánh dấu năm trí tuệ nhân tạo tạo sinh (generative artificial intelligence - AI) trở thành chủ đề cốt lõi của ngành công nghiệp và mở ra một "cuộc phục hưng dữ liệu". Tuy nhiên, đến năm 2026, tầm quan trọng của nó đã vượt qua việc chỉ đơn thuần thu thập dữ liệu chất lượng cao. Câu hỏi làm thế nào để các mô hình AI có thể thực sự hiểu và sử dụng các lớp ngữ nghĩa "chính xác" của dữ liệu đã trở nên nổi bật. Điều này báo hiệu sự khởi đầu chính thức của kỷ nguyên thiết kế dữ liệu ngữ nghĩa, bao gồm đồ thị tri thức và bản thể học, và khả năng xác định rõ ràng ngữ cảnh dữ liệu , ngữ nghĩa và bản sắc kinh doanh.
Năm ngoái, trào lưu "trí tuệ nhân tạo tác nhân" đã càn quét toàn ngành công nghiệp, với nhiều công ty hy vọng tự động hóa việc kinh doanh và tối ưu hóa việc ra quyết định. Tuy nhiên, hầu hết các trí tuệ nhân tạo tác nhân đều không đáp ứng được kỳ vọng, và chất lượng dữ liệu chúng sử dụng cũng như tính phù hợp của ngữ cảnh bắt đầu được xem là nguyên nhân gốc rễ. Nghiên cứu từ Đại học Carnegie Mellon chỉ ra rằng các tác nhân hiện nay chưa được đào tạo đầy đủ để xử lý nhiệm vụ phức tạp, và các lỗi suy luận do ngữ cảnh dữ liệu gây ra có thể làm giảm hiệu suất tổng thể.
Trong bối cảnh đó, sự trưởng thành về chất lượng dữ liệu và quản trị dữ liệu đã trở thành một vấn đề then chốt. Mặc dù các nhà cung cấp dịch vụ đám mây lớn như Amazon Web Services (AWS) tiếp tục cung cấp các hệ sinh thái dữ liệu rộng lớn, nhưng các công nghệ liên quan đến dữ liệu và những đổi mới nền tảng mới được phát hành của họ lại hạn chế hơn so với năm trước. Ngược lại, các sự kiện như việc IBM mua lại Confluent và việc Microsoft phát hành HorizonDB dựa trên PostgreSQL đã thể hiện rõ xu hướng tái cấu trúc hệ thống công nghệ dữ liệu.
Kiến trúc không ETL và các công nghệ chia sẻ dữ liệu đã trở nên phổ biến vào năm 2025. Điều này thể hiện nỗ lực đơn giản hóa các đường dẫn dữ liệu phức tạp và dễ bị lỗi. Các nền tảng như Snowflake và Databricks đã cải thiện đáng kể khả năng truy cập dữ liệu việc kinh doanh bằng cách hỗ trợ tích hợp dữ liệu với SAP hoặc Salesforce.
Một xu hướng khác là việc áp dụng rộng rãi công nghệ xử lý dữ liệu vector. Hầu hết các nền tảng dữ liệu chính thống đều đã nâng cao khả năng truy xuất và phân tích dữ liệu vector của mình. Oracle đã phát hành chức năng truy vấn tích hợp dữ liệu có cấu trúc và không có cấu trúc, và AWS đã ra mắt lớp lưu trữ S3 được tối ưu hóa cho dữ liệu vector. Điều này đặt nền tảng cho việc ứng dụng toàn diện trí tuệ nhân tạo (AI) trong tài liệu, hình ảnh và thậm chí cả dữ liệu phân tán trong doanh nghiệp.
Thay đổi đáng chú ý nhất là việc đánh giá lại lớp ngữ nghĩa. Ban đầu được sử dụng trong các công cụ BI hoặc hệ thống ERP, lớp này chuẩn hóa ý nghĩa và cách diễn giải dữ liệu xoay quanh các khái niệm cốt lõi như " chỉ báo ", "kích thước" và "chi tiết". Tableau, Databricks, Snowflake, Microsoft và các công ty khác đang đẩy nhanh việc giới thiệu các lớp ngữ nghĩa. Trong đó biệt, Microsoft Fabric IQ tích hợp các khái niệm về bản thể học doanh nghiệp vào lớp ngữ nghĩa hiện có để đảm bảo tính chính xác theo ngữ cảnh của phân tích AI thời gian thực.
Trong bối cảnh đó, Sáng kiến Trao đổi Ngữ nghĩa Mở (Open Semantic Exchange Initiative), do Snowflake dẫn đầu, nhằm mục đích thiết lập một tiêu chuẩn chung để đảm bảo khả năng tương tác ngữ nghĩa giữa các nền tảng AI và dữ liệu khác nhau. Kiến trúc này dựa trên MetricFlow của dbt Labs, sử dụng các tệp cấu hình YAML để định nghĩa toàn diện chỉ báo và chiều dữ liệu. Tuy nhiên, liệu các dự án mã nguồn mở có thể xử lý tài sản ngữ nghĩa có giá trị cao hay không, đặc biệt là sự sẵn lòng chia sẻ chúng của các nhà cung cấp ứng dụng, vẫn còn phải chờ xem.
Nhìn xa hơn, các đồ thị tri thức độc lập và các công nghệ như GraphRAG đang thu hút sự chú ý như là cơ sở hạ tầng giúp AI hiểu ngữ cảnh một cách chính xác. Neo4J, công cụ Vertex AI RAG của Google và LazyGraphRAG của Microsoft đều đang nỗ lực xây dựng nền tảng công nghệ để kích hoạt các mô hình như vậy, và các trường hợp ứng dụng thực tiễn đang dần tăng lên. Các công ty như Deloitte và AdaptX đã và đang thúc đẩy mạnh mẽ các ứng dụng AI dựa trên đồ thị tri thức trong các lĩnh vực phức tạp như chăm sóc sức khỏe và an ninh.
Tuy nhiên, thách thức lớn nhất vẫn là sự thiếu hụt nhân tài trong lĩnh vực mô hình hóa ngữ nghĩa. Khi trí tuệ nhân tạo (AI) gặp khó khăn trong việc tự động thiết kế các cấu trúc ngữ nghĩa, nhu cầu về kỹ sư tri thức và kiến trúc sư ngữ nghĩa đã tăng vọt. Điều này gợi nhớ đến vấn đề "quản lý tri thức" của nhiều thập kỷ trước; trong xu hướng hiện nay, việc diễn giải ngữ nghĩa chính xác và tính ứng dụng việc kinh doanh quan trọng hơn việc chỉ đơn thuần thu thập dữ liệu.
Tóm lại, cốt lõi của kỷ nguyên AI không chỉ đơn thuần là tích lũy dữ liệu, mà là dữ liệu có khả năng hiểu chính xác ngữ nghĩa và ngữ cảnh. Năm 2026 được dự đoán là bước ngoặt trong việc hình thành các vòng tròn ảnh hưởng ngữ nghĩa và cuộc đấu tranh giành vị thế thống trị giữa các nền tảng và ứng dụng khác nhau. Mô hình chia sẻ hợp tác của các công ty như Snowflake, Databricks và SAP đang định hình bối cảnh cạnh tranh xoay quanh các tiêu chuẩn và hệ sinh thái, cho thấy rằng các công ty có thể cung cấp dữ liệu"phù hợp" cho AI cuối cùng sẽ giành được vị thế thống trị tuyệt đối.




