AI đang khiến Internet bước vào một giai đoạn khá kỳ lạ.
Trong nhiều năm, thông tin cá nhân của chúng ta vốn đã xuất hiện rải rác khắp nơi trên mạng nhưng phần lớn nằm “ẩn” khá sâu trong các diễn đàn cũ, trang dữ liệu công khai hoặc những website ít người để ý. Công cụ tìm kiếm truyền thống đôi khi không hiển thị chúng quá rõ ràng nên đa số người dùng gần như quên mất sự tồn tại của các dữ liệu này.

Nhưng mọi thứ thay đổi khi chatbot AI xuất hiện.
Thay vì chỉ đưa ra danh sách liên kết như Google Search trước đây, các mô hình như ChatGPT hay Gemini giờ có thể tổng hợp, phân tích và trả lời trực tiếp bằng ngôn ngữ tự nhiên. Điều đó cũng kéo theo một vấn đề đáng sợ hơn: AI đôi lúc có thể tự động “đào” lại những thông tin cá nhân mà chính người dùng không còn nhớ chúng từng tồn tại trên Internet.
AI đang vô tình biến dữ liệu cá nhân thành thứ quá dễ tìm
Một trong những ví dụ gây chú ý gần đây được nhắc tới trong bài viết của MIT Technology Review là trường hợp một kỹ sư phần mềm tại Israel liên tục nhận các cuộc gọi từ người lạ yêu cầu hỗ trợ ứng dụng thanh toán.
Ban đầu, anh không hiểu chuyện gì xảy ra. Nhưng sau đó mới phát hiện chatbot AI đã cung cấp số điện thoại cá nhân của mình cho người khác khi họ tìm kiếm thông tin hỗ trợ kỹ thuật.
Điều đáng nói là người này chưa từng chủ động công khai số điện thoại theo cách đó.
Một trường hợp khác xuất hiện trên Reddit khi nhiều người than phiền rằng họ liên tục bị làm phiền bởi các cuộc gọi từ người lạ tìm luật sư, thợ khóa hoặc chuyên gia tư vấn chỉ vì chatbot AI đưa nhầm số điện thoại của họ như một nguồn liên hệ phù hợp.
Ngay cả trong giới học thuật, vấn đề này cũng bắt đầu khiến nhiều người lo ngại. Một nghiên cứu sinh tiến sĩ tại Đại học Washington cho biết anh từng vô tình lấy được số điện thoại cá nhân của đồng nghiệp thông qua Gemini trong lúc thử nghiệm chatbot AI của Google.
AI lấy số điện thoại từ đâu?
Về bản chất, chatbot AI không “hack” dữ liệu cá nhân theo kiểu truyền thống.
Phần lớn mô hình như ChatGPT hay Gemini được huấn luyện bằng lượng dữ liệu khổng lồ từ Internet. Điều này đồng nghĩa nếu một số điện thoại từng xuất hiện ở đâu đó trên web — dù chỉ trong một bài đăng cũ, một hồ sơ công khai hoặc một diễn đàn ít người truy cập — AI hoàn toàn có khả năng đã “nhìn thấy” nó.
Ngoài dữ liệu huấn luyện, nhiều chatbot hiện đại còn tích hợp khả năng tìm kiếm web theo thời gian thực. Khi người dùng đặt câu hỏi, AI có thể quét qua hàng loạt website để tìm câu trả lời phù hợp nhất.
Vấn đề nằm ở chỗ AI không hoạt động giống con người.
Một người bình thường gần như không thể lần mò hàng nghìn kết quả tìm kiếm để ghép dữ liệu cá nhân lại với nhau. Nhưng AI thì có thể. Nó đủ nhanh để tìm ra những thông tin rất khó thấy và tổng hợp chúng thành câu trả lời hoàn chỉnh chỉ trong vài giây.
Đó là lý do nhiều người bất ngờ khi chatbot có thể đưa ra số điện thoại hoặc tài khoản mạng xã hội tưởng như “đã chìm” từ nhiều năm trước.
Các hãng AI có thực sự kiểm soát được chuyện này?
Phần lớn công ty AI đều tuyên bố họ có cơ chế bảo vệ dữ liệu cá nhân.

Ví dụ, nếu người dùng hỏi trực tiếp ChatGPT về số điện thoại của một cá nhân, chatbot thường sẽ từ chối với lý do chính sách an toàn. Tuy nhiên, các chuyên gia cho rằng hệ thống hiện vẫn tồn tại nhiều lỗ hổng về cách diễn giải truy vấn.
Chỉ cần thay đổi cách hỏi hoặc diễn đạt khác đi, AI đôi lúc lại cung cấp thông tin mà trước đó nó vừa từ chối.
Một ví dụ được chuyên trang Lifehacker nhắc tới là trường hợp biên tập viên Jake Peterson. Khi thử nghiệm với ChatGPT, chatbot đã cung cấp hai số điện thoại công khai liên quan tới người trùng tên với ông trên Internet.
Gemini của Google cũng cho kết quả tương tự trong một số tình huống. Dù không trực tiếp đưa số điện thoại cá nhân, chatbot vẫn chia sẻ tài khoản mạng xã hội và các dữ liệu liên hệ khác khá dễ dàng.
Điều này cho thấy các quy tắc an toàn của AI hiện chưa thực sự đồng nhất hoặc đủ chặt chẽ.
Đây không chỉ là vấn đề “spam cuộc gọi”
Nguy hiểm lớn nhất nằm ở việc AI đang khiến việc khai thác dữ liệu cá nhân trở nên dễ dàng hơn rất nhiều.
Trước đây, để tìm thông tin về một người, kẻ xấu thường phải tự tổng hợp dữ liệu từ nhiều nguồn khác nhau. Nhưng giờ chatbot AI có thể vô tình làm thay phần việc đó bằng cách gom các dữ liệu rải rác thành một câu trả lời hoàn chỉnh.
Điều này đặc biệt đáng lo trong bối cảnh lừa đảo trực tuyến ngày càng tinh vi.
Một số điện thoại bị lộ không chỉ dẫn tới spam cuộc gọi. Nó còn có thể bị dùng cho phishing, giả danh hỗ trợ kỹ thuật, tấn công SIM swap hoặc khai thác thêm các dữ liệu cá nhân khác.
Về bản chất, AI đang biến những dữ liệu “khó tiếp cận” thành dữ liệu “dễ truy cập”.
Và đó mới là điều đáng sợ nhất.
Có thể xoá số điện thoại khỏi ChatGPT hay Gemini không?
Câu trả lời ngắn gọn là: có, nhưng không dễ.
Một số công ty AI hiện cho phép người dùng gửi yêu cầu xoá dữ liệu cá nhân khỏi phản hồi chatbot. OpenAI có cổng yêu cầu riêng cho ChatGPT, trong khi Google và Anthropic cũng có các cơ chế hỗ trợ liên quan đến quyền riêng tư.
Tuy nhiên, quyền quyết định cuối cùng vẫn nằm ở nhà phát triển.
Ngoài ra, kể cả khi AI ngừng hiển thị dữ liệu, điều đó không có nghĩa thông tin đã biến mất khỏi Internet. Nếu số điện thoại vẫn tồn tại trên các website công khai, chatbot hoặc công cụ tìm kiếm khác vẫn có khả năng tìm thấy chúng.
Đó là lý do nhiều chuyên gia cho rằng giải pháp thực tế nhất hiện nay là chủ động giảm lượng dữ liệu cá nhân xuất hiện công khai trên mạng.
Người dùng nên rà soát các tài khoản cũ, bài đăng cũ, hồ sơ công khai hoặc các dịch vụ môi giới dữ liệu để yêu cầu xoá thông tin khi có thể. Một số công cụ như DeleteMe hay Incogni cũng hỗ trợ tự động gửi yêu cầu gỡ dữ liệu tới các nền tảng lưu trữ thông tin cá nhân.
AI đang mở ra cuộc chiến quyền riêng tư mới
Điều thú vị là AI không tạo ra vấn đề dữ liệu cá nhân từ đầu.
Internet vốn đã chứa quá nhiều thông tin về chúng ta từ nhiều năm qua. AI chỉ đang khiến việc khai thác chúng trở nên mạnh hơn, nhanh hơn và dễ hơn rất nhiều.
Đó cũng là lý do giới công nghệ ngày càng tranh cãi gay gắt về quyền riêng tư trong kỷ nguyên AI tạo sinh.
Khi chatbot có thể trò chuyện tự nhiên như con người, ranh giới giữa “tìm kiếm thông tin” và “khai thác dữ liệu cá nhân” bắt đầu trở nên mờ nhạt hơn bao giờ hết.
Và có lẽ đây mới chỉ là khởi đầu.