Dù bạn mới làm quen với Stata hay đang loay hoay giữa hàng loạt câu lệnh khó nhớ, việc nắm vững các câu lệnh trong Stata từ cơ bản đến nâng cao chính là chìa khóa giúp xử lý dữ liệu nhanh hơn, phân tích chính xác hơn và tránh những lỗi không đáng có. Trong bài viết này, VietGuru sẽ hệ thống lại các câu lệnh trong Stata quan trọng theo từng mức độ, kèm ví dụ dễ hiểu, giúp người mới bắt đầu tiếp cận Stata một cách bài bản và hiệu quả ngay từ đầu.
1. Tìm hiểu tổng quan file dữ liệu trong Stata
Để làm quen với các câu lệnh trong Stata, bạn có thể bắt đầu bằng việc sử dụng bộ dữ liệu mẫu được cài sẵn trong phần mềm. Lệnh sysuse cho phép tải nhanh các file dữ liệu định dạng Stata có sẵn. Ví dụ, file auto (dữ liệu về sửa chữa và đặc điểm xe hơi) luôn có sẵn ngay sau khi cài đặt Stata. Tại cửa sổ lệnh, bạn nhập: sysuse auto
Sau khi tải dữ liệu, lệnh describe sẽ giúp bạn xem thông tin tổng quan của file như số lượng quan sát, số biến, tên biến và cấu trúc dữ liệu. Đây là bước cơ bản nhưng rất quan trọng khi bắt đầu làm việc với bất kỳ bộ dữ liệu nào trong Stata.
Để hiểu sâu hơn về từng biến, lệnh codebook là một công cụ cực kỳ hữu ích. Lệnh này tạo ra một sổ mã điện tử, cung cấp cái nhìn nhanh về giá trị, phân bố và đặc điểm của các biến trong file dữ liệu.
Bên cạnh đó, lệnh inspect cũng thường được dùng để kiểm tra nhanh tình trạng dữ liệu, giúp bạn phát hiện sớm các giá trị bất thường hoặc thiếu sót trước khi phân tích.
Cuối cùng, khi cần xem trực tiếp nội dung dữ liệu, lệnh list cho phép hiển thị toàn bộ hoặc một phần các quan sát. Chẳng hạn, để xem các biến make, price, mpg, rep78, foreign của 10 quan sát đầu tiên, bạn có thể dùng: list make price mpg rep78 foreign in 1/10

Tìm hiểu tổng quan file dữ liệu trong Stata
Việc nắm vững các câu lệnh trong Stata này sẽ giúp người mới sử dụng Stata tiếp cận dữ liệu dễ dàng hơn và hiểu rõ cách vận hành của các câu lệnh trong Stata ngay từ những bước đầu tiên.
Xem thêm: Kiểm định tự tương quan Stata
2. Lệnh tabulate tạo bảng tần suất
Trong nhóm các câu lệnh trong Stata dùng cho thống kê mô tả, tabulate là lệnh rất phổ biến để tạo bảng tần số và quan sát nhanh phân bố dữ liệu. Ví dụ, khi lập bảng cho biến rep78, bạn có thể dùng lệnh tabulate hoặc viết gọn thành tab để thao tác nhanh hơn.
Khi cần lập bảng cho nhiều biến cùng lúc, lệnh tab1 sẽ giúp tối giản thao tác, thay vì phải gõ lệnh tab lặp đi lặp lại cho từng biến riêng lẻ. Đây là cách hiệu quả để kiểm tra nhanh nhiều biến trong cùng một file dữ liệu.
Ngoài bảng số liệu, bạn còn có thể trực quan hóa kết quả bằng cách thêm tùy chọn plot, giúp hiển thị biểu đồ ngay từ các giá trị đã được lập bảng.
Lệnh tabulate cũng cho phép tạo bảng chéo giữa hai biến để so sánh mối quan hệ, chẳng hạn như lịch sử sửa chữa giữa xe nội địa và xe nhập khẩu. Khi kết hợp với tùy chọn column, Stata sẽ hiển thị tỷ lệ phần trăm theo cột, giúp bạn dễ dàng nhận ra sự khác biệt giữa các nhóm. Ví dụ: tabulate rep78 foreign, column
Nếu chỉ muốn xem tỷ lệ phần trăm mà không hiển thị tần số, bạn có thể thêm tùy chọn nofreq: tabulate rep78 foreign, column nofreq

Lệnh tabulate tạo bảng tần suất
Cuối cùng, cần lưu ý rằng trong Stata, thứ tự các tùy chọn sau dấu phẩy không ảnh hưởng đến kết quả. Điều quan trọng là các option phải được đặt đúng sau dấu phẩy để lệnh chạy chính xác. Nắm chắc những điểm này sẽ giúp bạn sử dụng các câu lệnh trong Stata linh hoạt và hiệu quả hơn.
Xem thêm: Cách chạy Stata
3. Các câu lệnh nhập và quản lý dữ liệu trong Stata
Để Stata có thể phân tích chính xác, dữ liệu cần được nhập đúng định dạng và quản lý hiệu quả ngay từ đầu. Nhóm các câu lệnh trong Stata nhập và quản lý dữ liệu sẽ giúp bạn tải dữ liệu từ nhiều nguồn khác nhau, sắp xếp, chỉnh sửa và kiểm soát dữ liệu một cách khoa học, tạo nền tảng vững chắc cho các bước phân tích tiếp theo.
3.1. Nhập dữ liệu từ Excel, CSV và các nguồn khác
Stata cho phép nhập dữ liệu linh hoạt từ nhiều định dạng phổ biến như Excel, CSV hay các nguồn cơ sở dữ liệu khác, giúp người dùng dễ dàng bắt đầu làm việc với dữ liệu sẵn có.
- Với file Excel, bạn có thể sử dụng lệnh import excel để đưa dữ liệu vào Stata. Chẳng hạn, stataimport excel “du_lieu.xlsx”, sheet(“Sheet1”) firstrow, lệnh này sẽ đọc dữ liệu Sheet1 và lấy dòng đầu tiên làm tên biến.
- Trong trường hợp dữ liệu ở định dạng CSV, lệnh import delimited là lựa chọn phù hợp. Lệnh này cho phép chỉ định ký tự phân tách và xác định dòng chứa tên biến, đảm bảo dữ liệu được đọc chính xác và nhất quán.
Nhờ các lệnh nhập dữ liệu này, Stata giúp bạn nhanh chóng chuẩn bị dữ liệu gọn gàng, sẵn sàng cho các bước xử lý và phân tích tiếp theo.
3.2. Kiểm tra và làm sạch dữ liệu
Sau khi hoàn tất việc nhập dữ liệu, bước tiếp theo là rà soát lại toàn bộ dữ liệu để đảm bảo tính nhất quán và loại bỏ những giá trị không phù hợp.
Trong các câu lệnh trong Stata, lệnh describe thường được dùng đầu tiên để xem tổng quan bộ dữ liệu, bao gồm tên biến, kiểu dữ liệu và số lượng quan sát. Nhờ đó, bạn có thể nhanh chóng nắm được cấu trúc dữ liệu trước khi phân tích.
Đối với các giá trị bị mã hóa đặc biệt (ví dụ như -999 dùng để đại diện cho dữ liệu thiếu), lệnh mvdecode sẽ giúp chuyển chúng về dạng missing chuẩn của Stata. Việc này giúp kết quả phân tích chính xác và tránh sai lệch không mong muốn.

Kiểm tra và làm sạch dữ liệu
3.3. Tạo, chỉnh sửa và xóa biến trong Stata
Stata cũng hỗ trợ tạo biến mới hoặc điều chỉnh biến sẵn có một cách đơn giản. Khi cần xây dựng biến mới dựa trên dữ liệu hiện tại, bạn có thể dùng lệnh generate. Ví dụ, tạo biến tuoi_moi bằng cách cộng thêm 1 vào biến tuổi ban đầu: generate: statagenerate tuoi_moi = tuoi + 1
Trong trường hợp cần thay đổi giá trị của một biến đã có, lệnh replace sẽ phát huy tác dụng. Chẳng hạn, chuyển giá trị dạng chữ như “Nam” sang số 1 sẽ giúp dữ liệu gọn gàng hơn và thuận tiện cho các bước phân tích thống kê sau này: replace: statareplace gioi_tinh = 1 if gioi_tinh == “Nam”.
Xem thêm: Hướng dẫn tải STATA
4. Các câu lệnh phân tích thống kê cơ bản trong Stata
Trong các câu lệnh trong Stata, nhóm lệnh phân tích thống kê đóng vai trò trung tâm, giúp người dùng thực hiện từ những phép thống kê cơ bản đến các mô hình phân tích chuyên sâu một cách linh hoạt và chính xác.
4.1. Câu lệnh thống kê mô tả
Các lệnh như summarize và tabulate thường được dùng để phác họa bức tranh tổng quát của dữ liệu. Lệnh summarize cho phép xem nhanh các chỉ số quan trọng như giá trị trung bình, độ lệch chuẩn, giá trị nhỏ nhất và lớn nhất. Khi thêm tùy chọn detail, kết quả sẽ càng chi tiết hơn, hỗ trợ việc đánh giá phân bố dữ liệu.
Trong khi đó, tabulate giúp lập bảng tần suất, cho biết số lượng và tỷ lệ của từng nhóm, chẳng hạn như phân bố giới tính trong bộ dữ liệu.
4.2. Câu lệnh kiểm định giả thuyết
Stata hỗ trợ đa dạng các phương pháp kiểm định thống kê nhằm đánh giá sự khác biệt hoặc mối liên hệ giữa các biến. Với t-test, bạn có thể so sánh giá trị trung bình giữa hai nhóm và xác định xem sự khác biệt đó có ý nghĩa thống kê hay không.
Ngoài ra, kiểm định chi-square thường được sử dụng để xem xét mối quan hệ giữa các biến định tính, ví dụ như giới tính và trình độ học vấn có liên quan đến nhau hay không.

Câu lệnh kiểm định giả thuyết
4.3. Câu lệnh hồi quy tuyến tính
Hồi quy là một trong những công cụ mạnh mẽ nhất trong Stata để phân tích mối quan hệ giữa các biến. Lệnh regress cho phép xây dựng mô hình hồi quy đơn, giúp đánh giá tác động của một biến độc lập lên biến phụ thuộc, chẳng hạn như ảnh hưởng của tuổi đến mức lương.
Khi cần phân tích toàn diện hơn, hồi quy đa biến sẽ giúp kiểm soát đồng thời nhiều yếu tố, từ đó cho kết quả sát thực và đáng tin cậy hơn. Việc nắm vững nhóm các câu lệnh trong Stata này sẽ giúp bạn khai thác dữ liệu hiệu quả và chuyên nghiệp hơn.
Xem thêm: Tải AMOS full bản quyền
5. Các câu lệnh phân tích nâng cao trong Stata
Với những người sử dụng ở mức nâng cao, các câu lệnh trong Stata không chỉ dừng lại ở phân tích cơ bản mà còn hỗ trợ nhiều tính năng chuyên sâu, giúp tự động hóa quy trình và xử lý dữ liệu hiệu quả hơn.
5.1. Lập trình với lệnh do-file và ado-file
Stata cho phép viết các file lệnh để chạy hàng loạt thao tác chỉ trong một lần thực thi. Thông qua do-file, bạn có thể lưu toàn bộ câu lệnh phân tích trong một file và chạy lại bất cứ lúc nào, vừa tiết kiệm thời gian vừa dễ chỉnh sửa, cập nhật.
Ở mức cao hơn, ado-file cho phép người dùng tự xây dựng các lệnh riêng theo nhu cầu. Sau khi định nghĩa chương trình, bạn có thể gọi lệnh này giống như một lệnh Stata mặc định, giúp chuẩn hóa và tái sử dụng quy trình phân tích.
5.2. Phân tích dữ liệu bảng
Khi làm việc với dữ liệu bảng, Stata cung cấp các lệnh chuyên biệt như xtset và xtreg. Lệnh xtset dùng để khai báo cấu trúc dữ liệu theo cá thể và thời gian, tạo nền tảng cho các phân tích tiếp theo.
Sau đó, xtreg cho phép chạy các mô hình hồi quy dữ liệu bảng, chẳng hạn mô hình hiệu ứng cố định, nhằm kiểm soát những yếu tố không quan sát được nhưng có ảnh hưởng đến kết quả.

Phân tích dữ liệu bảng
5.3. Xử lý dữ liệu lớn trong Stata
Đối với các bộ dữ liệu quy mô lớn, Stata vẫn đảm bảo hiệu suất nhờ những lệnh tối ưu như collapse và merge. Lệnh collapse giúp tổng hợp dữ liệu nhanh chóng theo nhóm, ví dụ tính giá trị trung bình theo giới tính. Trong khi đó, merge hỗ trợ kết nối nhiều tập dữ liệu dựa trên biến khóa chung, giúp hoàn thiện và mở rộng dữ liệu phân tích.
Nắm vững nhóm các câu lệnh trong Stata nâng cao này sẽ giúp bạn làm việc chuyên nghiệp hơn, xử lý dữ liệu linh hoạt và khai thác tối đa sức mạnh của phần mềm.
6. Bảng tổng hợp các câu lệnh Stata phổ biến và mục đích sử dụng
Để bạn dễ tra cứu và ghi nhớ trong quá trình thực hành, việc hệ thống lại các câu lệnh trong Stata theo từng nhóm chức năng là vô cùng cần thiết. Bảng tổng hợp dưới đây sẽ giúp bạn nhanh chóng nắm được những lệnh Stata phổ biến nhất cùng mục đích sử dụng cụ thể, từ đó lựa chọn và áp dụng đúng lệnh trong từng tình huống phân tích dữ liệu.
| Tên lệnh | Chức năng |
| describe | Xem thông tin tổng quan của bộ dữ liệu hiện tại |
| codebook | Tổng hợp nhanh đặc điểm các biến trong dữ liệu |
| inspect | Kiểm tra nhanh giá trị và phân bố của biến |
| list make mpg | Hiển thị trực tiếp giá trị của make và mpg |
| tabulate mpg | Lập bảng tần số cho biến mpg |
| tab rep78 foreign | Tạo bảng chéo giữa rep78 và foreign |
| sort foreign | Thống kê mô tả cho price và mpg |
| by foreign: summarize(mpg) | Thống kê mpg theo loại xe |
| tabulate foreign, summarize(mpg) | Tóm tắt mpg theo từng nhóm xe, không cần sắp xếp trước |
7. Lời kết
Nếu bạn chưa quen thao tác, gặp khó khăn khi xử lý dữ liệu, chạy mô hình hay cần kết quả gấp cho bài tập, khóa luận, luận văn, VietGuru cung cấp dịch vụ nhận chạy Stata thuê chuyên nghiệp, đúng yêu cầu, bảo mật dữ liệu và hỗ trợ giải thích kết quả rõ ràng. Đây là giải pháp giúp bạn tiết kiệm thời gian mà vẫn đảm bảo độ chính xác và chất lượng phân tích.
Hy vọng qua bài viết này, bạn đã hiểu hơn về các câu lệnh trong Stata từ cơ bản đến nâng cao, từ nhập – quản lý dữ liệu đến phân tích và xử lý chuyên sâu. Khi nắm vững những lệnh cốt lõi này, việc học và sử dụng Stata sẽ trở nên nhẹ nhàng, hiệu quả hơn, giúp bạn tự tin áp dụng vào học tập, nghiên cứu và công việc thực tế.
Có thể bạn quan tâm: Viết thuê nghiên cứu khoa học













