Thuật Ngữ Xác Suất Thống Kê Tiếng Anh / Top 11 Xem Nhiều Nhất & Mới Nhất 10/2023 # Top Trend | 2atlantic.edu.vn

Thuật Ngữ Ngành Xác Suất Thống Kê Và Học Máy

1.1 Căn bản: Lý thuyết xác suất cho chúng ta một ngôn ngữ để mô tả sự ngẫu nhiên ( randomness). Đối tượng cơ bản nhất của LTXS là các biến ngẫu nhiên ( random variables). Để định nghĩa một biến ngẫu nhiên thì cần một hàm phân bố ( distribution function), qua đó có thể định nghĩa được các khái niệm như trung bình ( mean) và phương sai (variance). Standard deviation gọi là độ lệch chuẩn. Mean và variance là các phiếm hàm ( functionals), được áp dụng cho một hàm phân bố hoặc một biến ngẫu nhiên. Hàm phân bố nếu liên tực tuyệt đối với một độ đo chuẩn (?) như Lebesgue thì có thể được biểu diễn bởi hàm mật độ ( density), theo định lý Radon-Nikodym.

Cơ sở toán học của lý thuyết xác suất là thuyết độ đo ( measure theory), nhưng việc chính của các xác suất gia (?) ( probablist) là xây dựng phát triển cáng nhiều loại đo đo xác suất càng tốt. Nói chuyện với một chuyên gia độ đo không thể không định nghĩa một đại số sigma ( sigma-algebra). Nói chuyện với một chuyên gia xác suất thì rất nhiều khi khái niệm này ẩn rất kỹ. Công cụ chính của các XSG chính là khái niệm độc lập ( independence), và mạnh mẽ hơn là độc lập có điều kiện ( conditional independence). Cho nên dân toán thường trêu LTXS chẳng qua là thuyết độ đo + độc lập. Vậy sự khác biệt giữa một độ đo xác suất và những biến ngẫu nhiên là gì? Theo David Aldous thì đó là sự khác biệt giữa recipe để làm bánh và những cái bánh. Hiểu được sự khác biệt này thì mới làm được bước nhảy từ lý thuyết độ đo khô khan sang lý thuyết xác suất tươi mát hơn.

1.2 Độc lập và hội tụ: Khái niệm độc lập cho ta một loạt các định luật cơ bản của LTXS. Tất cả đều xoay quanh hiện tượng tập trung của độ đo ( concentration of measure). Bắt đầu là luật các số lớn (có phiên bản luật mạnh (strong law) và luật yếu). Luật giới hạn trung tâm ( Central limit theorem) nhắc rằng sample mean (mẫu trung bình) có quy luật bình thường ( normal/Gaussian) khi số mẫu tiến đến vô hạn. Các định luật này đều có sử dụng các khái niệm hội tụ ( convergence) trong giải tích. Hội tụ gần chắc (almost sure), hội tụ về phân bố hoặc về luật ( convergence in distribution/ in law). Ngoài luật số lớn còn có luật các số nhỏ (hay luật các hiện tượng hiếm có – law of rare events), cho ta biết khi nào thì mẫu trung bình có quy luật Poisson. Không phải ngẫu nhiên, Gaussian và Poisson là hai hàm phân bố căn bản nhất – là những viên gạch cho toàn bộ lâu đài XS.

Khái niệm độc lập và độc lập có điều kiện là những chất keo để gắn kết các biến xác suất với nhau, qua đó cho ta các hàm xác suất cho các vật thể toán học có cấu trúc phức tạp hơn. Một dạng độc lập có điều kiện hay dùng là tính chất Markov. Ngoài chất keo độc lập, còn có một chất keo nữa rất hữu dụng, đó là tính hoán chuyển được ( exchangeability). Nếu tính độc lập là nền tảng cho các phương pháp suy diễn tần số ( frequentist) , thì tính hoán chuyển được lại là cơ sở nền tảng cho các phương pháp suy diễn Bayesian. Tính hoán chuyển được đang được mở rộng ra thành hoán chuyển từng phần ( partial exchangeability), một khái niệm quan trọng để phái triển các độ đo cho các vật thể tổ hợp ( combinatorial object) rời rạc và phức tạp.

1.3 Quá trình ngẫu nhiên: LTXS phát triển rất nhiều hàm phân bố không chỉ cho các biến xác suất scalar (?) đơn giản, mà người ta còn sáng tạo ra các hàm phân bố cho các cấu trúc toán học phức tạp, nhiều chiều hơn. Chúng ta bắt đầu nói chuyện đến hàm phân bố cho những tập các hàm số đo được ( measurable functions), và hàm phân bố cho các độ đo ngẫu nhiên ( random measures). Hàm phân bố cho các vật thể vô hạn chiều này gọi chung là các quá trình ngẫu nhiên ( stochastic processes). Cách thức khẳng định sự tồn tại là qua định lý của bác Kolmogorov, cho phép ta hiểu về các hàm phân bố cho không gian vô hạn chiều từ các điều kiện nhất quán ( consistency) của độ đo cho các cylinder sets. Đây là cách để chúng ta xây dựng được các hàm phân bố cho quá trình Gauss ( Gaussian processes), quá trình Dirichlet ( Dirichlet process), v.v.

Một cách hữu hiệu để xây dựng một quá trình stochastic là quay lại với khái niệm độc lập, và đẩy khái niệm này đến giới hạn. Công cụ ở đây là nhìn vào phép biến đổi Fourier ( Fourier transform) của các hàm phân bố. Theo ngôn ngữ XS thì khái niệm này gọi là hàm tính cách ( characteristic function). Để đẩy khái niệm độc lập tới giới hạn thì ta cần khái niệm các hàm phân bố khả phân vô hạn ( infinitely divisible). Khái niệm tiếp theo là các hàm phân bố ổn định ( stable distribution). Gauss và Poisson chính là hai hàm phân bố ổn định – không phải là “ngẫu nhiên” nếu chúng ta quay về các luật số lớn và số nhỏ nhắc ở trên. Max-stable là một họ phân bố cực đại ổn định.

Các quá trình ngẫu nhiên có tính chất gia tăng độc lập ( independent increment) gọi là quá trình Lévy. Tổng quát hơn một chút là các độ đo hoàn toàn độc lập ( completely random measures). Định lý biểu diễn Lévy-Khintchine cho chúng ta biết rõ hàm tính cách của các quá trính stochastic này là gì, thông qua độ đo Lévy ( Levy measure). Chọn độ đo Lévy thích hợp (beta, gamma, v.v.) thì ta sẽ có một quá trính stochastic tương ứng. Định lý này cho ta thấy tại sao Gauss và Poisson lại trở thành các viên gạch chỉ của các lâu đài xác suất đồ sộ: Theo định lý Lévy-Itó, dựa trên biểu diễn L-K thì tất cả các quá trính Lévy đều có thể được decompose (phân rã) (phân tách) thành tổng của ba quá trình stochastic độc lập, một là quá trình Wiener (một dạng quá trình Gauss), với quá trình phức hợp ( compound) Poisson, và một là quá trình martingale.

Rất khó tưởng tượng các tập con đo được của sigma đại số đối với các quá trính ngẫu nhiên. Thay vì hình dung sigma đại số (recipe làm bánh) thì ta có thể mô tả những cái bánh. Nếu quá trình được liệt kê bởi tham số thời gian, thì một cái bánh ở đây có thể hiểu là một lối mẫu ( sample path). Với một số quá trình ngẫu nhiên thì có thể mô tả cách tạo mẫu từ một quá trình ngẫu nhiên bằng phương pháp nhặt mẫu từ giỏ Pólya (Pólya’s urn). Rất nhiều quá trình ngẫu nhiên có thể được mô tả bằng biểu diễn bẻ gậy (stick-breaking representation). Theo biểu diễn này thì cần các nguyên tử (atom) và các mẩu gậy (stick-breaking weight). Cách thức bẻ gậy và nhặt nguyên tử đều dựa theo cơ sở của độc lập có điều kiện, một chất keo kỳ diệu cho phép ta mô tả các cấu trúc phức tạp bằng các nguyên liệu giản đơn hơn.

Một họ quá trình NN rất thông dụng là quá trình Markov (Markov process). Định nghĩa trên cơ sở hạch xác suất chuyển dịch (transition probability kernel), và khái niệm hệ thống lọc. Cần khái niệm subordinator (?), một dạng quá trình Lévy quan trọng. Local time được dịch là thời gian địa phương. Quá trình Markov cho thời gian rời rạc còn gọi là chuỗi Markov (hoặc xích Markov). Liên qua đến chuỗi Markov là lý thuyết ergodic (?). Irreducibility dịch là bất khả quy. Một vấn đề được quan tâm là thời gian hòa tan (mixing time) của chuỗi Markov. Điều kiện cần cho chuỗi Markov được hòa tan về một trạng thái phân bố bất dịch (phân bố dừng) (stationary distribution) là ergodicity, thỏa mãn phương trính cân bằng chi tiết (detailed balance). Chuỗi Markov định nghĩa cho không gian rởi rạc (dàn lattice chẳng hạn) thì sẽ trở thành quá trình đi bộ ngẫu nhiên (random walk). Gọi lattice là dàn thiên lý rất hay, thế phải phân biệt với dàn nho thế nào đây. Khái niệm coupling trong chuỗi Markov dịch là sự cặp đôi. Coupling from the past? Quá đơn giản, cặp nhau từ quá khứ! Time-homogeneous Markov process gọi là quá trình Markov đồng biến.

Nói đến quá trình ta thường nghĩ đến thời gian – cụ thể là các quá trình NN thường được hiểu là tập hợp các hàm phân bố nhất quán (consistent) được liệt kê bởi một tham số chỉ thời gian. Không nhất thiết phải như vậy. Mở rộng khái niệm tham số thời gian ra một không gian bất kỳ (ví dụ không gian Euclidean, dàn, hoặc không gian phi-Euclidean), thì ta có quá trình NN tổng quát hơn. Markov random fields sẽ được gọi là trường ngẫu nhiên Markov. Gaussian random field là trường ngẫu nhiên Gauss. Poisson point process gọi là quá trình điểm Poisson (lại quá trình, nhưng kỳ thực phải gọi là trường Poisson mời phải!) . Spatial process là quá trình không gian (?). Spatiotemporal process gọi là quá trình không-thời gian. Khái niệm phase transition rất hay trong trường ngẫu nhiên Markov của một dàn vô hạn, ta sẽ dịch là hiện tượng chuyển pha.

Một dạng quá trình NN khá hay ho gọi là empirical process (quá trình thực nghiệm). Thường được nghiên cứu để tìm hiểu về tính hiệu quả của các phương pháp suy diễn thống kê, thay vì dùng để mô tả một quá trình ngẫu nhiên trong tự nhiên. Sẽ nói ở mục sau.

Các khái niệm quan trọng khác: percolation, excursion, optional stopping

2.1 Căn bản. Mô hình thống kê (statistical model) cũng là mô hình xác suất, sử dụng từ các nguyên liệu được phát triến cho các hàm phân bố vá các quá trình NN trong LTXS. Cái khác ở đây là trong mô hình thống kê có một số biến ngẫu nhiên được gán nhãn là dữ liệu (data), những biến số ngẫu nhiên mà chúng ta có thể quan sát, hoặc thu thập được giá trị bằng thực nghiệm và các thiết bị công nghệ. Cho nên trọng tâm của việc xây dựng mô hình thống kê là làm sao ước lượng (estimate) /học (learn) được mô hình này từ dữ liệu, làm sao có thể đánh giá được tính hiệu quả (efficiency) hoặc tính phổ quát (generalization) của mô hình, làm sao có thể chọn ra được mô hình hữu ích (model selection/model choice).

2.2 Tham số. Để kiểm soát được độ phức tạp của mô hình thì công cụ chính ở đây là phải tham số hóa (parameterization) mô hình. Các tham số (parameter) là phần còn lại của mô hình xác suất mà chúng ta phải ước lượng, học. Đến đây có một vấn đề nho nhỏ, các tham số là một giá trị không biết nhưng không ngẫu nhiên, hay bản thân chúng là ngẫu nhiên. Có hai cách tiếp cận vấn đề này, trường phái tần suất giả dụ cách đẩu, còn trường phái Bayes thì giả dụ cách sau. Nếu các tham số là có số chiều hữu hạn, ta có một mô hình tham số (parametric model), nếu số chiều là vô hạn thì ta có mô hình phi tham số (nonparametric model). Như vậy, gọi là phi tham số không có nghĩa là không có tham số. Nếu tham số là ngẫu nhiên mà lại vô hạn chiều thì người ta gọi mô hình là mô hình phi tham số Bayes (Bayesian nonparametric model). Điều này không có nghĩa làm việc với các mô hình dạng này là theo trường phái Bayes, mặc dù trên thực tế thì phần lớn những người phát triến mô hình phức tạp nói chung và mô hình phi tham số Bayes nói riêng lại có nhãn quan Bayes. Song không nhất thiết phải vậy.

2.3 Đầy đủ và thông tin. Một công cụ quan trọng trong việc tham số hóa là khái niệm thống kê đầy đủ (sufficient statistics). Để hiểu khái niệm này phải hiểu khái niệm thống kê là gì. Một thống kê là một hàm số được áp dụng vào các dữ liệu (cộng trừ nhân chia kiểu gì cũng được). Liên hệ với khmt thì thống kê chính là đầu ra (output) của một giải thuật sử dụng dữ liệu như là đầu vào. Còn thống kê đầy đủ đối với một mô hình là những thống kê chứa đựng mọi thông tin có thể có được từ dữ liệu về các tham số của mô hình. Nghĩa là nếu vứt hết dữ liệu đi, chỉ cần giữa lại các thống kê đầy đủ, vẫn không bị mất thông tin gì về mô hình. Đây có lẽ là một trong những khái niệm đẹp đẽ nhất của toàn bộ thống kê học. Sau khi quyết định được thống kê đầy đủ rồi người ta có thể biết được rằng dữ liệu phải là mẫu của một hàm phân bố có một cách tham số hóa nhất định, qua một định lý biểu diễn phân tích Fisher-Neyman (Fisher-Neyman factorization theorem). Nhắc thêm khái niệm thống kê đầy đủ là một khái niệm có tính lý thuyết thông tin (information-theoretic), có thể phát biểu bằng tính độc lập có điều kiện và các khái niệm entropy.

Một loạt các mô hình đẹp có thể được động viên từ khái niệm cần và đủ kiểu này. Mô hình họ mũ (exponential family) là mô hình tạo ra dữ liệu ngẫu nhiên nhất có thể được, nếu các thống kê đầy đủ đã được cho. Mô hình xác suất đồ thị (probabilistic graphical model) là mô hình duy nhất thỏa mãn các ràng buộc về độc lập có điều kiện cho các biến ngẫu nhiên, theo định lý Hammersley-Clifford. Nếu các biến ngẫu nhiên được giả dụ là hoán chuyển được, thì chúng bắt buộc phải được mô tả bởi một mô hình trộn/ mô hình hỗn hợp (mixture model), theo định lý nổi tiếng của de Finetti. Nếu các biến ngẫu nhiên có hàm phân bố không thay đổi kể cả khi bị biến đổi trực chuẩn (orthornomal transformation) thì chúng bắt buộc phải được mô tả bởi một elliptically contoured distribution (phân bố có đường cong ê líp), kiểu như Gauss đa biến vậy.

2.4 Nhãn quan Bayes và tần suất. Các mô hình thống kê cho ta keo dính để gắn kết các dữ liệu với nhau, và là đối tượng trung tâm của ngành thống kê. Nhưng trong lịch sử và đến tận bây giờ, các mô hình vẫn được trường phái Bayes chào đón nồng nhiệt hơn là trường phái tần suất, bởi vì sự lệ thuộc vào một mô hình thống kê làm cho người ta liên tưởng đến sự lệ thuộc vào tiên nghiệm (prior knowledge) quá nhiều, và do đó thiếu đi sự “khách quan”. Đặc biệt trong trường phái Bayes có một nhánh gọi là Bayes chủ quan (subjective Bayes) và Bayes khách quan. Những người theo Bayes chủ quan cho rằng, nếu ta có những niềm tin chủ quan (subjective belief) nhất định về dữ liệu, thì ta sẽ sử dụng một mô hình xác suất tương ứng, do các định lý kiểu như của de Finetti và Hammersley-Clifford kể trên. Một mảng không nhỏ của ngành thống kê học, thuộc trường phái tấn suất, tập trung vào các phương pháp mô hình tự do (distribution free), qua đó không sử dụng một mô hình xác suất cụ thể nào, mặc dù họ có giả sử là tộn tại một hàm phân bố để tạo ra các mẫu dữ liệu một cách độc lập. Chú ý rằng điều này không có nghĩa là các nhà tần suất là khách quan hơn các nhà Bayes chủ quan, vì sự giả dụ tính độc lập nói chung là mạnh hơn sự giả dụ tính độc lập điều kiện, hay tính hoán chuyển được. Cả hai cách nhìn Bayes và tần suất đều hữu ích trong các ngữ cảnh khác nhau, và về nhiều mặt không có phe hoàn toàn đúng. Cả hai cách nhìn này đều chứa chất mâu thuẫn trong mình, có sự đối chọi nhau, nhưng cũng có sự tương hỗ nhau giống như bức tranh âm-dương trong Kinh Dịch vậy. Ta sẽ tiếp tục soi lại quan hệ này mỗi khi có dịp.

2.5 Phân lớp các mô hình cụ thể và cách tham số hóa. Các mô hình thống kê giống như các sinh vật trong thế giới tự nhiên, rất đa dạng và có thể được phân lớp, và có thể quan sát sự phức tạp tăng dần với quá trình phát triển của ngành. Trong ngành học máy thì một số người còn gọi một mô hình là một cái máy (machine), nghe công nghệ, hiện đại và mới mẻ hơn. Để mô tả một mô hình thì cần phải nói cách tham số hóa của chúng thế nào, nên cần rất nhiều khái niệm và lexicon. Tham số hóa thế nào chính là vấn đề cơm và nước mắm của người học thống kê.

Với rất nhiều biến ngẫu nhiên, cần phải định ra joint distribution (phân bố liên hợp). Marginal distribution gọi là ? Conditional distribution gọi là phân bố điều kiện. Covariates gọi là đồng biến. Trong công nghệ thường là đầu vào. Features thực ra cũng là đồng biến, nhưng xuất xứ từ học máy, và sẽ gọi là đặc trưng.

Trong họ mũ, có hai cách tham số hóa. Natural parameterization gọi là cách tham số hóa tự nhiên. Canonical parameterization gọi là tham số hóa chính tắc? Còn gọi là tham số hóa trung bình (mean parameterization). Hai hệ tham số kể trên có liên hệ mất thiết với nhau qua quan hệ đối ngẫu liên hợp (conjugate duality), một khái niệm của giải tích lồi (convex analysis). Trong hình học thông tin (information geometry) thì hai hệ tham số này có thể hiểu qua khái niệm e-flat manifold và m-flat manifold (?). Normalizing constant gọi là hắng số chuẩn hóa. trong vật lý thống kê thì khái niệm này còn gọi là partition function – hàm ngăn phần. Các mô hình thông dụng trong vật lý lý thuyết như mô hình Ising, spin glass (?), đều là trường hợp đặc biệt của họ mũ. Rất nhiều hàm phân bố là trường hợp đặc biệt của họ mũ. Đặc biệt quan trọng là multivariate Gaussian dịch là Gauss đa biến. Mean vector và covariance matrix gọi là vector trung bình và ma trận hiệp phương sai.

Mô hình họ mũ lại là trường hợp đặc biệt của họ mô hình xác suất đồ thị (graphical model). Phân biệt graphical và graph và graphics thể nào đây? Để định nghĩa mô hình này cần potential function (hàm tiềm năng), được định nghĩa trên clique (?) của các biến ngẫu nhiên. Có hai loại mô hình XSDT. Một là mô hình đồ thị vô hướng (undirected graphical model), cũng đồng nghĩa với trường ngẫu nhiên Markov (Markov random fields). Một là mô hình đồ thị có hướng (directed graphical model), còn gọi là mạng Bayes (Bayesian network) của Pearl. Trong mạng Bayes có khái niệm nốt cha và nốt con. Khái niệm moralization gọi là lấy nhau. Một số trường hợp thông dụng của mạng Bayes có thể kể đến mô hình cây xác suất ĐT (tree-structured graphical model), mô hình đa cây (polytree) nhưng có lẽ gọi là cây đa cũng thích hợp, mô hình Markov ẩn (hidden Markov), mô hình lọc Kalman (Kalman filter), mài trơn Kalman (Kalman smoothing) … Latent/hidden variables gọi là các biến ẩn. Naive Bayes tạm gọi là Bayes thơ ngây, hoặc Bây ngô. Mạng Bayes cho các dạng dữ liệu tuần tự (sequential data) còn gọi là dynamic Bayes net (?).

Một mô hình bao gồm cả tham số có số chiều hữu hạn và tham số có số chiều vô hạn thường gọi là mô hình bán tham số (semiparametric model). Một ví dụ tiêu biểu là mô hình hồi quy Cox (Cox regression model) trong bài toán phân tích sống sót và phân tích sự kiện lịch sử (survival analysis/ event history analysis). Time to event data dịch là dữ liệu sự kiện. Trong mô hình này, thành phần tham số hữu hạn gắn liền với những đồng biến (covariates) quan tâm, thành phần tham số vô hạn là cường độ tử vong/lỗi cơ bản (baseline hazard intensity). Đôi khi họ các mô hình bán tham số được gộp chung vào họ các mô hình phi tham số.

Họ các mô hình phi tham số Bayes được lấy từ các quá trình ngẫu nhiên kể trên. Infinite mixture model gọi là mô hình trộn/ hỗn hợp vô hạn. Có các quá trình đậm chất ẩm thực: Quá trình nhà hàng Tàu (Chinese restaurant process), quá trình búp phê Ấn độ (Indian buffet process). Quá trình coelescence gọi là gì? Với dân tần suất thì nhiều khi các mô hình phi tham số chỉ là tập các hàm quen thuộc trong giải tích hàm. Ví dụ lớp Sobolev (Sobolev class), lớp Besov, không gian Hilbert nhân tự sinh (reproducing kernel Hilbert space), lớp smoothing splines (?), v.v. Dân Bayes sẽ luôn luôn nói về các hàm phân bố (độ đo) cho các hàm số kiểu này.

Dân Bayes còn có một việc là phải tham số hóa các tham số. Theo cách nhìn Bayes, các tham số cũng ngẫu nhiên, phải được giả dụ bởi một hàm phân bố khác. Các tham số của hàm này sẽ là hyperparameter (tham số tầng trên/ tham số thượng tầng?). Nếu là người theo Bayes cuồng tín, thì các tham số thượng tầng này cũng phải ngẫu nhiên… và phải tiếp tục quá trình tham số này đến tận Big Bang. Điều này dẫn đến một họ mô hình đa tầng (hierarchical model/ multi-level model), rất mạnh và rất giàu. Tuy có thể coi là một trường hợp của mô hình XSDT, nhưng trọng tâm và nguổn gốc rất khác, nên ta không nên gộp làm một. (Chú ý là ta không thể đi đến tận Big Bang, nên sau vài tầng của hierarchy thì các nhà thống kê Bayes cũng sẽ mệt và dửng lại. Trên thực tế, khi đó vai trò của các tham số tầng rất cao không còn ý nhiều trong chuyện chi phối các biểu hiện của mô hình nữa). Việc định ra cách tham số hóa các tham số còn gọi là sự định ra các prior distribution (phân bố tiên nghiệm) cho các tham số ngẫu nhiên. Áp dụng công thức Bayes (Bayes rule) thì tính được posterior distribution, dịch là phân bố hậu nghiệm. Conjugate prior thì gọi là phân bố tiên nghiệm liên hợp. Tham số hóa cho các tham số hyper còn gọi là sự định ra các hyperprior (phân bố tiên nghiệm thượng tầng). Quyết định lựa chọn prior nào (sự chỉ định tiên nghiệm) phụ thuộc vào sự giằng co giữa tiên nghiệm (prior knowledge), thực nghiệm từ dữ liệu (empirical data), và sự thuận tiện về tính toán (computational convenience). Sử dụng các phân bố tiên nghiệm liên hợp (phát âm đầy mồm!) là một ví dụ của sự thuận tiện. Sự giẳng co giữa tiên nghiệm và thực nghiệm chẳng qua là một thể hiện của dao cạo Occam, dưới nhãn quan của trường phái Bayes.

Dân tần suất thì không thích khái niệm tham số hyper chút nào, mà cho rằng các tham số phải là không ngẫu nhiên. Về mặt mô hình mà nói thì cách nhìn này là cái trói vô hình, theo quan điểm Bayes những tham số kiểu này là vẫn có thể coi là ngẫu nhiên theo một độ đo Dirac (độ đo nguyên tử – atomic measure), một sự ràng buộc rất chặt không cần thiết. Cho nên, trong lịch sử mô hình của các nhà tần suất thường không giàu có bằng mô hình của các nhà Bayes. Tuy không nhất thiết phải là như vậy.

Tóm tắt: joint probability, marginal probability, conditional probability, model identifiability, model mis-specification, model choice, model selection, parameter identifiability, consistency, parametric model, nonparametric, exponential family, curved exponential family, graphical model, hierarchical model, mixture model, hidden markov model, copula model, latent/hidden variables, nonparametric Bayesian model, density, intensity measure, analysis of variance, functional data, curve data, prior distribution, posterior distribution, a priori, a posteriori, sufficient statistics, order statistics, mean parameterization, canonical parameterization, normalizing constant, log-partition function, mean function, covariance function, covariates, features, conjugate prior, conjugacy

3.1 Tổng quan. Cần phân biệt suy diễn thống kê (statistical inference) với suy diễn xác suất (probabilistic inference). Cái sau chỉ là sự tính toán các xác suất điều kiện trên cơ sở mô hình xác suất. Còn SDTK là suy diễn trên cơ sở mô hình thống kê với sự hiện diện của số liệu. Có hai vấn đề chính, một là suy diễn về tham số, hay còn gọi là ước lượng về tham số (parameter estimation), và dự báo (prediction). Với nhãn quan Bayes thì suy diễn thống kê còn gọi là suy diễn Bayes, về mặt toán học thì không khác gì suy diễn xác suất vì cả tham số và dữ liệu đều được mô tả bằng biến ngẫu nhiên. Cho nên về mặt khái niệm thì đơn giản, mẫu mực. Với nhãn quan tấn suất thì cách tiếp cận đến các vấn đề suy diễn thống kê khó khăn hơn về mặt khái niệm, và đòi hỏi các cách tiếp cận không mẫu mực. Trong học máy thì vấn đề ước lượng về tham số còn gọi là học.

Nếu như trong vấn đề xác định mô hình thì quan điểm Bayes và quan điểm tần suất có tính tương hỗ nhau (ví dụ, anh Bây nói với với anh Tần: Tôi mệt rồi, cho phép cái tham số hyper của tôi là không ngẫu nhiên nhá – và anh Tần nói với anh Bây: Cho tôi gọi tham số của anh là biến ẩn nhá), thì trong vấn đề suy diễn, hai quan điểm này xung khắc nhau quyết liệt bất phân thắng bại. Quan điểm của Bây là: đối với vấn đề ước lượng tham số thì chỉ suy diễn điều kiện vào dữ liệu có sẵn (conditioning on data), và “marginalize out/ integrate out” (?) các tham số ngẫu nhiên trong việc dự báo. Quan điểm của Tần là: đồi với vấn đề ước lượng tham số thì phải suy diễn cho cả dữ liệu tưởng tượng (imaginary data, và dùng ước lượng “plug-in” (?) trong việc dự báo. Tiêu chuẩn của Bây là lạc quan, quan tâm nhiều đến phân tích trường hợp trung bình (average-case analysis). Tiêu chuẩn của Tần rất bi quan, chú trọng nhiều hơn đến phân tích tình huống xấu nhất (worst-case analysis). Đây chỉ là hai thái cực để cho thấy sự khác biệt. Trên thực tế có thể kết hợp cả hai cách tiếp cận trong việc suy diễn từ dữ liệu.

Có một số vấn đề suy diễn cụ thể hơn, và do đó có một số lexicon riêng: Point estimation gọi là ước lượng điểm (một khái niệm của TK Tần). Hypothesis testing gọi là kiểm định lý thuyết (phép thử lý thuyết?). Classification gọi là vấn đề phân lớp. Clustering gọi là vấn đề chia nhóm. Bài toán ranking trong học máy gọi là vấn đề phân hạng. Supervised learning gọi là học có nhãn, học có hướng dẫn. Unsupervised learning gọi là học không nhãn (học không có hướng dẫn, học không thầy). Sequential analysis gọi là phân tích chuỗi/ phân tích tuần tự (?), mà cụ thể có bài toán optimal stopping dịch là bài toán dừng tối ưu. Survival analysis gọi là phân tích sự sống sót (?). Vấn đề change point detection gọi là bài toán phát hiện điểm thay đổi. Chú ý là tất cả các vẫn đề suy diễn cụ thể này đều có thể hiểu tổng quát theo một trong hai vấn đề suy diễn (ước lượng tham số, hoặc dự báo), đều có thể tiếp cận theo cách nhìn Tần hay Bây, nhưng có thể sự điểu chỉnh một chút về cách đánh giá của suy diễn.

3.2 Lý thuyết quyết định. Nền tảng lý thuyết của suy diễn thống kê chính là lý thuyết quyết định của Abraham Wald. Cần khái niệm rủi ro (risk). Rủi ro Bayes là Bayes risk. Rủi ro là kỳ vọng của hàm thiệt hại/tổn thất/thiệt/mất (loss function). Dân kinh tế sẽ dùng hàm utility (hàm tiện ích/thỏa dụng) thay vì dùng hàm thiệt hại. Một khái niệm tương tự là hàm reward (?) trong môn học reinforcement learning(?), và quá trình quyết định Markov.

Lý thuyết quyết định là cái ô chung cho cả hai trường phái Bây và Tần, nhưng với dân Tần thì có nhiều việc phải lo hơn. Estimator dịch là cách ước lượng cho một tham số, và là một hàm số áp dụng vào dữ liệu. Như vậy cũng giống một thống kê, như vậy có thể coi một thống kê là một cách ước lượng thô sơ. Estimate là một ước lượng cụ thể cho một tham số nào đó. Trong bài toán phân lớp thì estimator còn gọi là một learning machine (máy học), estimate sẽ là hàm số phân lớp (classifier). Trong vấn đề kiểm định lý thuyết (hypothesis testing) thì cái phải ước lượng là một hàm số quyết định (decision function). Dù theo nhãn quan nào thì đều cần tìm ước lượng theo tiêu chuẩn có giá trị rủi ro tối thiểu (minimum risk criterion). Nhưng rủi ro của anh Bây thì khác với anh Tần. Kỳ vọng tần suất (frequentist expectation) là kỳ vọng của hàm mất đối với phân bố của dữ liệu (ảo tưởng) trên cơ sở một mô hình với một tham số có sẵn. Kỳ vọng Bayes là giá trị kỳ vọng của hàm mất đối với phân bố điều kiện của tham số trên cơ sở dữ liệu có sẵn. Nói cách khác, với anh Tần thì dữ liệu là ngẫu nhiên, với anh Bây thì tham số là ngẫu nhiên. Nếu lấy kỳ vọng của kỳ vọng tần suất đối với phân bố của tham số, hoặc lấy kỳ vọng của kỳ vọng Bayes đối với phân bố của dữ liệu thì ta cùng nhận được Rủi ro Bayes!

Một số hàm thiệt hại thông dụng: Hàm thiệt 0-1. Khi đó Rủi ro Bayes gọi là Lỗi Bayes (Bayes error). Hàm thiệt bình phương (square loss). Hàm thiệt mũ (exponential loss). Hàm thiệt logit (logistic loss). Surrogate loss sẽ được dịch là hàm thiệt thế chỗ (?). Để so sánh các cách ước lượng (estimator) khác nhau người ta có thể dùng tiêu chuẩn Bayes (thông qua việc so sánh Rủi ro Bayes). Dân tần suất sẽ hay dùng tiêu chuẩn minimax, mượn từ lý thuyết trò chơi (mà cuộc chơi ở đây là giữa nhà thống kê và Trời – chỉ Ông Trời biết chân lý (mô hình đúng là gì, và ông trời mỗi lần ra tay sẽ nhả ra một mẫu dữ liệu). Cần một số phẩm chất cho các cách ước lượng, như khái niệm unbiasedness (?), admissibility (?), consistency (nhất quán), invariance (bất biến phương sai), efficiency (hiệu quả), superefficiency (siêu hiệu quả). Dân Bayes chủ quan không quan tâm đến mấy cái chuẩn này, vì họ đã có niềm tin son sắt vào tiên nghiệm rồi, và suy diễn Bayes bằng cách tính phân bố hậu nghiệm là xong. Tuy vậy phương pháp suy diễn Bayes chủ quan có nhiều tính chất lý thuyết rất tốt. Suy diễn dựa trên cơ sở của phân bố hậu nghiệm được chứng minh là tối ưu theo tiêu chuẩn Rủi ro Bayes. Dân Bayes khách quan thì không quá tự tin như dân Bayes chủ quan, nên họ muốn phân bố tiên nghiệm phải có những phẩm chất tốt. Tính nhất quán hậu nghiệm (posterior consistency) là một phẩm chất quan trọng.

3.3 Các cách ước lượng/học thống kê. Tôi đặt vài viên gạch ở đây. Khi nào rỗi sẽ viết dần dần. Bạn nào có nhã hứng đóng góp từng paragraph vào các mục sau (hoặc các mục chưa ghi) xin cho biết. Ước lượng hay học ở đây vẫn trên cơ sở một họ mô hình định sẵn. Còn vấn đề khó hơn là chọn mô hình (model selection), so sánh các mô hình, đặc biệt giữa các mô hình có độ phức tạp khác hẳn nhau. Kiểm định giả thuyết là một dạng rất đặc biệt của lựa chọn giữa các mô hình, song vẫn có thể hiểu gọn trong phạm vi ước lượng.

Empirical risk minimization. Rủi ro được định nghĩa trên cơ sở hàm phân bố của mô hình (chân lý – chỉ có Trời mới biết). Chỉ có thể tiếp cận đến mô hình này thông qua quá trình thực nghiệm (empirical process). Nói cách khác, rủi ro phải được ước lượng bẳng rủi ro thực nghiệm (empirical risk). Hầu hết các cách ước lượng của phe Tần suất đều ở dạng tính rủi ro thực nghiệm cực tiểu (empirical risk minimization (ERM)). Một lexicon đồng nghĩa là M-estimation (ước lượng M), M có nghĩa là maximization hoặc minimization. Cách ước lượng dựa vào moment (moment-based estimation/ moment matching) thực ra cũng có thể được động viên và liên hệ với cách ước lượng rủi ro thực nghiệm cực đại. Một vấn đề đau đầu cho cách ước lượng rủi ro cực tiểu là phải chọn hàm mất gì? Có một số tên riêng: Nếu hàm mất là hàm bình phương, thì ta có phương pháp bình phương cực tiểu (least square) rất thông dụng trong hồi quy.

Maximum likelihood và nguyên tắc likelihood. Nếu mô hình thống kê chỉ định ra một hàm phân bố cho dữ liệu, thì ta có khái niệm likelihood (khả năng?). Đây là hàm số của tham số, nhưng được lại là ngẫu nhiên vì được định nghĩa trên cơ sở dữ liệu ngẫu nhiên. Likelihood chính là một ví dụ tiêu biểu (nhất) của rủi ro thực nghiệm. Hàm mất tương ứng ở đây là hàm logarithm của mật độ. Maximum likelihood dịch là cách ước lượng khả năng cực đại (?), một phát kiến vĩ đại của Ronald Fisher. Đây là cách ước lượng thông dụng, đa năng bậc nhất trong ngành thống kê (ít nhất là với nhãn quan tần suất). Với các mô hình tham số thì cách ước lượng này được đảm bảo bởi tính nhất quán (consistency) – mô hình sẽ được ước lượng chính xác nếu số dữ liệu tiến đến vô hạn. Tại sao hàm mất lại là hàm logarithm của mật độ mà không phải là một hàm số nào khác? Đây là một ví dụ của sự diệu kỳ bất ngờ của toán học – câu trả lởi truy ra khái niệm độc lập, khái niệm tập trung của độ đo trong xác suất, và tính lồi trong giải tích (và hình học). Nguyên tắc khả năng (likelihood principle) cho rẳng hàm khả năng là một thống kê đầy đủ (sufficient statistics). Nguyên tắc này phá sản trong ngữ cảnh phi tham số.

Regularization/Penalization/Shrinkage. Với sự ước lượng các mô hình phi tham số thì chỉ dựa vào dữ liệu (thông qua hàm khả năng (likelihood) hoặc tổng quát hơn, hàm rủi ro thực nghiệm) không đủ. Cần phải có sự điều chỉnh trong việc lấy cực đại/cực tiểu thông qua khái niệm regularization (kiểm soát), còn gọi là penalization (soát phạt). Regularized empirical risk gọi là rủi ro thực nghiệm có kiểm soát. Khái niệm kiểm soát, soát phạt bắt nguổn từ một phát hiện bất ngờ của Charles Stein về shrinkage estimator (cách ước lượng co). Cho nên nhiều khi người ta cũng gọi nhóm ước lượng này là ước lượng co. Để dùng một số lượng dữ liệu hữu hạn mà ước lượng các đại lượng (tham số) vô hạn hoặc có số chiều đủ lớn (cho dù số dữ liệu có lớn đến đâu và tiến dần đến vô hạn đi chăng nữa) thì vẫn phải có sự kiểm soát trong ước lượng, và không thể dựa hoàn toàn vào dữ liệu thực nghiệm được. Theo nhãn quan Bayes thì điều này chính là sự giằng co giữa thực nghiệm và tiên nghiệm. Co (shrinkage) ở đây chính là co về tiên nghiệm.

Phương pháp phân tích hậu nghiệm/ học Bayes. Phương pháp phân tích hậu nghiệm (a posteriori analysis), cụ thể là cách suy diễn hậu nghiệm (posterior inference), suy diễn Bayes (Bayesian inference), học Bayes (Bayesian learning),… đều mô tả cùng một cách ước lượng theo trường phái Bayes. Đó là thay vì người ta ước lượng tham số (không ngẫu nhiên) như trong trường phái tần suất, người ta sẽ tính hàm phân bố hậu nghiệm cho tham số thông qua công thức Bayes. Cách này mẫu mực – phần việc chính ở đây là chỉ định ra phân bố tiên nghiệm ra sao, và tính toán phân bố hậu nghiệm thế nào (vì phải tính tích phân rất phức tạp về mặt tính toán). Chú ý rằng cách ước lượng maximum likelihood chẳng qua là tính mốt (mode) của phân bố hậu nghiệm, nếu phân bố tiên nghiệm được chọn là phân bố đều (uniform distribution). Trong phân tích Bayes, đặc biệt là với mô hình tham số, thì không phải lo lắng gì về việc kiểm soát (regularization). Nhưng nếu phân bố tiên nghiệm là một quá trình ngẫu nhiên (trong mô hình phi tham số) thì vẫn phải lo lắng về chuyện kiểm soát tính phức tạp của tiên nghiệm (complexity of prior distribution). Một công cụ là sensitivity analysis (phân tích tính nhạy cảm) của phân bố cho tham số.

Phương pháp Bayes thực nghiệm (empirical Bayes). Phương pháp này có thể xem cách ước lượng tần suất cho mô hình đa tầng. Mô hình đa tầng là một công cụ lý tưởng trong việc kiểm soát độ phức tạp của các mô hình cho tham số.

3.4. Các vấn để suy diễn cụ thể hơn.

Hypothesis testing. Trong kiểm định giả thuyết có một số khái niệm quan trọng: Null hypothesis gọi là ? Alternative hypothesis? Có hai loại lỗi: Lỗi loại một (type-1 error) và lỗi loại hai (type-2 error). Còn gọi là tỷ lệ lỗi dương tính (false positive) và lỗi âm tính (false negative) trong đánh giá các treatment (?) trong y học. Trong công nghệ thì type-1 error gọi là false alarm error rate (?), type-2 error chính là misdetection error rate (?). Tất cả các loại rỗi này đều là hàm rủi ro đối với hàm thiệt 0-1. Cách ước lượng trong kiểm định giả thuyết gọi là một hàm quyết định. Và người ta sử dụng hàm quyết định thực hiện phép thử (test) cho giả thuyết. Một phép thử được đánh giá thông qua các bảo đạm về giới hạn của các lỗi kể trên. Sự giẳng co giữa lỗi loại một và loại hai được biểu diễn bẳng ROC curve (đường cong ROC). Các khái niệm liên hệ còn có significance (?). Confidence interval dịch là ? p-value dịch là giá trị p. Power của phép thử gọi là sức mạnh. Nếu chỉ có hai giả thuyết đẻ so sánh thì hàm quyết định tối ưu chính phải dựa vào likelihood ratio (phân số khả năng). Likelihood ratio test gọi là phép thử dựa vào phân số khả năng. Công cụ để đánh giá sức mạnh của một phép thử là thống kê giới hạn (asymptotic statistics).

Kiểm định giả thuyết xuất phát từ thống kê tấn suất, do công của Neyman và Pearson. Khái niệm này rất phản trực quan, và phải đợi đến Wald mới thống nhất cách suy diễn này với cách hình thức suy diễn kiểu khác trong thống kê. Nếu tiếp cận theo nhãn quan Bayes thì KDGT khá là đơn giản, không khác gì việc ước lượng một mô hình là bao. Cần khái niệm phân bố tiên nghiệm cho các giả thuyết. Khái niệm Bayes factor sẽ được dịch là ?

Sequential analysis. Trong phân tích tuần tự (sequential analysis) thì có sự giẳng co của lỗi Bayes và thời gian trễ (delay time) của quyết định về giả thuyết. Khái niệm thử thông dụng là sequential likelihood ratio test (phép thử dựa theo chuỗi phân số khả năng). Công cụ lý thuyết đẻ đánh giá sức mạnh của phép thử là các phân tích về thời gian dừng, phân tích các loại thời điểm vượt biên, v.v. trong lý thuyết xác suất về quá trình Markov.

Classification/regression/ranking. Trong bài toán phân lớp thì người ta gọi một cách ước lượng để phân lớp là một máy học (learning machine). Tham số cần ước lượng ở đây gọi là một hàm phân loại (classifier). Có thể tiếp cận vấn đề này trên cơ sở mô hình tham số hoặc mô hình phi tham số. Để học được máy (mô hình) thường đòi hỏi nhiều tính toán, chứ không phải các thống kê đơn giản như trong kiểm định giả thuyết cổ điển. Cho nên dẫn đến những quan tâm về vấn đề hiệu quả của các giải thuật học/ ước lượng. Cách học/ ước lượng, về mặt tính toán, có lexicon riêng là training (việc luyện máy). Dữ liệu cần cho việc huấn luyện gọi là dữ liệu huấn luyện (training data). Phép thử một hàm phân loại với dữ liệu mới gọi là testing. Dữ liệu thử chính là test data Nếu có hai lớp để phân loại thì hàm phân loại tối ưu phải dựa vào likelihood ratio, rất giống như trong kiểm định giả thuyết. Một khác biệt căn bản giữa bài toán phân lớp với bài toán kiểm định lý thuyết là chỗ này: Cái đầu phải thử giả thuyết cho từng mẫu một. Cái sau chỉ phải thử giả thuyết một lần cho cả đám đông. Có rất nhiều phương pháp phân lớp, với các mô hình tham số và phi tham số, và các giải thuật học/ước lượng rất phong phú. Kinh điển thì có linear discriminant analysis (phân tích phân biệt tuyến tính), logistic regression (hồi quy logit). Hiện đại hơn thì có mạng nơ ron (neural network), radiant basis network (?), support vector machines (?),…

Bài toán hồi quy (regression analysis) tương tự như bài toán phân lớp, khác ở đây là cần phải ước lượng/học phương trình hồi quy (thay vì hàm phân loại). Hàm phân loại chỉ có giá trị rởi rạc, còn phương trình hồi quy thường tính ra các giá trị liên tục. Bài toán phân cấp gần giống bài toán phân loại ở chỗ hàm phân loại cũng có giá trị rời rạc (và không phải nhị phân), nhưng dữ liệu huấn luyện các mẫu về sự so sánh giữa các cấp chứ không phải nhãn lớp (cấp).

Dimensionality reduction/ exploratory data analysis.

Xác Suất Và Thống Kê Refresher

CS 229 – Học máy

Xác suất và Thống kê cơ bản Star

Bởi Afshine Amidi và Shervine Amidi

Dịch bởi Hoàng Minh Tuấn và Hung Nguyễn

Giới thiệu về Xác suất và Tổ hợp

Không gian mẫu Một tập hợp các kết cục có thể xảy ra của một phép thử được gọi là không gian mẫu của phép thử và được kí hiệu là $S$.

Sự kiện (hay còn gọi là biến cố) Bất kỳ một tập hợp con $E$ nào của không gian mẫu đều được gọi là một sự kiện. Một sự kiện là một tập các kết cục có thể xảy ra của phép thử. Nếu kết quả của phép thử chứa trong $E$, chúng ta nói sự kiện $E$ đã xảy ra.

Tiên đề của xác suất Với mỗi sự kiện $E$, chúng ta kí hiệu $P(E)$ là xác suất sự kiện $E$ xảy ra.

Tiên đề 1 ― Mọi xác suất bất kì đều nằm trong khoảng 0 đến 1:

[boxed{0leqslant P(E)leqslant 1}]

Tiên đề 2 ― Xác suất xảy ra của ít nhất một phần tử trong toàn bộ không gian mẫu là 1:

[boxed{P(S)=1}]

Tiên đề 3 ― Với một chuỗi các biến cố xung khắc $E_1, …, E_n$, ta có:

[boxed{Pleft(bigcup_{i=1}^nE_iright)=sum_{i=1}^nP(E_i)}]

Hoán vị Hoán vị là một cách sắp xếp $r$ phần tử từ một nhóm $n$ phần tử, theo một thứ tự nhất định. Số lượng cách sắp xếp như vậy là $P(n, r)$, được định nghĩa như sau:

[boxed{P(n, r)=frac{n!}{(n-r)!}}]

Tổ hợp Một tổ hợp là một cách sắp xếp $r$ phần tử từ $n$ phần tử, không quan trọng thứ tự. Số lượng cách sắp xếp như vậy là $C(n, r)$, được định nghĩa như sau:

[boxed{C(n, r)=frac{P(n, r)}{r!}=frac{n!}{r!(n-r)!}}]

Ghi chú: Chúng ta lưu ý rằng với $0leqslant rleqslant n$, ta có $P(n,r)geqslant C(n,r)$

Xác suất có điều kiện

Phân vùng Cho ${A_i, iin[![1,n]!]}$ sao cho với mỗi $i$, $A_ineqvarnothing$. Chúng ta nói rằng ${A_i}$ là một phân vùng nếu có:

[boxed{forall ineq j, A_icap A_j=emptysetquadtextrm{ và }quadbigcup_{i=1}^nA_i=S}]

Định lý Bayes mở rộng Cho ${A_i, iin[![1,n]!]}$ là một phân vùng của không gian mẫu. Ta có:

Sự kiện độc lập Hai sự kiện $A$ và $B$ được coi là độc lập khi và chỉ khi ta có:

[boxed{P(Acap B)=P(A)P(B)}]

Biến ngẫu nhiên Định nghĩa

Biến ngẫu nhiên Một biến ngẫu nhiên, thường được kí hiệu là $X$, là một hàm nối mỗi phần tử trong một không gian mẫu thành một số thực.

Hàm phân phối tích lũy (CDF) Hàm phân phối tích lũy $F$, là một hàm đơn điệu không giảm, sao cho $underset{xrightarrow-infty}{textrm{lim}}F(x)=0$ và $underset{xrightarrow+infty}{textrm{lim}}F(x)=1$, được định nghĩa là:

[boxed{F(x)=P(Xleqslant x)}]

Ghi chú: chúng ta có $P(a < Xleqslant B)=F(b)-F(a)$.

Hàm mật độ xác suất (PDF) Hàm mật độ xác suất $f$ là xác suất mà $X$ nhận các giá trị giữa hai giá trị thực liền kề của biến ngẫu nhiên.

Trường hợp CDF $F$ PDF $f$ Thuộc tính của PDF

(D) $displaystyle F(x)=sum_{x_ileqslant x}P(X=x_i)$ $f(x_j)=P(X=x_j)$ $displaystyle0leqslant f(x_j)leqslant1textrm{ và }sum_{j}f(x_j)=1$

(C) $displaystyle F(x)=int_{-infty}^xf(y)dy$ $f(x)=displaystyle frac{dF}{dx}$ $displaystyle f(x)geqslant0textrm{ và }int_{-infty}^{+infty}f(x)dx=1$

Case $E[X]$ $E[g(X)]$ $E[X^k]$ $psi(omega)$

(D) $displaystyle sum_{i=1}^nx_if(x_i)$ $displaystyle sum_{i=1}^ng(x_i)f(x_i)$ $displaystyle sum_{i=1}^nx_i^kf(x_i)$ $displaystylesum_{i=1}^nf(x_i)e^{iomega x_i}$

(C) $displaystyle int_{-infty}^{+infty}xf(x)dx$ $displaystyle int_{-infty}^{+infty}g(x)f(x)dx$ $displaystyle int_{-infty}^{+infty}x^kf(x)dx$ $displaystyleint_{-infty}^{+infty}f(x)e^{iomega x}dx$

Phương sai Phương sai của một biến ngẫu nhiên, thường được kí hiệu là Var$(X)$ hoặc $sigma^2$, là một độ đo mức độ phân tán của hàm phân phối. Nó được xác định như sau:

[boxed{textrm{Var}(X)=E[(X-E[X])^2]=E[X^2]-E[X]^2}]

Độ lệch chuẩn Độ lệch chuẩn của một biến ngẫu nhiên, thường được kí hiệu $sigma$, là thước đo mức độ phân tán của hàm phân phối của nó so với các đơn vị của biến ngẫu nhiên thực tế. Nó được xác định như sau:

[boxed{sigma=sqrt{textrm{Var}(X)}}]

Biến đổi các biến ngẫu nhiên Đặt các biến $X$ và $Y$ được liên kết với nhau bởi một hàm. Kí hiệu $f_X$ và $f_Y$ lần lượt là các phân phối của $X$ và $Y$, ta có:

Quy tắc tích phân Leibniz Gọi $g$ là hàm của $x$ và có khả năng $c$, và $a$,$b$ là các ranh giới có thể phụ thuộc vào $c$. Chúng ta có:

[boxed{frac{partial}{partial c}left(int_a^bg(x)dxright)=frac{partial b}{partial c}cdot g(b)-frac{partial a}{partial c}cdot g(a)+int_a^bfrac{partial g}{partial c}(x)dx}]

Phân bố xác suất

Các phân phối chính Dưới là các phân phối chính cần ghi nhớ:

Loại Phân phối PDF $psi(omega)$ $E[X]$ $textrm{Var}(X)$ Illustration

(D) $Xsimmathcal{B}(n, p)$ $displaystyle displaystylebinom{n}{x} p^xq^{n-x}$ $(pe^{iomega}+q)^n$ $np$ $npq$

(D) $Xsimtextrm{Po}(mu)$ $displaystyle frac{mu^x}{x!}e^{-mu}$ $e^{mu(e^{iomega}-1)}$ $mu$ $mu$

(C) $Xsimmathcal{U}(a, b)$ $displaystyle frac{1}{b-a}$ $displaystylefrac{e^{iomega b}-e^{iomega a}}{(b-a)iomega}$ $displaystylefrac{a+b}{2}$ $displaystylefrac{(b-a)^2}{12}$

(C) $Xsimmathcal{N}(mu, sigma)$ $displaystyle frac{1}{sqrt{2pi}sigma}e^{-frac{1}{2}left(frac{x-mu}{sigma}right)^2}$ $e^{iomegamu-frac{1}{2}omega^2sigma^2}$ $mu$ $sigma^2$

(C) $Xsimtextrm{Exp}(lambda)$ $displaystyle lambda e^{-lambda x}$ $displaystylefrac{1}{1-frac{iomega}{lambda}}$ $displaystylefrac{1}{lambda}$ $displaystylefrac{1}{lambda^2}$

Phân phối đồng thời biến ngẫu nhiên

Mật độ biên và phân phối tích lũy Từ hàm phân phối mật độ đồng thời $f_{XY}$, ta có

Trường hợp Mật độ biên Hàm tích lũy

(D) $displaystyle f_X(x_i)=sum_{j}f_{XY}(x_i,y_j)$ $displaystyle F_{XY}(x,y)=sum_{x_ileqslant x}sum_{y_jleqslant y}f_{XY}(x_i,y_j)$

(C) $displaystyle f_X(x)=int_{-infty}^{+infty}f_{XY}(x,y)dy$ $displaystyle F_{XY}(x,y)=int_{-infty}^xint_{-infty}^yf_{XY}(x’,y’)dx’dy’$

Tính chất độc lập Hai biến ngẫu nhiên $X$ và $Y$ độc lập nếu ta có:

[boxed{f_{XY}(x,y)=f_X(x)f_Y(y)}]

Hiệp phương sai Chúng ta xác định hiệp phương sai của hai biến ngẫu nhiên $X$ và $Y$, thường được kí hiệu $sigma_{XY}^2$ hay $textrm{Cov}(X,Y)$, như sau:

[boxed{textrm{Cov}(X,Y)triangleqsigma_{XY}^2=E[(X-mu_X)(Y-mu_Y)]=E[XY]-mu_Xmu_Y}]

Hệ số tương quan Kí hiệu $sigma_X$,$sigma_Y$ là độ lệch chuẩn của $X$ và $Y$, chúng ta xác định hệ số tương quan giữa $X$ và $Y$, kí hiệu $rho_{XY}$, như sau:

[boxed{rho_{XY}=frac{sigma_{XY}^2}{sigma_Xsigma_Y}}]

Ghi chú 1: chúng ta lưu ý rằng với bất cứ biến ngẫu nhiên $X, Y$ nào, ta luôn có $rho_{XY}in[-1,1]$.

Ghi chú 2: Nếu $X$ và $Y$ độc lập với nhau thì $rho_{XY} = 0$.

Ước lượng tham số Định nghĩa

Mẫu ngẫu nhiên Mẫu ngẫu nhiên là tập hợp của $n$ biến ngẫu nhiên $X_1, …, X_n$ độc lập và được phân phối giống hệt với $X$.

Công cụ ước tính Công cụ ước tính (estimator) là một hàm của dữ liệu được sử dụng để suy ra giá trị của một tham số chưa biết trong mô hình thống kê.

Thiên vị Thiên vị (bias) của Estimator $hat{theta}$ được định nghĩa là chênh lệch giữa giá trị kì vọng ​​của phân phối $hat{theta}$ và giá trị thực, tức là

[boxed{textrm{Bias}(hat{theta})=E[hat{theta}]-theta}]

Ghi chú: một công cụ ước tính được cho là không thiên vị (unbiased) khi chúng ta có $E[hat{theta}]=theta$.

Ước lượng trung bình

Giá trị trung bình mẫu Giá trị trung bình mẫu của mẫu ngẫu nhiên được sử dụng để ước tính giá trị trung bình thực $mu$ của phân phối, thường được kí hiệu $overline{X}$ và được định nghĩa như sau:

[boxed{overline{X}=frac{1}{n}sum_{i=1}^nX_i}]

Ghi chú: trung bình mẫu là không thiên vị (unbiased), nghĩa là $E[overline{X}]=mu$.

Định lý giới hạn trung tâm Giả sử chúng ta có một mẫu ngẫu nhiên $X_1, …, X_n$ theo một phân phối nhất định với trung bình $mu$ và phương sai $sigma^2$, sau đó chúng ta có:

[boxed{overline{X}underset{nrightarrow+infty}{sim}mathcal{N}left(mu, frac{sigma}{sqrt{n}}right)}]

Ước lượng phương sai

Phương sai mẫu Phương sai mẫu của mẫu ngẫu nhiên được sử dụng để ước lượng phương sai thực sự $sigma^2$ của phân phối, thường được kí hiệu là $s^2$ hoặc $hat{sigma}^2$ và được định nghĩa như sau:

[boxed{s^2=hat{sigma}^2=frac{1}{n-1}sum_{i=1}^n(X_i-overline{X})^2}]

Ghi chú: phương sai mẫu không thiên vị (unbiased), nghĩa là $E[s^2]=sigma^2$.

Quan hệ Chi-Squared với phương sai mẫu Với $s^2$ là phương sai mẫu của một mẫu ngẫu nhiên, ta có:

[boxed{frac{s^2(n-1)}{sigma^2}simchi_{n-1}^2}]

Học Phần Lý Thuyết Xác Suất Và Thống Kê Toán 1

ĐỀ CƯƠNG CHI TIẾT HỌC PHẦN TRÌNH ĐỘ ĐÀO TẠO: ĐẠI HỌC

LOẠI HÌNH ĐÀO TẠO: CHÍNH QUY

1. TÊN HỌC PHẦN Tiếng Việt: LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ TOÁN 1 Tiếng Anh: Probability and Mathematical Statistics 1 Mã học phần: TOKT1132 Số tín chỉ: 3

2. BỘ MÔN PHỤ TRÁCH GIẢNG DẠY: Toán Kinh tế

3. ĐIỀU KIỆN HỌC TRƯỚC: Không

Lý thuyết xác suất và thống kê toán là môn học nghiên cứu các hiện tượng ngẫu nhiên và xử lý số liệu kinh tế – xã hội trong điều kiện bất định, tức là thông tin không đầy đủ.

Môn học có 2 phần tương đối độc lập về cấu trúc nhưng gắn rất chặt về nội dung.

Phần Lý thuyết xác suất nhằm phát hiện và nghiên cứu tính quy luật của các hiện tượng ngẫu nhiên. Các kiến thức về Lý thuyết xác suất là cơ sở trực tiếp cho quá trình phân tích và suy luận thống kê trong phần Thống kê toán, đồng thời trang bị cho sinh viên những kiến thức phục vụ cho các môn học khác như Kinh tế lượng, Dân số học, Xã hội học…

Phần Thống kê toán bao gồm: Cơ sở lý thuyết về mẫu ngẫu nhiên, các phương pháp trong thống kê mô tả nhằm đưa ra các đặc trưng chính của số liệu, phần thống kê suy diễn giúp đưa ra các suy diễn về tổng thể sử dụng các thông tin từ mẫu, trong đó có bài toán ước lượng tham số tổng thẻ và kiểm định giả thuyết thống kê.

: 5. MỤC TIÊU HỌC PHẦN Môn học cung cấp các kiến thức cơ bản về Lý thuyết xác suất và thống kê toán. Sau khi học xong học phần, người học có kiến thức nền tảng về lý thuyết xác suất, biết vận dụng để giải quyết một vấn đề thực tế trong sản xuất kinh doanh. Người học cũng được nắm được một cách cơ bản các kiến thức về thống kê toán, nắm được cách thức để tóm tắt những đặc trưng cơ bản của số liệu mẫu, có thể thực hiện các suy diễn thống kê về tổng thể dựa trên số liệu mẫu, qua đó vận dụng vào các bài toán thực tế trong kinh tế xã hội

6. NỘI DUNG HỌC PHẦN

PHÂN BỐ THỜI GIAN

CHƯƠNG 1 – BIẾN CỐ NGẪU NHIÊN VÀ XÁC SUẤT

Chương 1 giới thiệu những khái niệm cơ bản của Lý thuyết xác suất, là gốc của các khái niệm về sau. Những khái niệm về phép thử, kết cục, biến cố dẫn đến khái niệm về xác suất và đo lường xác suất. Hai định nghĩa được đề cập là định nghĩa cổ điển và định nghĩa thống kê được nghiên cứu kĩ, gắn với các ví dụ cụ thể trong kinh tế xã hội. Sau khi nghiên cứu các định nghĩa, chương 1 giới thiệu về mối quan hệ giữa các biến cố để từ đó có thể phân tách một biến cố phức tạp thành các biến cố đơn giản hơn; cùng với việc phân tách và tổng hợp các biến cố, các định lý giúp cho việc tính xác suất các biến cố thông qua các biến cố khác một cách thuận lợi. Phần cuối của chương giới thiệu công thức xác suất đầy đủ và Bayes, là các suy luận có ý nghĩa rộng, và còn được phát triển về sau trong các lĩnh vực thống kê.

1.1. Phép thử và các loại biến cố 1.2.1. Định nghĩa cổ điển về xác suất1.3. Mối quan hệ giữa các biến cố 1.2. Xác suất của biến cố

1.2.2. Định nghĩa thống kê về xác suất 1.2.3. Nguyên lý xác suất lớn và nguyên lý xác suất nhỏ 1.4. Các định lý và công thức xác suất

1.4.1. Định lý cộng xác suất 1.4.2. Định lý nhân xác suất 1.4.3. Công thức Bernoulli 1.4.4. Công thức xác suất đầy đủ và công thức Bayes

Tài liệu tham khảo của chương : 1 – Nguyễn Cao Văn, Trần Thái Ninh, Ngô Văn Thứ, 2011, Giáo trình Lý thuyết xác suất và thống kê toán, NXB ĐHKTQD, Chương 1. 2 – Trần Trọng Nguyên, 2011, Lý thuyết xác suất, NXB ĐHKTQD, Chương 1. 3 – Paul Newbold, William L.Carlson, Betty Thorne, 2010, Statistics for Business and Economics, 7th edition, Pearson. Chapter 3.

CHƯƠNG 2 – BIẾN NGẪU NHIÊN VÀ QUY LUẬT PHÂN PHỐI XÁC SUẤT

Chương 2 đi sâu vào khái niệm quan trọng của và cốt lõi lý thuyết xác suất và của thống kê toán, là Biến ngẫu nhiên, gồm biến ngẫu nhiên rời rạc và liên tục. Tính ngẫu nhiên của các đại lượng biến ngẫu nhiên một chiều và nhiều chiều được thể hiện đầy đủ qua quy luật phân phối xác suất, đo lường qua bảng phân phối, hàm phân phối và hàm mật độ xác suất. Các tham số đặc trưng là một cách nhìn tổng quát, ngắn gọn hơn về biến ngẫu nhiên, chứa đựng các thông tin quan trọng nhất. Trong thực tế khi phân tích các vấn đề định lượng và cả định tính, các tham số như trung bình, phương sai thường xuyên được đánh giá, so sánh. Bên cạnh các tham số quan trọng như trung bình phương sai, một số tham số khác đặc trưng cho xu thế trung tâm, cho độ phân tán, dao động, cho dạng phân phối cũng được đề cập.

2.1. Định nghĩa và phân loại biến ngẫu nhiên 2.2.1. Bảng phân phối xác suất 2.2. Quy luật phân phối xác suất của biến ngẫu nhiên

2.2.2. Hàm phân phối xác suất 2.2.3. Hàm mật độ xác suất 2.3. Các tham số đặc trưng của biến ngẫu nhiên 2.3.1. Kì vọng toán 2.3.2. Phương sai và độ lệch chuẩn 2.3.3. Trung vị 2.3.4. Mốt 2.3.5. Hệ số bất đối xứng 2.3.6. Hệ số nhọn

1 – Nguyễn Cao Văn, Trần Thái Ninh, Ngô Văn Thứ, 2011, Giáo trình Lý thuyết xác suất và thống kê toán, NXB ĐHKTQD, Chương 2, 3. Tài liệu tham khảo của chương :

2 – Trần Trọng Nguyên, 2011, Lý thuyết xác suất, NXB ĐHKTQD, Chương 2. 3 – Paul Newbold, William L.Carlson, Betty Thorne, 2010, Statistics for Business and Economics, 7th edition, Pearson. Chapter 4, 5.

CHƯƠNG 3 – MỘT SỐ QUY LUẬT PHÂN PHỐI XÁC SUẤT QUAN TRỌNG

Chương này nghiên cứu một số quy luật phân phối xác suất thông dụng, có nhiều áp dụng trong kinh tế xã hội, gồm hai nhóm là quy luật phân phối của các biến ngẫu nhiên rời rạc và liên tục. Với mỗi quy luật, phân phối xác suất được đề cập bởi công thức tính xác suất – với biến ngẫu nhiên rời rạc, và hàm phân phối, hàm mật độ – với biến ngẫu nhiên liên tục, và các tham số đặc trưng: kì vọng, phương sai, độ lệch chuẩn. Trong số các quy luật, quy luật Không-Một, Nhị thức và Chuẩn được tập trung nghiên cứu kĩ, đặc biệt là quy luật Chuẩn. Với quy luật Chuẩn, các cách tính xác suất, quy tắc quan trọng có áp dụng trong kinh tế xã hội được phân tích kĩ. Một số quy luật khác được đề cập để chuẩn bị trước cho phần thống kê ở các chương sau.

3.1. Quy luật Không – một A(p) 3.5.1. Định nghĩa3.6. Quy luật khi bình phương χ 3.2. Quy luật Nhị thức B(n,p) 3.3. Quy luật Poisson P(λ) 3.5.2. Quy luật Chuẩn hóa N(0,1) 3.5.3. Công thức tính xác suất 2(n) 3.7. Quy luật Student T(n) 3.8. Quy luật Fisher – Snedecor F(n 1,n 2) 3.5.4. Quy tắc 3σ 3.5.5. Sự hội tụ về phân phối chuẩn 3.4. Quy luật Đều U(a,b) 3.5. Quy luật Chuẩn N(μ,σ 2)

CHƯƠNG 4 – BIẾN NGẪU NHIÊN HAI CHIỀU

Bên cạnh các biến ngẫu nhiên thông thường – là biến ngẫu nhiên một chiều, các biến ngẫu nhiên nhiều chiều cũng được nghiên cứu, tập trung chính vào biến ngẫu nhiên hai chiều. Với biến ngẫu nhiên hai chiều, chương 4 đi sâu vào biến rời rạc, thông qua bảng phân phối xác suất hai chiều, bảng phân phối biên, phân phối có điều kiện. Bên cạnh các tham số cơ bản như kì vọng, phương sai, với biến ngẫu nhiên hai chiều có các tham số hiệp phương sai, hệ số tương quan cũng là những đại lượng quan trọng trong phân tích, đặc biệt phân tích tương quan và hồi quy, là cơ sở của môn học kinh tế lượng.

4.1. Khái niệm biến ngẫu nhiên nhiều chiều4.2.3. Bảng phân phối xác suất có điều kiện 4.2. Bảng phân phối xác suất của biến ngẫu nhiên rời rạc hai chiều 4.2.1. Bảng phân phối xác suất 4.2.2. Bảng phân phối xác suất biên

4.3. Các tham số đặc trưng của biến ngẫu nhiên hai chiều 4.3.1. Kì vọng và phương sai 4.3.2. Hiệp phương sai và hệ số tương quan 4.3.3. Kì vọng có điều kiện và hồi quy

CHƯƠNG 5 – LUẬT SỐ LỚN

Chương 5 giới thiệu một số định lý đặc thù trong xác suất và thống kê, cho thấy sự hội tụ của xác suất và các tham số đặc trưng của biến ngẫu nhiên, khi biến ngẫu nhiên được nghiên cứu nhiều lần và độc lập nhau. Chương chứng minh một số bất đẳng thức, định lý có ý nghĩa trong phân tích lý thuyết, là cơ sở cho thống kê.

: Tài liệu tham khảo của chương 1 – Nguyễn Cao Văn, Trần Thái Ninh, Ngô Văn Thứ, 2011, Giáo trình Lý thuyết xác suất và thống kê toán, NXB ĐHKTQD, Chương 5. 2 – Trần Trọng Nguyên, 2011, Lý thuyết xác suất, NXB ĐHKTQD, Chương 5.

CHƯƠNG 6 – CƠ SỞ LÝ THUYẾT MẪU

Chương 6 bắt đầu phần hai của chương trình, phần Thống kê toán. Chương cung cấp những khái niệm cơ bản về thống kê, từ khái niệm Tổng thể và Mẫu, về sự liên hệ giữa hai phương pháp nghiên cứu. Xuất phát từ tổng thể là đối tượng nghiên cứu, với các tham số đặc trưng cho các tính chất, dấu hiệu mà người nghiên cứu quan tâm, Mẫu được lấy nhằm tìm hiểu về cac thông tin đó. Chương phân tích khải niệm mẫu ngẫu nhiên và thống kê, phân biệt với quan sát mẫu cụ thể là các con số, số liệu thường gặp. Từ các quy luật phân phối xác suất liên hệ giữa các thống kê đặc trưng mẫu và các tham số đặc trưng tổng thể, xấy dựng được các suy diễn về thống kê mẫu trên giả định đã biết thông tin tổng thể, với một mức xác suất cho trước. Với chương này, người học nắm được các cách tính thống kê mẫu nhanh chóng và chính xác, để thực hiện với các suy luận thống kê trong các chương sau.

6.1. Khái niệm phương pháp mẫu6.2.2. Tham số đặc trưng của tổng thể6.3.3. Mô tả mẫu6.4.2. Một số thống kê đặc trưng của mẫu ngẫu nhiên6.6.4. Trường hợp hai biến ngẫu nhiên gốc phân phối A(p) 6.2. Tổng thể nghiên cứu 6.2.1. Khái niệm về tổng thể

6.3. Mẫu ngẫu nhiên 6.3.1. Định nghĩa mẫu ngẫu nhiên 6.3.2. Các phương pháp chọn mẫu ngẫu nhiên

6.4.1. Định nghĩa 6.4. Thống kê

6.6.1. Trường hợp biến ngẫu nhiên gốc phân phối Chuẩn

6.5. Các thống kê đặc trưng của mẫu ngẫu nhiên hai chiều 6.6. Quy luật phân phối xác suất của các tham số đặc trưng mẫu 6.6.2. Trường hợp hai biến ngẫu nhiên gốc cùng phân phối Chuẩn 6.6.3. Trường hợp biến ngẫu nhiên gốc phân phối A(p)

6.7.1 Suy diễn về trung bình mẫu và hiệu hai trung bình mẫu 6.7.2. Suy diễn về tần suất mẫu và hiệu hai tần suất mẫu

6.7. Suy diễn về thống kê đặc trưng mẫu 6.7.3. Suy diễn về phương sai mẫu và thương hai phương sai mẫu

CHƯƠNG 7 – ƯỚC LƯỢNG THAM SỐ CỦA BIẾN NGẪU NHIÊN

Chương 7 giới thiệu kĩ thuật quan trọng của thống kê suy diễn là Ước lượng tham số. Tham số của biến ngẫu nhiên gốc trong tổng thể khi chưa biết, có thể được phản ánh qua thông tin từ mẫu. Có hai dạng ước lượng được đề cập là ước lượng bằng hàm ước lượng, còn gọi là ước lượng điểm và ước lượng bằng khoảng tin cậy, còn gọi là ước lượng khoảng. Với ước lượng điểm, các tính chất không chệch, hiệu quả, vững được nghiên cứu nhằm tìm ra hàm ước lượng tốt nhất. Đồng thời chương cũng đề cập phương pháp ước lượng hợp lý tối đa, là phương pháp được áp dụng rộng rãi trong hầu hết các chương trình phần mềm thống kê chuyên dụng. Ước lượng khoảng với độ tin cậy cho trước đối với các tham số cơ bản của biến ngẫu nhiên, cũng là các tham số tổng thể được nghiên cứu kĩ và dành thời lượng nhiều nhất, qua đó người học hiểu được bản chất bài toán ước lượng và các ứng dụng trong thực tế.

7.1. Phương pháp ước lượng điểm 7.1.3. Ước lượng hợp lý tối đa7.2.6. Ước lượng tham số σ 7.1.1. Khái niệm hàm ước lượng 7.1.2. Các tính chất của ước lượng điểm

7.2.1. Các khái niệm 7.2. Phương pháp ước lượng bằng khoảng tin cậy 7.2.2. Ước lượng tham số μ của biến ngẫu nhiên phân phối Chuẩn 7.2.3. Ước lượng hiệu hai tham số μ của hai biến ngẫu nhiên phân phối Chuẩn 7.2.4. Ước lượng tham số p của biến ngẫu nhiên phân phối A(p) 7.2.5. Ước lượng hiệu hai tham số p của hai biến ngẫu nhiên phân phối A(p)2 của biến ngẫu nhiên phân phối Chuẩn

CHƯƠNG 8 – KIỂM ĐỊNH GIẢ THUYẾT THỐNG KÊ

Chương 8 giới thiệu lý thuyết kiểm định, là công cụ thống kê quan trọng được sử dụng trong kiểm chứng lý thuyết bằng thực nghiệm. Các khái niệm về giả thuyết thống kê, cặp giả thuyết, các loại sai lầm ,tiêu chuẩn kiểm định, miền bác bỏ, giá trị quan sát, mức ý nghĩa, lực kiểm định, giá trị xác suất được giới thiệu và áp dụng trong các bài toán cụ thể. Nội dung chương được tách thành kiểm định tham số và phi tham số. Kiểm định tham số tập trung vào các tham số cơ bản như trung bình, phương sai của biến ngẫu nhiên phân phối chuẩn, tham số xác suất của biến ngẫu nhiên phân phối A(p), cũng như các kiểm định so sánh giữa hai tham số của hai biến ngẫu nhiên có cùng quy luật phân phối. Phần kiểm định phi tham số giới thiệu một số phương thức kiểm định, và tập trung vào hai bài toán cụ thể là kiểm định tính phân phối chuẩn của biến ngẫu nhiên và kiểm định sự độc lập giữa hai dấu hiệu định tính.

8.1. Khái niệm chung 8.1.1. Giả thuyết thống kê 8.1.2. Cặp giả thuyết và miền bác bỏ 8.1.3. Các loại sai lầm 8.1.4. Quy tắc kiểm định giả thuyết 8.2. Kiểm định tham số 8.2.1. Kiểm định tham số μ của biến ngẫu nhiên phân phối Chuẩn 8.2.2. Kiểm định hai tham số μ của hai biến ngẫu nhiên phân phối Chuẩn 8.2.3. Kiểm định tham số p của biến ngẫu nhiên phân phối A(p) 8.2.4. Kiểm định hai tham số p của hai biến ngẫu nhiên phân phối A(p) 8.2.5. Kiểm định tham số σ 2 của biến ngẫu nhiên phân phối Chuẩn 8.2.6. Kiểm định hai tham số σ 2 của hai biến ngẫu nhiên phân phối Chuẩn 8.3. Kiểm định phi tham số 8.3.1. Kiểm định về phân phối lý thuyết 8.3.2. Kiểm định tính phân phối chuẩn 8.3.3. Kiểm định sự độc lập của hai dấu hiệu định tính

7. GIÁO TRÌNH: Nguyễn Cao Văn, Trần Thái Ninh, Ngô Văn Thứ, 2011, Giáo trình Lý thuyết xác suất và thống kê toán, NXB ĐHKTQD.

9. PHƯƠNG PHÁP ĐÁNH GIÁ HỌC PHẦN

– Thang điểm: 10 – Cơ cấu điểm: + Điểm đánh giá của giảng viên: 10% + Điểm bài kiểm tra: 20% + Điểm thi học phần: 70% – Điều kiện dự thi học phần: + Phải tham dự ít nhất 80% số tiết học trên lớp + Phải có bài kiểm tra

Thuật Ngữ Trong Tiếng Tiếng Anh

Trên thế giới, thuật ngữ này có nhiều ý nghĩa khác nhau.

Around the world, the term has different senses.

WikiMatrix

PPaolo Soleri đề xuất các giải pháp sau, và đặt ra thuật ngữ ‘kiến trúc nhân tạo”.

Paolo Soleri proposed later solutions, and coined the term ‘arcology’.

WikiMatrix

Anh ấy lại xài mấy thuật ngữ khó hiểu.

He tends to use fancy terminology.

OpenSubtitles2023.v3

Một loạt các thuật ngữ khu vực đã từng được sử dụng để phân chia kỷ/hệ Ordovic.

A number of regional terms have been used to subdivide the Ordovician Period.

WikiMatrix

Thuật ngữ “quốc gia tự trị” được cho là đề xuất của Sir Samuel Leonard Tilley.

The term dominion was allegedly suggested by Sir Samuel Leonard Tilley.

WikiMatrix

Thuật ngữ này trước đây đôi khi được sử dụng trên báo chí.

The term had previously been used occasionally in the press.

WikiMatrix

Đây là danh sách các thuật ngữ tìm thấy trong lập trình hướng đối tượng.

This is a list of terms found in object-oriented programming.

WikiMatrix

Ngăn chặn khác với chống đối, và thật ra bạn có thể nghĩ theo thuật ngữ y học.

Preventing is very different than countering, and actually, you can think of it in medical terms.

ted2023

Bất chấp việc nó đã trở thành một thuật ngữ tiếng Ả Rập dưới thời Muhammad.

Regardless, it had become an Arabic term by Muhammad’s lifetime.

WikiMatrix

Ông cũng là người đặt ra các thuật ngữ “cultivar” (giống trồng trọt), “cultigen”, và “indigen”.

He also coined the words “cultivar”, “cultigen”, and “indigen”.

WikiMatrix

Thuật ngữ Ba Tư tương đương là ” bazaar “.

The equivalent Persian term is “bazaar”.

WikiMatrix

Nhà sinh vật học người Anh Thomas Henry Huxley đặt ra thuật ngữ Darwinism vào tháng 4 năm 1860.

English biologist Thomas Henry Huxley coined the term Darwinism in April 1860.

WikiMatrix

Thuật ngữ này thường không được dùng bên ngoài Liên Xô cũ (xem bài Mặt trận Phía đông).

The term is not generally used outside the former Soviet Union (see Eastern Front).

WikiMatrix

Mặc dù các loại cửa hàng ký gửi khác tồn tại, không có thuật ngữ chung cho chúng.

Although the other types of consignment shop exist, there is no general term for them.

WikiMatrix

Tốc độ lan truyền chóng mặt của những thuật ngữ thất thiệt.

The accelerated velocity of terminological inexactitude.

OpenSubtitles2023.v3

Thuật ngữ civilis mang một ý nghĩa rất đặc trưng là “Công dân La Mã”.

The term civilis here had the very specific meaning of ‘Roman citizen’.

WikiMatrix

Các thuật ngữ này có nghĩa là “kinh doanh, thương mại và giao thông”.

These terms mean “business, trade and traffic”.

WikiMatrix

Thuật ngữ trở nên phổ biến trên báo chí trong mùa đông khắc nghiệt năm 1880-1881.

The term became common in the press during the harsh winter of 1880–81.

WikiMatrix

Thuật ngữ này không nhất thiết ám chỉ đến một vật thể có nguồn gốc siêu nhiên.

The term does not necessarily refer to an object of paranormal origin.

WikiMatrix

Thuật ngữ “Chechen” đầu tiên xuất hiện trong các nguồn tiếng Ả Rập từ thế kỷ thứ 8.

The term “Chechen” first occurs in Arabic sources from the 8th century.

WikiMatrix

Trước thời Liên Xô, thuật ngữ “Lezgin” đã được sử dụng trong các bối cảnh khác nhau.

Prior to the Soviet period, the term “Lezgin” was used in different contexts.

WikiMatrix

Khi mô tả khoa học, hãy cẩn thận khi dùng thuật ngữ.

And when you’re describing your science, beware of jargon.

ted2023

Từ năm 1978, thuật ngữ “Aztec tổng quát” được dùng để chỉ nhánh ngôn ngữ Aztec, trừ Pochutec.

Since 1978, the term “General Aztec” has been adopted by linguists to refer to the languages of the Aztecan branch excluding the Pochutec language.

WikiMatrix

Trong cuốn sách này, ông đã thông qua thuật ngữ của Northbourne về “nông nghiệp hữu cơ”.

In this book he adopted Northbourne’s terminology of “organic farming.”

WikiMatrix

CÁC THUẬT NGỮ VẪN ĐƯỢC SỬ DỤNG THỜI NAY

RENDERINGS THAT MADE HISTORY

jw2023

Thuật Ngữ Y Học Tiếng Anh &Amp; Dịch Thuật :: Việt Anh Song Ngữ

Nguyễn Phước Vĩnh Cố

Nếu ở tiếng Việt, từ ‘vú’ hay ‘ngực’ còn có các uyển ngữ như ‘núi đôi’, ‘đôi gò bồng đảo’, ‘hai trái đào tiên’, và thường dùng hơn cả ‘vòng một’ thì ở tiếng Anh có từ ‘breast(s)’ và ‘boob(s)’ và …

– BREAST(S) /brest/ , BOOB(S) /buːb/ : CÁC TỪ NGỮ ĐỒNG NGHĨA

Tuy nhiên, nếu bạn chỉ cần gõ từ khóa như ‘101 words for boobs’, ‘100 euphemism for boobs’, ‘Slang for boobs’ thì bạn sẽ có hằng hà sa số từ ngữ ‘núi đôi’ mà trong số đó có những từ mà ta chưa nghe qua. Hãy bắt đầu bằng những từ hết sức quen thuộc như:

– ‘breasts’, ‘boobs’, ‘mammory glands’, ‘boobies’, ‘tits’, ‘peaks’ …

– ‘fiery biscuits’ (really!?), ‘melons’, ‘baps’, ‘coconuts’, ‘Yorkshire Puddings’, ‘Bangers’, ‘Cream Pies’, ‘Katy Perry Cupcakes’, ‘Chips and Dips’…

Và cả tên tuổi nổi tiếng như:

– ‘Brad Pitts’, ‘Danny Devitos’…

NÂNG CẤP VÒNG MỘT: TỪ VỰNG PHỔ THÔNG

Nếu bạn hỏi trong tiếng Anh ‘nâng cấp vòng một’ là gì thì câu trả lời là ‘boob job’ (giống như cách thành lập danh từ ghép ‘nose job’ : nâng mũi) như ‘Anna Faris Explains Why She Got a Boob Job (nâng cấp vòng một) Right After Her Divorce …’, hay ’48 reasons not to get a boob job (không nên nâng cấp vòng một)’.

PHẪU THUẬT TẠO HÌNH VÚ/NGỰC: THUẬT NGỮ CHUYÊN NGÀNH

Còn thuật ngữ chuyên ngành y học ‘phẫu thuật tạo hình vú/ngực’ thì tương đương với tiếng Anh là ‘mamma.plasty’ / ˈmaməˌplasti / hay / ‘mammo.plasty’ /ˈmamə(ʊ)ˌplasti/ mà gốc từ La tinh ‘mamma-/ ‘mammo- : vú/ngực và hậu tố ‘-plasty’: tạo hình, một thuật ngữ chung dùng để gọi giải phẫu thẩm mỹ vú/ngực.

– Mamma.plasty / ˈmaməˌplasti /: phẫu thuật tạo hình ngực/vú – Mammo.plasty /ˈmamə(ʊ)ˌplasti/: phẫu thuật tạo hình ngực/vú

3 THUẬT NGỮ CẦN BIẾT ĐỂ NÂNG CẤP VÒNG 1/ PHẪU THUẬT TẠO HÌNH VÚ/NGỰC

Trong giải phẫu thẩm mỹ vú/ngực’, cần phân biệt 3 thuật ngữ sau:

1. BREAST AUGMENTATION /ˌɔːɡmenˈteɪʃn/: PHẪU THUẬT TĂNG KÍCH CỠ VÚ/ NGỰC

(Breast augmentation is mamma.plasty performed to INCREASE breast size. Augmentation means the process of adding to make larger. BREAST AUGMENTATION is the opposite of BREAST REDUCTION).

BREAST AUGMENTATION + ALSO KNOWN AS…

Để biết thuật ngữ ‘breast augmentation’ (phẫu thuật tăng kích cỡ vú/ngực) có còn tên gọi nào khác ở tiếng Anh thì ta chỉ gõ thuật ngữ này với từ khóa tìm đồng nghĩa ‘also/sometimes referred to as…’, ‘also known as…’, ‘also called…’ thì ta có một loạt đồng nghĩa trên nguồn tư liệu trực tuyến như: ‘breast enlargement’, ‘breast enhancement’, ‘breast implants’, ‘augmentation mammaplasty’ hay thường dùng hơn cả là ‘boob job’ mà các thuật ngữ này chưa hề xuất hiện ở các từ điển như Oxford.

– breast enlargement – boob job – breast augmentation – breast enhancement

2. BREAST REDUCTION /rɪˈdʌkʃ(ə)n/: PHẪU THUẬT THU/NHỎ NGỰC

(Breast reduction is mamma.plasty performed to DECREASE breasts and reshape excessively large, heavy breasts. Breast reduction is the opposite of breast augmentation). Một thuật ngữ khác đồng nghĩa với ‘breast reduction’ là ‘reduction mammaplasty’.

3. MASTOPEXY /ˈmastəpɛksi/ BREAST LIFT/BREAST UPLIFT: PHẪU THUẬT NÂNG VÚ/NGỰC CHẢY XỆ

(Mastopexy is a mamma.plasty to affix sagging breast in more elevated position.) Thuật ngữ ‘Mastopexy’ được tạo thành từ một tiền tố Hy lạp ‘Masto-‘ có nghĩa là ‘vú’ (breast) và hậu tố ‘-pexy’ có nghĩa là ‘cố định’

– 3 THUẬT NGỮ LIÊN QUAN ĐẾN THỜI TRANG ‘KHOE’ VÒNG 1

1. Underboob 2. Sideboob 3. Cleavage

1. Underboob /ˈʌndəbuːb/ : Khoe chân ngực, khoe bầu vú dưới – GONE are the days when cleavage was king – underboob (khoe chân ngực) currently rules the roost 2. Sideboob /ˈsaɪdbuːb/ : Khoe phần ngực bên hông/để lộ phần ngực bên hông – There is so much sideboob at Los Angeles awards shows! 3. Cleavage /ˈkliːvɪdʒ/ : Khoe (khe) ngực (áo, đầm xẻ ngực) – She leaned forward slightly, revealing a deep cleavage.

CA SĨ A KHOE ‘VÒNG MỘT’ DỊCH NHƯ THẾ NÀO?

Cách đây không lâu, một tờ báo trên mạng có bài báo nói đến câu tiếng Việt mà trong đó có động từ ‘khoe vòng một’ được coi là có ‘vấn đề’, ‘thách thức’ đối với người dịch. Cái khó ở đây là người dịch khó tìm ra từ ‘tương đương’ ở tiếng Anh với từ tiếng Việt là vòng một. Theo tác giả của bài báo này, ‘khoe vòng một’ mà dịch sang tiếng Anh là ‘show off her hot bust’ thì nghe ‘buồn cười lắm’ (‘bust’ là thuật ngữ chỉ vòng một trong may đo và đo 3 vòng (1,2, 3) cho các người đẹp trong các cuộc thi sắc đẹp) còn dịch là’shows off her curves’ (khoe đường cong) thì không nói cụ thể vòng nào (?). Theo tôi, ‘khoe vòng một’ có thể chọn 1 trong 3 từ trên tùy theo ngữ cảnh vì các nữ ca sĩ, tùy theo ăn mặc để ‘khoe’ còn để dịch câu ‘Ca sĩ A khoe vòng một sang tiếng Anh là: ‘The singer A shows (off) her boobs/breast/tits’ thì dù có thể thay thế các từ ngữ nêu trên nhưng chắc chắn phải mày râu sẽ hiểu theo nghĩa ‘hay ho’ liền. Xin gởi 3 câu dù ở tiếng Anh là các’hình thức’ (từ ngữ) khác nhau nhưng ta có thể dịch ở tiếng Việt là ‘khoe vòng một’.

– Thailand warns women who post ‘underboob’ photos face five years in jail. – Demi Rose shows off her sideboob in a skimpy orange bikini in Ibiza … – Why do girls show cleavage and if someone looks at their breasts they complain about it?

Thầy Nguyễn Phước Vĩnh Cố

Nhóm Nghiên cứu ngôn ngữ, Văn Hóa và Dịch thuật