Dương Hậu

Monday, July 10, 2017

dang bai test

noi dung dang bai o day

Mr. DUONG Tien Hau

IRD & ICAN Institute
Master Student at IFI-VNU
--------------------------------------------------------------------------------
Mobile: (+84) 9 86 06 92 41 or (+84) 9 61 37 10 96
Email: dthau.it@gmail.com or dthau@ifi.edu.vn
--------------------------------------------------------------------------------

Tuesday, February 28, 2017

Theme free và vấn đề Brute force attack

Hôm nay ngồi rảnh check server thấy có gì đó sai sai, thấy server khá bận bịu cho một website chẳng có ai truy cập. Mò đọc log thì thấy đoạn này.

Như bạn thấy, có khá nhiều request vào đường dẫn domain/wp-login.php trong một thời gian ngắn, đến từ cùng 1 ip. Rõ ràng có ai đó đang cố gắng dò password website bằng cách thử đăng nhập rất nhiều lần liên tiếp vào website.

Theo wiki, kiểu tấn công brute force là kiểu tấn công được dùng cho tất cả các loại mã hóa. Brute force hoạt động bằng cách thử tất cả các chuỗi mật khẩu có thể để tìm ra mật khẩu. Vì thế nên thời gian cần rất lâu, tùy theo độ dài của mật khẩu nhưng khả năng để tìm ra là luôn luôn nếu không giới hạn thời gian. Brute force chỉ được dùng khi các phương pháp khác đều không có hiệu quả.

Mình có 2 web cài theme free, cả 2 web này đều bị tấn công Brute force, ngày trước có nhiều lần mình không hiểu lý do tại sao web mình bị cài shell mặc dù VPS mình kiểm soát hoàn toàn, không chung đụng với ai. Hóa ra, những web trước đó đã bị dò mật khẩu theo cách này. Cơ chế khá đơn giản, khi cài theme free, trong theme thường có một vài thứ mình không muốn: đó thường là những đoạn script ngấm ngầm gửi thông tin về server của hacker. "Chúng nó" sẽ dùng thông tin này để tấn công website của bạn bằng nhiều cách khác nhau.

Biết nguyên nhân rồi, giờ phòng tránh thế nào.

Không sử dụng username là 'admin'.

Phần lớn các scripts chạy brute force giả định rằng tên user chính của website (administrator) là 'admin'. Scripts này chỉ cần giữ nguyên username và thử với các mật khẩu thông dụng khác nhau. Chẳng may mật khẩu của bạn dễ, thế là xong đời website. Nếu bạn vẫn đang để user chính là admin thì có thể tạo 1 user khác, gán quyền đầy đủ và chuyển toàn bộ bài viết của admin cho user mới này, sau đó chuyển user admin thành subcriber (hoặc là xóa luôn cho lành).

Sử dụng mật khẩu mạnh

Ngày trước có một khách hàng gọi điện cho mình phàn nàn là website của anh bị hack, bọn em code web bảo mật kém. Hỏi anh để mật khẩu thế nào, ông ấy hồn nhiên trả lời là thì vẫn mật khẩu 123456 em đưa cho anh từ năm ngoái, anh vội nên chưa kịp đổi. Kiểu brute force attack sẽ thử mọi mật khẩu, bắt đầu từ những mật khẩu phổ thông trước. Nếu bạn đang để mật khẩu đơn giản, hãy thay đổi ngay hôm nay. Nếu không biết cách tạo một mật khẩu mạnh thì vào đây.

Sử dụng plugins

Bản thân mình không phải là người ưa dùng plugin lắm, quá nhiều plugin làm chậm tốc độ website. Tuy nhiên, plugin giúp bảo vệ site là cần thiết. Một trong số những plugin chuyên để trị Brute force attack là SiteGuard. Một vài chức năng của plugin này:

Lọc các kết nối đến wp-admin.
Thay đổi đường dẫn admin page, không còn wp-admin nữa.
Capcha.
Giới hạn login sai, khả nghi thì block luôn ip.
Fail once: chức năng này đôi lúc gây bực nhưng cũng hay lắm, tức là lần đầu login dù nhập đúng hết thông tin nó cũng báo sai, lần thứ 2 login thì vào được. Ngày trước login vào http://www.gettyimages.com/ không biết có chức năng này, login vào cứ thấy nó báo sai, tưởng là mình change mật khẩu xong rồi mình quên. Về sau biết kiểu của nó rồi thì cứ login lần 2 là được.
...

Hạn chế sử dụng theme free

Mình cũng không hô hào các bạn phải bỏ tiền ra trả phí cho theme xịn. Nhưng cố gắng hạn chế tối đa theme free. Ở trên mạng chả tin được thằng nào, nó cứ nói là theme sạch nhưng bên trong có đầy scripts độc hại.

Monday, January 16, 2017

AI/ML có thể giúp tạo giá trị cho công ty của bạn như thế nào?

Bài này thực tế không phải do tôi viết, tôi chỉ dịch lại một bài đăng trên fast.ai.
Thế giới đã ứng dụng AI (artificial intelligence) /ML (machine learning) từ khá lâu và trong nhiều lĩnh vực. Tuy nhiên tôi thấy doanh nghiệp Việt chưa tận dụng tốt công nghệ này vào trong hoạt động sản xuất, kinh doanh. Đó là một điều lãng phí rất lớn. Bài này sẽ liệt kê ra một số (một lượng tương đối nhỏ) ứng dụng của AI/ML giúp tạo giá trị cho doanh nghiệp: tiết kiệm nhân công, chi phí, tăng khả năng quản lý, tăng sale...Bài viết gốc người ta chỉ liệt kê ra hướng áp dụng, tôi sẽ đưa vào một số ví dụ để anh chị dễ hình dung.

Tìm dữ liệu trùng lặp trong một dataset lớn, chưa được làm sạch

Ví dụ bạn có thông tin của 100 000 khách hàng tiềm năng thu từ nhiều nguồn khác nhau, nhiều bản ghi trong đó là trùng lặp (có thể do viết sai chính tả, viết Trần Hưng Đạo thay vì đường Trần Hưng Đạo, viết 0986xxxx thay vì (+84) 986xxxx). Lọc thủ công từng bản ghi thì tốn nhiều công sức, một chương trình nhỏ có AI sẽ giúp bạn nhận diện và loại bỏ những bản ghi trùng một cách nhanh chóng.

Giới thiệu, khuyến nghị sản phẩm phù hợp với nhu cầu khách hàng

Ví dụ bạn có một website bán hàng trực tuyến, bạn biết là khách hàng mua cái áo A sẽ có xu hướng mua thêm cái quần B cho hợp bộ. Với lượng sản phẩm ít, bạn có thể viết trực tiếp lên web để khách biết là quần B thường hay kết hợp với áo A. Tuy nhiên với lượng sản phẩm nhiều thì việc đó tốn nhiều công sức. Thay vì thế, một chương trình AI sẽ theo dõi lịch sử các đơn hàng, nó sẽ nhận diện được là khách hàng hay mua quần B với áo A chung với nhau. Khi một khách hàng mới đặt áo A vào giỏ hàng, nó sẽ khuyến nghị khách hàng đó mua thêm quần B hoặc các loại phụ kiện X, Y, Z phù hợp. Như vậy giúp gia tăng doanh số thông qua upsale. Amazon làm rất thành công việc này.

Giới thiệu khóa học

Tương tự việc giới thiệu sản phẩm như ở trên, nhưng trong trường hợp này hệ thống AI sẽ nghiên cứu lịch sử học của 1 học viên, rồi từ đó giới thiệu khóa học phù hợp. Ứng dụng này thích hợp cho các website đào tạo trực tuyến. Coursera làm rất tốt việc này.

Phát hiện chủ đề bài viết

Cái này có khá nhiều ứng dụng đấy ạ. Một ví dụ đơn giản là bạn có một con bot AI đi lùng xục khắp nơi trên internet, tìm bài hay bài hot theo chủ đề bạn quan tâm rồi đăng tự động lên website của bạn. Bạn thử nghĩ xem, sẽ tiết kiệm được một lượng tiền nhất định trả lương cho người làm content. Hoặc nếu bạn vẫn muốn có người làm content trong công ty, ứng dụng này sẽ giúp họ thu thập thông tin và làm việc hiệu quả hơn.

Gom nhóm đối tượng (pattern clustering)

Bạn có một tệp khách hàng lớn, trong số khách hàng đó có thể chia ra làm nhiều nhóm, nhiều phân khúc khác nhau. Nếu áp dụng cùng 1 chiến lược marketing cho toàn bộ thì bạn sẽ lãng phí chi phí marketing. AI có thể giúp bạn gom nhóm khách hàng của bạn thành các nhóm, mỗi nhóm áp dụng 1 chiến lược marketing sẽ giúp bạn tối đa hóa hiệu quả và lợi nhuận.

Phân loại cảm xúc (sentiment classification)

Bạn mới đưa sản phẩm ra thị trường, rất nhiều người đã tiếp cận sản phẩm của bạn. Bạn muốn tìm hiểu xem họ đánh giá, khen chê, yêu ghét sản phẩm của mình như thế nào. Đi hỏi từng người thì tốn công sức và nhiều khi bất khả thi. Bạn có thể đánh giá cảm xúc người tiêu dùng thông qua những gì họ bàn luận về sản phẩm của bạn trên diễn đàn, mạng xã hội... AI sẽ giúp làm việc đó cho bạn một cách tự động.

Phát hiện sai sót (Detecting fraud)

Trong một số ngành công nghiệp sản xuất, người ta kiểm tra sản phẩm lỗi bằng AI. Sản phẩm được đưa qua băng chuyền, có 1 camera để chụp lại ảnh từng sản phẩm. Hệ thống AI đã được dạy (training) từ trước đó để nhận diện đâu là sản phẩm tốt, đâu là sản phẩm lỗi. Hệ thống sẽ thông báo cho người quản lý biết khi có sản phẩm lỗi chạy qua băng chuyền.

Đánh giá tín dụng (Credit risk modeling)

Cái này ngân hàng thường hay làm để quyết định cho vay hay không cho vay. Họ dựa vào profile của khách hàng như thu nhập, học vấn, lịch sử giao dịch, nơi sinh sống để đánh giá đây là profile tốt hay không. Một hệ thống AI có thể giúp cho ngân hàng làm được việc đó với độ chính xác hơn 80%. Quyết định cuối cùng được thực hiện bởi nhân viên ngân hàng.

Phát hiện xâm nhập (Intrusion detection)

Bạn đi vắng, trong nhà bạn có nhiều tài sản quý giá. Một hệ thống AI (kết hợp camera) sẽ giúp cho bạn theo dõi toàn bộ căn nhà của bạn để bạn yên tâm khi đi ra ngoài. Khi phát hiện người lạ xâm nhập, nó sẽ đổ chuông hoặc gửi tin nhắn đến điện thoại của bạn.

Phát hiện khuôn mặt hoặc tài liệu (Face- and document detection).

Bây giờ cũng đã có một số doanh nghiệp áp dụng chấm công bằng phát hiện gương mặt thay vì camera.

Chat bots

Cách đây chừng 5 tháng, một công ty lớn của Nhật mời đơn vị thiết kế cho họ một con chat bots, con bots này sẽ học cách nói chuyện của 1 người sau đó thay người đó chat với khách hàng, đối tác, bạn bè... Ngân sách cho dự án này là 600 000 $.

Theo dõi sức khỏe

Dựa vào các số liệu sức khỏe đo được từ các loại thiết bị thông minh.Hệ thống AI có thể cung cấp cho bạn biết tình trạng sức khỏe của bạn cũng như các khuyến nghị.

Quy hoạch giao thông và tư duy ăn xổi.

Gần đây dân tình nói về chuyện tắc đường nhiều quá, có vẻ như tắc đường đã vượt quá giới hạn chịu đựng của phần đông mọi người. Đến mức có hẳn một giải thưởng lớn trị giá mấy tỷ đồng cho ai hiến kế giảm tắc đường. Tôi chưa biết thể lệ cuộc thi cũng như cách xét duyệt ý tưởng đằng sau như thế nào nhưng tôi cho rằng nó sẽ không đi về đâu cả. Nó chợt làm cho tôi liên tưởng tới ngày xưa người ta hay tổ chức các cuộc thi làm thơ ca, hò, vè về Đảng, về đất nước, về Bác cách đây chừng 10 năm trên sóng radio, cũng chỉ là tổ chức cho vui thôi chứ không mang lại hiệu quả.
Bối cảnh đằng sau cuộc thi thì ai cũng biết: Hà Nội và thành phố Hồ Chí Minh tắc đường quá nhiều, người ta đề xuất cái gọi là xe buýt nhanh với hi vọng cải thiện được ít nhiều tình hình. Xe buýt nhanh cũng không làm được gì nhiều, trong khi tiêu ngân sách của nhà nước một khoản không nhỏ (tôi không muôn nói là khổng lồ). Bản thân tôi cũng ủng hộ giải pháp hướng người dân sang phương tiện công cộng, đây là xu thế tất yếu của nhân loại, rất nhiều nước phát triển đã làm thành công. Tôi cũng đánh giá cao tinh thần học hỏi mô hình xe buýt nhanh của các bác lãnh đạo, nó cho thấy là ít nhất các bác ấy cũng học hỏi, tiếp thu cái mới, tuy nhiên bê nguyên mô hình của nước ngoài vào thì hiệu quả sẽ khác, ở Hà Nội thì ai cũng thấy rồi tôi không nêu thêm nữa.

Giờ trở lại với câu chuyện chính, sở dĩ tôi cho là cuộc thi này không đi đến đâu cả vì trong cuộc thi này sẽ có nhiều ý tưởng thuộc về 2 nhóm lớn:
- Nhóm ăn xổi, ngắn hạn: Dân tình facebook đang đề xuất nhiều ý tưởng kiểu này. Ý tưởng dạng này dễ áp dụng hơn, vừa tầm duyệt của các bác lãnh đạo hơn, có hiệu quả tức thì (theo hướng nào thì không biết) nhưng không giải quyết được cốt lõi vấn đề, nhất là dân số Hà Nội tăng ngày một nhanh. Một số ý tưởng dạng này đã từng được triển khai như xe biển chẵn biển lẻ, đổi giờ làm, cấm xe nọ xe kia....
- Nhóm ý tưởng nghiêm túc, dài hơi: Một số người tâm huyết đưa ra những ý tưởng dài hạn hơn. Ví dụ bác Lương Hoài Nam đề xuất là xây hẳn một thành phố khác, quy hoạch quy củ từ đầu, chứ Hà Nội giờ nát lắm rồi, càng sửa càng nát. Ý tưởng này hay nhưng khó đoạt giải vì nó xa quá, lớn quá, cần nhiều vốn quá, còn lâu mới nhìn thấy hiệu quả trong khi nhiệm kỳ của các bác trên sở bộ thì có 4-5 năm thôi, tội gì theo đuổi cho mệt rồi người khác lại được báo cáo thành tích. Cũng có ý tưởng khác là không cần xây thành phố mới, đầu tư làm giao thông công cộng ở Hà Nội cũng được, làm Metro, làm đường trên cao...Tôi đánh giá làm Metro ở Hà Nội bây giờ là bất khả thi, dân tình ở kín mít rồi, giá đất cũng chát, bây giờ đào một đường ngầm không phải đơn giản chứ đừng nói là một hệ thống Metro. Mà cứ cho là làm được một đường thì 1 tuyến cũng không đóng góp được nhiều lắm, chỉ những người đi lại trên tuyến đó sử dụng, những người ở khu vực khác vẫn phải vật lộn trên mặt đất. Đường trên cao thì tôi không muốn nhắc đến, nhìn mấy ông Tàu làm mãi không xong cũng đủ ngán ngẩm rồi.
Tôi ủng hộ những ý tưởng mang tính đi trước thời đại như của bác Nam. Lý do là bởi chỉ có những bước đi như vậy mới thay đổi cơ bản được tình hình. Ở phương tây (tôi không muốn so sánh nhưng vẫn phải làm) người ta quy hoạch giao thông, nhà cửa cho ít nhất là 50 năm thậm chí 100 năm sau.

Đơn cử, trước tôi có dịp sống tại Paris một thời gian, hàng ngày tôi đi làm, đi chơi trên hệ thống tàu điện ngầm rộng rãi, sạch sẽ. Tôi tự hỏi sao đất ở Paris đắt thế mà người ta dành ra được nhiều diện tích xây đường xá, tàu điện ngầm đến vậy. Nói không ngoa, chứ ở Paris bạn có thể đi từ một điểm đến bất cứ nơi nào trong thành phố bằng tàu điện ngầm. Tôi tìm hiểu thì hóa ra họ đã quy hoạch các tuyến Metro ấy từ cách đây hàng trăm năm. Họ đã có kế hoạch vào nhưng năm 1850, tuyến đầu tiên khánh thành vào 19 tháng 7 năm 1900. Giai đoạn cuối thế kỷ 19 ở Paris dân số không phải lớn lắm, hệ thống giao thông đường bộ vẫn thừa sức đáp ứng nhu cầu đi lại của người dân. Vấn đề là ở tầm nhìn của lãnh đạo, họ ước tính rằng với mức độ tăng dân số như vậy thì trong vòng 50 năm nữa, 100 năm nữa thì đường xá sẽ trở nên nhỏ so với nhu cầu đi lại, bây giờ tranh thủ nhà vẫn còn thưa, đất vẫn còn rẻ ta quy hoạch sẵn, xây được đến đâu thì xây, con cháu xây tiếp. Tuyến tàu A ở Paris là tuyến tàu có lượng chở người lớn nhất châu Âu, tôi đi thì thường thấy tàu chạy vẫn ổn, ít khi có cảnh quá tải (trừ đợt có bóng đá, quốc khánh...). Đang chạy ổn như vậy thì không cần cơi nới sửa chữa làm gì, để ngân sách làm việc khác. Nhưng không, họ đang triển khai một đợt mở rộng cỡ lớn trên tuyến A để đáp ứng nhu cầu đi lại của Paris trong vòng 40 năm nữa.

Một câu chuyện khác không liên quan đến giao thông lắm nhưng có liên quan đến tầm nhìn quy hoạch. Câu chuyện diễn ra ở Tokyo. Vào năm 1925 người ta đề xuất xây dựng một cống ngầm nối liền giữa các thành phố lớn của Nhật Bản. Cống ngầm này đặt sâu 50 mét, rộng cỡ 1 cái xe tải, dài tổng cộng 650km. Mục đích chính của hệ thống cống ngầm đó là để truyền tải tín hiệu điện tín, điện thoại (internet còn lâu lắm mới xuất hiện). Vì sao chỉ truyền tín hiệu điện tín mà người ta đầu tư xây dựng một tuyến cống ngầm lớn thế làm gì, chăng dây trên cột như ở Việt Nam thì đỡ tốn tiền hơn nhiều chứ? Tôi chưa có thời gian tìm hiểu xem ai đã ký quyết định phê duyệt dự án đó, nhưng tôi nể phục tầm nhìn của ông (giờ phải gọi bằng cụ rồi) sát đất. Ngày nay tuyến cống ngầm đó đáp ứng nhu cầu truyền tải điện, internet cáp quang, tín hiệu điện thoại, viễn thông nói chung cho cả nước nhật. Không có cảnh cứ đào lại lấp như thường thấy khi bạn bước ra khỏi cổng.
Tóm lại, tôi nghĩ cần có hướng đi dài hơi hơn. Hiện tại ngoại thành đất đai vẫn còn rộng, giá chưa quá cao. Nếu như bây giờ quy hoạch sẵn đường xá, cầu cống cho quy củ, con cháu chúng ta sẽ đỡ phải khốn khổ như chúng ta bây giờ. Tôi vẫn mong muốn một ngày, dù mưa dào hay nắng to tôi không phải chen chúc ngoài đường để đi làm. Ngồi trên một tuyến Metro, đọc một tờ báo hay một cuốn sách, thư thả ngồi nghĩ về đời, về cuộc sống mặc bên ngoài gió rét bão bùng thích thú biết chừng nào.

Tuesday, January 10, 2017

Vài nhận định cá nhân khi làm binning short gun sequences

Anh chị nào làm trong mảng bioinformatic hoặc metagenomic thì có thể đã biết có 2 hướng phổ biến để làm binning sequence là: composition base (k-mers) và abundance base (cũng có tác giả sử dụng cả 2 features trên). Với kinh nghiệm cá nhân, cũng như đọc các nghiên cứu trước, tôi đưa ra một vài nhận định về ưu điểm và hạn chế của 2 phương pháp này.

Composition base:

Phương pháp này dựa trên mô hình bag of word trong NLP. Ý tưởng chính là trích rút ra frequency (tần suất) của k-mers (A,T,G,C).
Ưu điểm:

Tương đối đơn giản.
Chạy nhanh.
Không tốn tài nguyên máy tính (RAM).

Nhược điểm:

Không hiệu quả khi phân biệt 2 loài giống nhau (similar), đặc biệt nếu 2 loài cùng genus và có composition tương đối giống nhau thì phương pháp này phân biệt không tốt.

Abundance base

Ưu điểm:

Hiệu quả hơn composition base trong việc phân biệt các loài gần giống nhau.

Nhược điểm:

Chạy tốn tài nguyên : thời gian, bộ nhớ.

Đôi khi nhiều sequence có abundance profile tương đối giống nhau lại không thuộc cùng một loài: có thể do nó ngẫu nhiên giống nhau, hoặc sự suất hiện của loài nọ có liên hệ với sự xuất hiện của loài kia.

Tóm lại, cả chục năm nay người ta vẫn đang cố gắng để hiểu về thế giới vi sinh vật bằng phương pháp metagenomic. Tuy cũng đã thu được nhiều thành tựu nhưng vẫn còn rất nhiều việc để làm.

Chuyện "vui" về hành vi giao thông của người Trung Quốc

Giai đoạn tôi vào Sài Gòn có ở cùng phòng với 1 cô bạn người Canada, đây là một người khá thú vị, cô bạn này đã dành cả năm vừa rồi để đi chu du khắp 5 châu lục (chưa có ý định trở về), vừa đi vừa làm thêm để kiếm tiền rồi lại đi tiếp. Trong nhiều câu chuyện cô kể trên hành trình của mình tôi cảm thấy có một chuyện khá thú vị.

Đó là ở một số nơi như Đài Loan,Úc...người ta đặt các biển cảnh báo cho tài xế là khu vực này có nhiều người Trung Quốc sinh sống. Những tấm biển này là để các tài xế chú ý để lái cẩn thận hơn, hạn chế tai nạn trong khu vực đó. Nguyên nhân sâu xa là nhiều người Trung Quốc lái xe rất là ẩu và không tuân theo luật lệ giao thông ngay cả khi họ ở nước ngoài: họ chạy băng qua đường, họ tạt đầu xe đột ngột mà không có signal... "They kill many foreigns peoples" đó là những người bản địa nói về người Trung Quốc khi tham gia giao thông tại đất nước của họ.

Hi vọng là người Việt mình khi tham gia giao thông ở nước ngoài tuân thủ giao thông để người ta không phải dựng lên những biển cảnh báo như trên.

Tuesday, October 27, 2015

Tp2 apprentissage automatique

Tp này liên quan đến việc xây dựng mạng neuron đơn giản để phân lớp đối tượng.

Download
Rapport
Source code