Rất nhiều SEO thích mổ xẻ thuật toán Penguin khi lần đầu tiên tìm hiểu về các bản cập nhật. Năm ngoái, Anh (uk) dựa vào MathSight sử dụng kỹ thuật đảo ngược để xác định các yếu tố của Penguin 2.0 khi nhắm mục tiêu vào một trang web. Gần đây, MathSight đã tìm hiểu về Penguin 2.1 và tiết lộ thêm một số manh mối về thuật toán đặc biệt này. Trước Penguin 2.1, Andreas Voniatis – giám đốc điều hành của MathSight cho biết rằng điều quan trọng là cần phải hiểu được các nguyên nhân cốt lõi của vấn đề. Ông nói: "Nhiều người quên rằng hồ sơ liên kết trong inbound hoặc outbound có nguồn gốc từ trang web". Vì vậy, bằng cách phân tích SEO on-site trên trang web, chúng tôi đang tìm kiếm các thuộc tính hiệu quả của các trang liên kết bên ngoài cho Penguin 2.0. Nhưng đó là câu chuyện về Penguin 2.0, MathSight nói tất cả các mục tiêu “khả năng đọc thấp” nội dung trên một trang web đặc biệt là khi nhìn vào toàn bộ nội dung, anchor text, hyperlinks và các thẻ thông tin. Vì vậy, thời gian dành cho Penguin 2.1 sẽ là gì? Dữ liệu của MathSight cho thấy các trang web được và mất lưu lượng truy cập từ Penguin 2.1 đã có các liên kết từ các trang web có chứa: - Tỷ lệ cao hơn (tốt) hoặc thấp hơn (xấu) các từ hiếm gặp trong toàn văn bản. - Số từ cao hơn (tốt) hoặc thấp hơn (xấu) trong mỗi câu của toàn văn bản - Số lượng âm tiết cao hơn (tốt hơn) hoặc ít hơn (xấu) cho mỗi từ trong toàn văn bản. Lý thuyết dữ liệu của MathSight có thể hỗ trợ tối ưu SEO về các liên kết đến trang web chất lượng thấp và rằng yếu tố “chất lượng” bị cản trở trên nội dung. Khả năng đọc nội dung từ liên kết trang web có ảnh hưởng như thế nào đến việc xem trang web đích – đó là các trang web được liên kết đến. Các trang nên loại bỏ các liên kết từ các trang không đáp ứng ngưỡng khả năng đọc. “Khả năng đọc” là cách Penguin làm sạch các liên kết trên nội dung. Vậy, Penguin 2.1 khác nhau như thế nào? Khi chúng tôi so sánh giữa Penguin 2.1 và 2.0 chúng tôi nhận thấy rằng các thuật toán đã được tinh chỉnh nhiều hơn để đọc được các số liệu. Vì vậy, dường như Google đang cố gắng để tìm kiếm những giới hạn của những trang web spam bằng cách tinh chỉnh các công thức có thể đọc được của nó. Công thức được sử dụng để xác định khả năng đọc bằng cách sử dụng thang điểm Flesh Kincaid như sau: RE = 206.835 – (1.015 x ASL) – (84.6 x ASW) Trong đó: - RE là khả năng đọc dễ - ASL là trung bình chiều dài câu (số từ chia cho số câu) - ASW là số âm tiết trung bình cho mỗi từ (số lượng âm tiết chia cho số lượng từ). Voniatis nói: "Điểm số thấp hơn nghĩa là văn bản để đọc khó hơn, nội dung có lợi hơn dành cho thuật toán Chim cánh cụt". Số liệu thống kê ANOVA (phân tích phương sai) cho thấy sự chắc chắn Flesch-Kinkaid là nguyên nhân chiếm 99% tỷ lệ gây ra sự thay đổi trong lưu lượng truy cập do Chim cánh cụt. Theo số liệu của MathSight, cột màu đỏ trong đồ thị trên cho thấy những yếu tố trong các nơi được cho là nguyên nhân gây ra bởi Chim cánh cụt. Các cột màu xanh lá cây là những yếu tố mà các trang web được hưởng lợi từ Penguin 2.1. Vậy, SEO có thể làm gì với tất cả các dữ liệu này? Voniatis cho biết số liệu thống kê cho chúng tôi biết thành phần bí mật nhưng không phải là lý do tại sao Google đang sử dụng khả năng đọc. Tôi nghĩ rằng Google đã tìm thấy khả năng đọc một cách dễ dàng bằng cách giảm các liên kết từ các bài viết guest posts được viết bởi những người không được gọi là “chuyên gia”. Ông cũng nói thêm rằng các chuyên gia SEO có thể kiểm tra khả năng đọc của tất cả các liên kết trên nội dung trang web bằng tay tất bằng cách sử dụng các công cụ trực tuyến miễn phí. Nhưg API của MathSight thưc hiện đầy đủ và hiệu quả hơn bằng cách thu thập dữ liệu liên kết trên cả on-site lẫn off-site để đánh giá khả năng đọc và trả lại với một ngưỡng tối ưu nào đó, vì vậy SEO có thể phủ nhận các liên kết hoặc tu sửa lại nội dung trên các trang đích. Và ông nói “ngưỡng được cập nhật mỗi khi thuật toán được cập nhật”. - Ghi rõ nguồn www.thegioiseo.com khi đăng tải lại bài viết này. - Bài viết có tham khảo nội dung của tác giả Jessica Lee (SEW). - Link bài: Tìm hiểu các yếu tố quan trọng trong Penguin 2.1