HF ngày 1: Câu chuyện thứ nhất và thứ hai

Nguồn: Wikimedia

Đây là bài đầu tiên trong loạt bài viết về Phòng thí nghiệm tư duy quan trọng trong phòng thí nghiệm An toàn do Đại học Lund ở Lund, Thụy Điển đưa vào như một phần của yếu tố con người trong ThS An toàn hệ thống. Tôi tham dự với tư cách là người tham gia không tìm kiếm bằng cấp cho phòng thí nghiệm 5 ngày và thấy mình trong công ty của một nhóm đa dạng từ nhiều ngành công nghiệp. Hàng không, hàng hải, y tế, phúc lợi trẻ em, năng lượng hạt nhân, quân đội và các ngành công nghiệp khác đều được đại diện.

Nhiệm vụ của tôi là giúp SRE tại Microsoft học hỏi từ các ngành khoa học xã hội, đặc biệt là Nhân tố con người, khi nói đến việc học hỏi từ sự cố hệ thống và cách xây dựng các hệ thống phức tạp kiên cường. Đã dành thời gian trong Ops, tôi hiểu rất rõ rằng bất kỳ khái niệm nào về một hệ thống không bao gồm các nhà khai thác con người là không đủ.

Trong loạt bài viết này, tôi sẽ thảo luận về những bước tiến quan trọng mỗi ngày và cách chúng có thể áp dụng vào thế giới công nghệ.

1 ngày

Bạn đã xem xét các mục đích khác nhau mà một hậu quả sự cố có thể phục vụ trong một tổ chức chưa? Sidney Dekker định nghĩa như sau:

  1. Nhận thức luận. Đây là một nỗ lực để thu thập sự thật về những gì đã xảy ra dẫn đến, trong và đôi khi sau vụ việc. Đó là một nỗ lực để xây dựng một câu chuyện chính thức của người Viking về những gì đã xảy ra.
  2. Phòng ngừa. Đây là thế giới tôi sống và thở. Những thay đổi nào chúng ta có thể hoặc nên thực hiện để giữ điều này - hoặc một cái gì đó như thế này - không xảy ra trong tương lai?
  3. Đạo đức. Đây là lỗi của ai? Nói chung, xã hội phương Tây mong đợi một thủ phạm khi những điều xấu xảy ra. Bằng cách trừng phạt ai đó, chúng tôi củng cố ranh giới đạo đức và quy định
  4. Hiện sinh. Tại sao những điều xấu xảy ra? Có thể có đau buồn hoặc chấn thương khi một sự cố xảy ra (thường là trong chăm sóc sức khỏe hơn là trong CNTT, nhưng nó vẫn xảy ra) khi chúng ta nắm bắt được thiệt hại gây ra.

Nếu chúng ta bỏ qua các nhu cầu khác nhau mà điều tra sau tai nạn / tai nạn đáp ứng cho mọi người và cho các tổ chức, chúng ta sẽ làm điều đó trong tình trạng nguy hiểm.

Costa Concordia

Không có sự thật cơ bản cho một câu chuyện kể

Øssur Hilduberg, người đứng đầu Ban điều tra tai nạn hàng hải Đan Mạch, đã có một bài giảng tuyệt vời so sánh:

  1. Tường thuật xung quanh chuyến bay 1549 của US Airways (Cơ trưởng Sullenberger) và Costa Concordia (Cơ trưởng Schettino)
  2. Tường thuật chính thức về Costa Concordia như được trình bày bởi Ủy ban Trung ương Điều tra Thương vong Hàng hải Ý so với tường thuật được cung cấp bởi một người có mặt trong thảm họa - chính Thuyền trưởng Schettino

Tôi sẽ cố gắng tóm tắt một số điểm chính.

Sulley vs Schettino

Cơ trưởng Sulley tìm cách hạ cánh máy bay của mình mà không có một nạn nhân nào. Sau khi máy bay của anh ta bị hư hại liên quan đến chim, anh ta đã hạ cánh an toàn xuống sông Hudson. Anh ấy được giới truyền thông miêu tả như một anh hùng, và thậm chí còn được Tom Hanks đóng trong một bộ phim (Cạn mọi người yêu Tom Hanks! Anh ấy là người Mỹ la bàn đạo đức!

Ngược lại, Francesco Schettino được xem rộng rãi như một nhân vật phản diện cho vai trò của mình trong thảm họa Costa Concordia. Ông là một thuyền trưởng người Ý, phụ trách một con tàu Ý, bị chìm trong vùng biển Ý. Ông được miêu tả là một sự ô nhục của quốc gia. Một người lái thuyền hot dog người Viking. Cuối cùng, anh ta bị kết án 16 năm tù. Tất cả điều này mặc dù số lượng thương vong cực kỳ thấp cho một xác tàu nghiêm trọng này.

LƯU Ý: đây sẽ không phải là một nỗ lực để miễn tội Schettino, mà là một cơ hội để suy nghĩ nghiêm túc hơn về những câu chuyện bạn nghe về bất kỳ sự cố nào. Tại sao Sulley là anh hùng, nhưng Schettino là nhân vật phản diện?

Câu chuyện đầu tiên - Câu chuyện chính thức

Dưới đây là một số điểm nổi bật từ cuộc điều tra tai nạn chính thức và các báo cáo phương tiện truyền thông (được trích dẫn kém vì tôi đã cố gắng đưa ra quan điểm, không viết luận văn)

  1. Con tàu được đặt trên tay lái khi ở gần đảo
  2. Thuyền trưởng đã ở trên cầu, nhưng ban đầu không nắm quyền chỉ huy (khó hiểu). Anh gọi điện thoại cho ai đó và đang thảo luận về việc con tàu có thể đến đảo gần đến mức nào.
  3. Con tàu đâm vào một tảng đá - mất điện ngay lập tức. "Quá gần". Cược không an toàn. "Tốc độ cao".
  4. Con tàu đã vượt qua khóa học theo kế hoạch
  5. Quyết định sơ tán là muộn rất muộn sau vụ va chạm. Báo thức không được phát ra ngay lập tức
  6. Thuyền trưởng rời tàu trước khi mọi người được sơ tán

Bây giờ bạn sẽ lưu ý rằng một số trong số này là sự thật (những điều đã xảy ra), những người khác đánh giá cao những phán đoán (người quyết định điều gì quá chặt chẽ là gì?), Và những điều khác vẫn là phản tác dụng (những điều hoàn toàn không xảy ra, nhưng chúng tôi mong muốn đã xảy ra với nhận thức muộn màng của chúng tôi). Bất kỳ và tất cả trong số họ vẽ một tường thuật rõ ràng: một số đội trưởng nóng bỏng đã làm điều gì đó liều lĩnh và khiến mọi người thiệt mạng.

Rõ ràng là tại sao anh ta bị tống vào tù.

Câu chuyện thứ hai

Thông qua các cuộc phỏng vấn với Thuyền trưởng (và các dữ liệu khác), có thể đưa ra một viễn cảnh khác:

  1. Càng quá gần thì tùy ý. Đó là chính sách của công ty và kinh doanh tốt để có được càng nhiều quan điểm thú vị càng tốt. Một vài mét từ bờ không phải là hiếm ở một số địa điểm nhất định. Không an toàn là không bình thường. Mọi thứ chỉ là không an toàn, nếu kết quả xấu.
  2. Phi hành đoàn không làm gì để ngăn chặn vụ va chạm hoặc thông báo cho Thuyền trưởng về sự nguy hiểm mặc dù dữ liệu rõ ràng rằng họ đã vượt qua khóa học của họ.
  3. Các phi hành đoàn chủ yếu là trẻ và thiếu kinh nghiệm. Ngành công nghiệp du lịch đã có sự tăng trưởng theo cấp số nhân trong những năm qua (bao gồm cả công ty du lịch Costa) và các thủy thủ có kinh nghiệm đang bị thiếu hụt.
  4. Các sĩ quan trên cầu có kinh nghiệm tối thiểu đến không có cơ động, vì đó là kiến ​​thức chuyên môn. Schettino dành thời gian mỗi ngày để dạy các sĩ quan. Các sĩ quan trẻ không có khả năng sửa một sĩ quan cao cấp nếu họ không có kỹ năng trong chủ đề này.
  5. Dựa trên cuộc trò chuyện qua điện thoại mà Schettino đã nói về việc chúng ta có thể đến đảo đảo gần như thế nào, họ có thể đã cho rằng việc vượt quá khóa học là có chủ ý (không phải vậy).
  6. Khi Schettino nhìn thấy những gì sai và nhận lệnh, anh ta đã ra lệnh điều động cho người lái xe. Người lái xe không ngay lập tức làm theo. Các sĩ quan có nghĩa là quan sát người lái xe đã không sửa anh ta.
  7. Phải mất vài giờ để có được thông tin rõ ràng từ phi hành đoàn về mức độ thiệt hại. Không rõ có bao nhiêu khoang bị ngập trong một thời gian khá lâu - phi hành đoàn đã không sử dụng thuật ngữ tiêu chuẩn vì họ không quen thuộc với nó. Báo cáo mâu thuẫn với nhau. V.v.
  8. Bỏ rơi tàu vào ban đêm gần đá là nguy hiểm. Khi thiệt hại được cho là không tồi tệ, Thuyền trưởng hy vọng sẽ di chuyển con tàu đến gần bến cảng để nó có thể chìm thẳng xuống vùng nước nông gần sự giúp đỡ. Anh nghĩ mình có thời gian.
  9. Không thể biết bạn có phải là người cuối cùng trên một con tàu đang chìm hay không.
  10. Các thủ tục sơ tán đòi hỏi hàng ngàn người xếp hàng tại các trạm tập trung, báo cáo để thực hiện cuộc gọi và sau đó lên thuyền cứu sinh một cách có trật tự. Hàng trăm hành khách đã không xuất hiện cho điểm danh. Bạn làm gì trong tình huống đó?
  11. Chiếc thuyền đã được liệt kê cho đến nay hầu hết (tất cả?) Của xuồng cứu sinh đều không sử dụng được.

Điều này vẽ một bức tranh khác. Những gì khác có thể được học từ nó? Điều gì có thể là những người không được học hỏi từ các bài tường thuật trước, nếu có gì? Có được sự thật đầy đủ là không thể, nhưng bạn càng có nhiều quan điểm, mô hình sự kiện của bạn càng mạnh mẽ.

Khi nói về việc nhìn lại các sự cố, một cụm từ bạn muốn ghi nhớ là chủ nghĩa đa nguyên nhận thức luận đạo Hồi.

Là hiện thực

Mọi người không chấp nhận báo cáo mà không có trách nhiệm. Mọi người đều hành động hợp lý, nhưng dù sao thì thảm họa đã xảy ra, rất khó để đọc, ngay cả khi đôi khi nó là như vậy. Hãy nhận biết nhu cầu của khán giả và cách bạn theo đuổi một mục tiêu (thỏa mãn chính quyền hoặc đối phó với chấn thương của những gì đã xảy ra) có thể mâu thuẫn với mục tiêu ngăn ngừa các sự cố trong tương lai.

Cuối cùng, một trong những điều tốt nhất bạn có thể làm là nhìn vào một sự việc với sự tò mò, thay vì phán xét. Chúng ta có thể học được gì từ sự kiện này để làm cho hệ thống của chúng ta trở nên linh hoạt hơn? Những gì chúng ta có thể đặt vào vị trí sẽ làm cho một cái gì đó như thế này ít có khả năng? Những câu chuyện và lời giải thích khác nhau dạy chúng ta điều gì về sự kiện này?

Chúng tôi xây dựng các bài tường thuật. Chúng tôi xây dựng nguyên nhân ra khỏi toàn bộ vải. Chúng tôi tìm kiếm ý nghĩa. Làm thế nào để chúng ta tìm cách học hỏi từ sự kiện này?

Nếu bạn lấy đi một điều từ bài đăng này, hãy để nó là phân tích sự cố có thể đi sâu hơn nhiều. Nếu bạn đã từng cảm thấy rằng dịch vụ của bạn đang trở nên tốt hơn, hoặc RCA và postmortem là một sự lãng phí thời gian khốn khổ, hãy biết rằng có một cách tốt hơn. Cam kết cá nhân của tôi là tìm ra cách làm cho mọi thứ trở nên tốt hơn một chút trong thế giới công nghệ, nơi mất điện vừa phổ biến hơn vừa trừng phạt nhiều hơn đối với người dùng trung bình mỗi ngày.

Tìm kiếm bài viết trong 4 ngày khác của hội thảo này cũng như kết luận nhận xét trong tương lai.