Khi cố gắng bắt đầu phiên bản thứ hai trong một cụm RAC hai nút, phiên bản thứ hai sẽ không bắt đầu. Nếu phiên bản trên node1 đang chạy, phiên bản trên node2 sẽ không bắt đầu. Nếu phiên bản trên node2 đang chạy, phiên bản trên node1 sẽ không bắt đầu. Nhật ký Cảnh báo hiển thị những điều sau:
Error: KGXGN polling error (15)
Errors in file /u01/app/oracle/diag/rdbms/bsp/bsp1/trace/bsp1_lmon_9151.trc:
ORA-29702: error occurred in Cluster Group Service operation
LMON (ospid: 9151): terminating the instance due to error 29702
Thật không may, tệp theo dõi LMON chỉ đưa ra các thông báo lỗi giống nhau nên không có gì để tiếp tục.
Lỗi này xảy ra do cấu hình sai cho kết nối cụm-liên. Nếu bạn nhìn vào OCR để xem kết nối cụm, bạn có thể thấy thiết bị NIC là eth4.1338:
[oracle@myhost bin]$ oifcfg getif -global
eth2 192.168.33.0 global public
eth4.1338 10.0.0.0 global cluster_interconnect
Trên một nút, thiết bị eth4 là đúng. Tuy nhiên, trên nút thứ hai, thiết bị là eth5.1338 và OCR được chia sẻ giữa các nút. OCR đang mong đợi thiết bị là eth4.1338. Cả hai máy chủ cần kết nối cụm liên kết trên cùng một thiết bị mạng. Cấu hình mạng của máy chủ đã được thay đổi để cả hai nút đều được định cấu hình trên thiết bị eth5.1338. Sau khi các máy chủ được định cấu hình giống hệt nhau, chúng tôi đã xác định lại cấu hình OCR:
[oracle@myhost bin]$ ./oifcfg setif -global eth5.1338/10.0.0.0:cluster_interconnect
Nhìn vào cấu hình, chúng ta có thể thấy rằng cả eth4 và eth5 vẫn ở trong OCR:
[oracle@myhost bin]$ ./oifcfg getif -global
eth2 192.168.33.0 global public
eth4.1338 10.0.0.0 global cluster_interconnect
eth5.1338 10.0.0.0 global cluster_interconnect
Vì vậy, chúng tôi xóa thiết bị eth4:
[oracle@myhost bin]$ ./oifcfg delif -global eth4.1338/10.0.0.0
Bây giờ chúng tôi đã cấu hình lại OCR. Chúng tôi đã khởi động lại CRS và cả hai phiên bản đều xuất hiện trên cả hai nút!
Đây là một trong những lỗi mà các thông báo lỗi thực sự không chỉ ra nguyên nhân gốc rễ của vấn đề. Thay vào đó, tôi phải thăm dò những khu vực mà tôi cảm thấy có nhiều khả năng là thủ phạm nhất khi tôi phát hiện ra sự khác biệt về cấu hình một cách mù quáng.